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新 世纪 的 朝阳 刚刚 露出 丝 抹 微 红 ， 如 火 如 茶 的 全 球 信 息 化 浪潮 便 漠 涌 而 至 ， 丰 人 无 时 尤 刻 不 
感受 到 新 一 轮 上 产业 音 命 的 气息 。 如 何在 这 场 变 革 中 占 尽 先 机 ， 既 是 对 民族 信息 业 的 挑战 ， 也 是 机 
迪 。 从 而 ， 作 为 民族 信息 产业 发 展 基 石 的 高 等 教育 事业 研 被 赋予 了 比 以 往 更 重 的 区 任 ， 对 培养 和 
EMRIN 21 世纪 的 一 代 新 人 提出 了 更 高 的 要 求 。 但 在 计算 机 科学 突 飞 狐 进 的 同时 ， 专 业 教 材 的 
发 展 芭 严重 洲 后 ， 越 来 越 成 为 人 才 培 养 的 痊 歼 。 同 时 ， 以 美国 为 代表 的 西方 国家 计算 机 科学 教育 
经 历 了 元 分 的 发 展 ， 产 生 了 一 批 有 着 已 人 影响 力 的 经 典 教材 ， 因 此 ， 以 批判 、 借 鉴 的 态度 有 选择 
地 引进 这 些 国外 经 典 计 算 机 教材 ， 将 促进 国内 教学 体系 和 国外 接轨 ， 大 大 推动 我 国 填 算 机 教育 事 
业 的 发 展 。 

中 国电 力 出 版 社 进 入 计算 机 图 书市 场 已 有 近 6 个 年 涉 ， 通 过 坚持 “高 鼎 、 精 马 、 经 典 ” 战 略 ， 
BAF Sb AA HL aE, 出 版 了 大 批 博得 计算 机 业界 和 教育 界 赞誉 的 作 上 号 ,通过 与 信息 技 
本 教育 内 人 二 的 广泛 沟通 ， 同 时 依托 丰 寓 的 出 版 资源 ,中 国电 力 出 版 社 适时 推出 了 “国外 经 典 夺 算 
机 科学 教材 ”的 出 版 计划 。 本 次 教材 出 版 计划 是 和 美国 最 大 的 计算 机 教育 出 版 机 构 Pearson 教 
育 集团 (Addison-Wesley、Prentice-Hall 等 名 为 其 下 属 耻 公司) 合作 ， 依 托 其 数 十 年 积累 的 大 批 
经 典 教材 资源 ， 确 保 了 教材 选 题 的 权威 经 典 。 

为 保证 这 套 教 材 的 含金量 ， 并 做 到 有 的 放 矢 ， 我 们 在 国内 组 织 了 由 中 国 科 学 院 、 北 京 大 学 等 
一 流 院 校 教 师 组 成 的 专家 指导 委员 会 ， 对 融 校 课程 教学 体系 做 了 系统 、 详 细 的 调 存 ， 昕 取 了 众多 
教育 专家 、 行 业 专 家 的 意见 ， 对 教育 部 的 教育 规划 进行 了 认真 研究 ， 并 深入 了 解 国外 大 学 实际 教 
学 选用 的 教材 状况 , 对 国外 教材 做 了 理性 的 分 析 , 确立 了 依托 国家 教育 计划 、 传播 先进 教学 理念、 
为 包养 符合 社 会 需要 的 高 素质 创新 型 人 才 服 务 ， 来 作为 本 次 “国外 经 典 计 算 机 科学 教材 ”出 版 计 
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1. 深入 理解 国内 的 教学 体系 结构 ， 并 比照 国外 相同 专业 的 课程 设置 ， 既 具有 现实 的 适用 性， 
义 开 是 发 展 眼 光 ， 具 备 一 定 的 前 瞻 性 。 

2. 以 计算 机 专业 的 核心 雄 程 为 基础 ， 同 时 配合 专业 教学 计划 ， 和 争取 逢 盖 专 业 选 修 谍 程 和 专 
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3. 选取 国外 的 最 新 教材 版 本 ， 同 时 对 照 国 内 同 专业 课程 的 学 时 要 求 ， 对 不 适用 的 版 本 进行 
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6. 对 教材 出 版 的 后 期 工作 ， 如 审 校 、 编 辑 、 排 版 、 印 刷 进 行 了 严格 的 质量 把 关 。 


经 过 专家 指导 委员 会 的 集体 讨论 ， 并 广泛 听取 广大 高 等 院 校 师 生 的 意 多 ,反复 比较 ， 从 数 百 
种 国外 教材 中 六 选 出 数 十 种 ， 列 入 第 一 阶段 的 出 版 计划 。 这 些 教 材 的 作 首 万 一 不 是 学 昌 RIA 
师 ， 如 Stallings, Date, Ullman, Aho, Bryant, Sedgewick 等 ， 他 们 的 作品 均 是 一 版 再 和 版， 并 概 
众多 国外 一 流 大 学 如 Stanford University, MIT, UC Bekerley, Carnegie Mellon Univeristy, 
University of Michigan 等 采用 为 教材 。 拟 订 的 第 一 阶段 出 版 计划 包括 30K AE. ARB RAS 
设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 编 译 原理 、 软 件 工程 、 图 形 学 、 遂 信和 与 
网 络 、 离 散 数 学 等 计算 机 专业 核心 基础 课程 ， 茜 本 满足 国内 计算 机 专业 的 教学 要 求 ， 

此 外 ， 为 了 帮助 广大 任课 教师 加 深 对 本 系列 教材 的 理解 ,减轻 他 们 的 备 谍 难度 ， 我们 从 国外 
出 版 机 构 引 进 了 大 批 的 课程 教学 辅助 资料 ， 并 积极 延 请 力 内 优秀 教师 , 根据 其 使 用 该 系列 教 材 中 
的 教学 经 验 ， 着 手 编写 更 加 适合 国内 应 用 状况 的 教 辅 材料 。 

由 于 我 们 对 国内 高 校 计算 机 教育 存在 认识 深度 上 的 不 足 ， 在 选 题 、 翻 译 、 编 辑 加 工 出 版 等 方 
面 的 工作 中 还 有 许多 有 待 提高 之 处 ， 晨 请 广大 师 生 和 读者 提出 批评 和 建议 .并 期 竺 有 更 多 的 人 可 
入 到 我 们 的 工作 中 来 。 我 们 的 联系 方式 是 : 

电子 邮件 : csbook@cepp.com.cn 

联系 电话 : 010-88515918-300 

联系 地 址 : 北京 市 西城 区 三 里 河 路 6 号 中 国电 力 出 版 社 

邮政 编码 : 100044 


译 SF 


作为 一 个 程序 员 ， 我 们 经 常 被 一 些 奇 怪 的 程序 问题 所 困扰 。 例如 最 近 , 我 的 一 位 朋友 从 经 典 的 数 
fa fa Fs Le 了 一 段 关 于 计算 有 加 图 的 图 数 实现 代码 , 这 个 函数 实现 在 gee 环境 下 的 编译 一 点 问题 都 
没有 ,但 只 要 一 实际 运行 ， 就 会 报 段 错误 。 我 看 了 这 段 代码 后 ， 立 刻 就 意识 到 问题 出 现在 哪里 了 一 一 
他 在 图 数 实现 里 分 配 了 一 个 16MB 的 局 部 变量 导致 栈 洲 出 。 类 似 这 样 的 问题 ,还 会 有 许多 。 不 过 在 这 
些 问题 中 , 让 程序 员 有 麻烦 的 已 经 不 是 编程 语言 本 身 的 问题 ,而 是 需要 程序 员 更 好 地 理解 计算 机 系统 ， 
知道 程序 如 何在 计算 机 上 被 执行 。 理 解 计算 机 系统 , 不 是 简单 地 从 书市 上 购买 一 些 介绍 计算 机 系统 的 
书 , 读 一 读 而 已 。 迄今 为 止 ,我 对 市 面 上 这 类 书 的 了 解 是 : 对 于 大 多 数 程序 员 而 言 它们 都 过 于 专业 化 ， 
且 从 书 的 内 容 和 语言 组 织 上 都 偏重 于 原理 的 介绍 , 一 般 程 序 员 很 难 有 时 间 和 精力 去 消化 和 吸收 书 中 的 
内 容 ， 更 无 从 用 这 些 计算 机 系统 的 知识 来 帮助 自己 解决 程序 问题 . 

事实 上 ， 高 级 语言 编程 和 计算 机 系统 被 编程 环境 如 gcc 划分 成 两 张 皮 ， 尽管 程序 员 能 用 高 级 语 
音 驱 动 计算 机 完成 指定 的 计算 任务 , 可 是 却 不 一 定 能 很 清楚 地 知道 计算 机 是 如 何 解释 和 执行 程序 代 
码 的 。 

我 本 人 是 一 个 计算 机 专业 科班 出 身 的 人 ， 学 生 期 间 学 习 到 许多 关于 计算 机 系统 的 知识 。 可 在 实 
际 研究 工作 中 ， 过 去 所 学 的 计算 机 系统 知识 变 得 遇 远 和 模糊 。1999 年 初 ， 出 于 研究 兴趣 的 目的 ， 我 
设计 了 一 个 遍 性 能 网 络 服务 器 结构 ， 并 编写 了 它 的 实现 。 在 此 期 间 ， 使 我 明白 一 个 高 性 能 服务 器 程序 
与 计算 机 系统 之 间 的 唇齿 相依 的 关系 。 过 去 , 促使 我 建立 高 级 语言 和 计算 机 系统 的 联系 来 主要 自 于 研 
究 的 压力 ， 其 采用 的 方法 是 遍 寻 国外 关于 系统 编程 的 邮件 列表 ， 并 结合 以 往 所 学 的 计算 机 系统 知识 。 
这 种 方法 固然 能 帮助 我 解决 实际 所 碰 到 的 问题 ,但 却 需要 花费 大 量 的 时 间 且 没有 条 理 。2003 年 元 月 ， 
编辑 部 让 我 帮助 他 们 从 一 批 刚 出 版 的 外 文书 中 挑 一 些 可 以 在 国内 推广 的 书 ， 我 一 眼 就 看 中 了 这 本 由 
Bryant 和 OHallaron Pr Æ WJ (Computer Systems: A Programmer's Perspective), 它 就 是 我 过 去 想 要 的 书 ， 
我 相信 也 是 每 一 个 想 了 解 计算 机 系统 的 程序 员 想 要 的 书 。 我 迫不及待 地 从 编辑 手中 抢 下 此 书 的 翻译 工 
作 ， 这 个 临时 添加 的 任务 改变 了 我 和 另 一 位 译 者 2003 年 的 生活 。2003 年 8 月 底 ， 终 于 完成 此 书 的 翻 
详 工 作 ， 并 起 中 文 名 为 《深入 理解 计算 机 系统 》。 

《深入 理解 计算 机 系统 》 的 最 大 优点 是 为 程序 员 描 述 计算 机 系统 的 实现 细节 ， 帮 助 其 在 大 脑 中 

构造 一 个 层次 型 的 计算 机 系统 ， 从 最 底层 的 数据 在 内 存 中 的 表示 (如 大 多 数 程序 员 一 直 陌 生 或 疑惑 的 
学 扩 数 表示 )， 到 流水 线 指令 的 构成 ， 到 虚拟 存储 器 ， 到 编译 系统 ， 到 动态 加 载 库 ， 到 最 后 的 用 户 态 
应 用 。 贵 串 本 书 的 一 条 主线 是 使 程序 员 在 设计 程序 时 ， 能 充分 意识 到 计算 机 系统 的 重要 性 ， 建 立 起 被 
所 写 程 序 可 能 被 执行 的 数据 或 指令 流 图 ， 明白 当 程 序 被 执行 时 ， 到 底 发 生 了 什么 事 。 从 而 能 设计 出 一 
个 遍 效 、 可 移植 、 健 壮 的 程序 ， 并 能 够 更 快 地 对 程序 排 错 、 调 整 程序 性 能 等 。 

本 书 是 通过 程序 员 的 视角 来 介绍 计算 机 系统 ， 即 首先 把 高 级 语言 转换 成 计算 机 所 能 理解 的 一 种 
中 间 格 式 〈 如 汇编 语言 )， 然 后 描述 计算 机 如 何 解释 和 执行 这 些 中 间 格 式 的 程序 ， 是 系统 的 哪 一 部 分 
影 啊 程序 的 执行 效率 。 所 以 ， 在 讲述 计算 机 系统 知识 的 同时 ， 也 顺便 给 出 了 关于 C 语言 和 汇编 语言 


(有 可 能 是 编译 系统 产生 的 ) 的 编程 和 阅读 技巧 ， 以 及 基本 的 系统 编程 技巧 和 工具， 同时 ， 还 给 出 一 
些 方 法 帮助 程序 员 基 于 对 计算 机 系统 的 理解 来 度量 和 改善 程序 的 性 能 、 及 其 它 束 手 问题 ， 

本 书 的 主要 内 容 是 关于 计算 机 体系 结构 (高 级 人 硬件 设计 ) 与 编译 虎 和 操作 系统 的 交互 ， 包 括 : 
数据 表示 ; 汇编 语言 和 汇编 级 计算 机 体系 结构 ; 处 理 器 设计 ; 程序 的 性 能 度量 和 优化 ; 程序 的 加 载 器 、 
链接 器 和 编译 器 ;包括 VO 和 设备 的 存储 器 层次 结构 ， 虚 拟 存 储 器 ， 外 部 存储 管理 ， 中 断 、 信 和 号 和 进 
程控 制 。 对 这 些 不 同 领 域 知识 的 介绍 使 我 们 能 在 编写 系统 程序 时 ， 基于 系统 性 能 的 考虑 ， KEP 
好 的 折 中 方案 。 

本 书 强调 对 计算 机 系统 的 概念 的 理解 ， 但 并 不 意味 着 不 动手 。 如 果 按 照 本 书 的 安排 做 每 一 章 后 
面 的 习题 ， 将 有 助 于 理解 和 加 深 正 文 所 述 的 概念 和 知识 ,并 且 有 时 候 ， 可 以 从 实际 动手 中 学 习 到 新 的 
知识 。 如 果 不 动手 ， 空 洞 地 去 看 文字 ， 是 很 难 理解 文字 背后 的 意义 的 。 我 个 人 的 经 验 是 ， 有 许多 系统 
设计 和 概念 ， 看 似 简单 或 不 理解 ， 可 一 旦 自己 动手 做 同样 的 试验 ,， 才 更 明白 当初 的 设计 痢 为 什么 要 如 
此 设计 , 计算 机 系统 就 像 自然 界 的 生态 环境 ， 对 每 一 个 部 件 的 设计 都 要 求 它 能 融洽 地 和 系统 内 其 他 部 
件 和 平 相处 , 我 们 不 能 站 在 一 个 微观 的 视角 去 看 待 系统 部 件 的 设计 是 否 最 优 , 而 应 该 从 宏观 来 观察 和 
思考 。 

”为 方便 理解 本 书 的 内 容 ， 本 书 的 读者 假定 具备 C 语言 编程 的 能 力 。 由 于 原 书 是 卡 内 基 梅 隆 大 
= (CMU) 的 教材 ， 且 被 其 他 一 些 著名 的 大 学 也 选用 为 教材 ， 因 此 ， 本 书 的 读者 不 仅 仪 是 奢 毕 因 
为 工作 和 兴趣 而 关注 本 书 的 人 ， 还 包括 一 些 在 校 的 大 学 生 ， 作 为 他 们 的 教材 或 辅助 性 资料 。 个 人 从 
Aly 在 校 学 生 越 早 接 触 本 书 的 内 容 ， 将 越 有 利于 他 们 学 习 计 算 机 的 相关 课程 ,培养 对 计算 机 系统 的 
研究 兴趣 。 

总 而 言 之 ,《 深 入 理解 计算 机 系统 》 一 书 是 一 个 桥梁 ， 它 帮助 程序 员 衔 接 了 计算 机 系统 的 各 个 领 
域 的 知识 , 为 程序 员 构 造 了 一 个 概念 性 框架 。 对 于 各 个 领域 (如 计算 机 系统 结构 、 处 理 器 、 操 作 系 统 、 
编译 器 、 网 络 、 并 发 编程 ) 的 知识 进一步 获取 ， 还 需要 参考 相关 书籍 。 

参加 翻译 的 还 有 压 奕 利 、 易 金华 和 陈 永 兴 等 ， 在 此 也 特别 表示 感谢 。 

由 于 此 书 的 内 容量 大 , 加 上 翻译 时 间 并 不 很 宽裕 , 尽管 我 们 十 分 努力 , 但 还 是 难以 避免 出 现 错误 ， 
以 及 存在 许多 不 尽 人 意 的 地 方 ， 欢 迎 广 大 读者 批评 指正 ， 以 便 改 进 。 


Bus 
2004.2.15 
于 北京 中 关 村 (PAE) 青年 公寓 


关于 术语 的 翻 详 


本 书 跨越 计算 机 的 多 个 领域 , 涉及 了 许多 专业 的 术语 。 在 翻 详 的 过 程 中 ,我们 全 可 能 地 患 实 肥 映 
原文 的 意思 ， 但 并 不 是 每 个 术语 的 翻译 都 那么 恰当 ， 符 合 每 个 读者 的 阅读 习惯 。 不 可 避免 地 ， 对 某 些 
术语 的 翻译 市 了 我 们 个 人 的 习惯 和 偏好 , 项 望 读者 谅解 。 下 面 ， 我 们 解释 在 本 书 中 频繁 出 现 的 一 些 术 
语 的 翻译 。 


directive 


这 个 单词 多 用 来 摘 述 C 语言 中 类 似 #include 的 语句 ,或 汇编 语言 中 类 似 .pos 的 语句 。 按照 我 的 认 
识 ， 这 个 单词 应 该 译 做 “指令 ”比较 恰当 ， 起 着 指导 或 导 引 的 作用 。 但 是 ， 在 directive 单词 出 现 的 地 
方 ， 还 同时 出 现 了 instruction 单词 (这 种 现象 以 第 3 章 为 主 )， 其 中 文 的 含义 也 是 “指令 ”。 相 比 于 
directive. instruction 显然 是 一 个 更 强势 的 单词 。 为 了 从 中 文字 面 上 区 分 这 两 个 单词 ， 方 便 读 者 阅读 ， 
我 们 在 不 影 啊 基 本 意思 的 前 提 下 ， 翻 译 directive 为 命令 。 


operation 


这 是 一 个 遍布 全 书 的 单词 。 它 众多 的 意思 中 有 两 个 是 :“ 操 作 ” 和 “运算 ”。 对 这 个 单词 的 翻译 ， 
我 们 疫 有 采用 一 刀 切 的 方法 ,而 是 尽 可 能 采用 国内 读者 的 习惯 来 翻译 。 根 据 我 自己 的 切身 体会 ， 以 及 
网 友 对 operation 译 法 的 讨论 ， 我 们 更 倾向 于 在 数学 的 领域 内 使 用 “运算 ”， 而 在 计算 机 领域 使 用 “ 操 
fe”. 基于 这 个 认识 ， 以 及 章节 内 容 的 安排 ， 我 们 把 第 2 章 〈 该 章 涉及 大 量 的 数学 描述 ) 中 出 现 的 
operation 主要 详 做 “运算 ”， 而 把 其 他 章节 中 的 operation 主要 翻译 为 “操作 ” 需要 注意 的 是 ， 这 种 
划分 并 不 是 绝对 的 。 


memory 与 storage 


memory 是 一 个 我 们 非常 熟悉 的 术语， 我 们 一 般 把 它 习惯 地 称 为 “内 存 ”。 但是， 通过 本 书 第 6 
章 对 memory 的 解释 来 看 ， 仅 有 这 样 的 理解 是 不 足够 的 ， 本 书 认 为 memory 可 以 是 不 同 容量 、 成 本 和 
访问 时 间 的 存储 设备 ， 我 们 过 去 所 认识 的 memory 只 是 DRAM。 所 以 ， 不 能 把 memory 简单 地 翻译 为 
“内 存 ”。 

从 memory 和 storage 这 两 个 单词 的 中 文 意思 来 看 ，memory 是 “存储 器 ”， 而 storage 是 “在 储 ， 
存储 器 ”"。 男 外 ， 我 们 还 观察 到 ，memory 更 多 地 以 名 词 出 现 ， 描 述 一 个 静态 的 物理 设备 ， 而 storage 
除了 可 以 作为 名 词 出 现 外 ， 还 有 动词 的 形式 (store、storing 和 stored). ATLL, 我 们 取 memory 的 中 文 
意思 为 “存储 器 ”， 而 取 storage (LAR store. storing 和 stored) 的 中 文 意思 为 “存储 ”。 除 此 之 外 ， 如 
未 住 一 句 话 中 ， 有 memory 和 storage 同时 出 现时 ， 我 们 除了 给 出 storage 的 中 文 释义 外 ， 还 尽 可 能 地 
ioe Bia], Las memory 的 区 别 。 


hazard 


这 是 一 个 很 扰 人 的 体系 结构 领域 的 术语 。 在 本 书 中 ， 我们 选用 它 的 中 文 释义 为 “冒险 ”。 实际 上 ， 
我 们 在 做 学 生 时 , 大 都 直 呼 它 的 英文 , 很 少 说 它 的 中 文 , 选择 它 的 中 文 译 法 真 的 是 一 件 很 旷 烦 的 事情 。 
曾经 有 一 个 网 友 告 诉 我 ， 他 看 到 一 个 “险象 ”的 译 法 比较 贴切 。 呵 呵 ， 为 了 这 个 术语 的 翻译 ， 我 和 他 
在 网 上 争论 了 两 天 。 仔 细 想 想 “ 险 象 ” 这 种 译 法 ， 确 实 不 为 错 ， 但 还 不 能 完全 说 服 我 选用 它 。 因 为 ， 
这 个 释义 太 过 陌生 ， 许 多 读者 可 能 无 法 联想 到 其 对 应 的 英文 单词 。 而 选用 “冒险 ” 尽管 不 是 那么 完 
美 ， 但 是 大 多 数 研究 体系 结构 的 读者 会 很 熟悉 。 所 以 ， 对 “冒险 ”的 选用 只 是 一 种 习惯 和 默认 。 


timer 


timer 的 中 文 释义 有 :“ 定 时 器 ， 计 时 器 ”。 尽 管 这 两 个 中 文 释义 都 可 以 搬 述 一 个 现象 ,间隔 一 段 
时 间 后 产生 一 个 事件 ,但 是 我 们 认为 这 两 者 之 间 是 有 区 别 的 。 从 中 文字 面 来 说 ， 定 时 器 的 间隔 更 多 是 
固定 的 ， 倾 向 于 静态 性 ; 而 计时 器 的 间隔 更 多 是 不 固定 的 ， 有 计算 的 意思 ， 倾 问 于 动态 性 。 所以， 在 
本 书 的 第 9 章 中 【〈 该 章 主 要 描述 系统 评价 )， 我 们 主要 把 timer 翻译 为 计时 器 ， 而 在 其 他 章 蔬 翻 详 为 
定时 器 。 


local 


local 的 中 文 释义 是 ;“ 本地， 局 部 ”。 我 们 没有 严格 地 区 分 它 ， 完 全 是 根据 上 下 文 描 述 的 方便 ， 
来 选用 不 同 的 释义 。 

原 书 还 出 现 了 一 些 错误 ,这些 错误 只 是 我 们 个 人 认为 的 , 很 有 可 能 是 我 们 理解 错 了 。 所 以 ， 我 们 
在 “ 募 改 ”原文 的 意思 时 ， 还 尽 可 能 地 给 出 了 原文 的 意思 ， 以 帮助 读者 甄别 。 

我 很 喜欢 这 本 书 ， 且 认为 它 的 内 容 在 5~10 年 内 都 有 它 存在 的 价值 。 但 是 ， 鉴 于 我 们 的 能 力 和 时 
间 有 限 ， 不 能 保证 完全 忠实 、 准 确 地 重 述 斩 文 的 意思 ， 还 需要 广大 读者 的 支持 。 和 希望 三 大 读者 在 阅读 
本 书 的 时 候 能 积极 地 给 我 们 指出 其 中 错误 ,改善 此 书 的 质量 ,方便 后 来 的 读者 从 中 更 顺畅 地 获取 知识 ， 
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《深入 理解 计算 机 系统 》(Computer Systems: A Programmer’s Perspective, CS: APP) 这 本 书 的 主 
要 读者 是 那些 想 通 过 学 习 计 算 机 系统 的 内 在 运作 而 提高 自身 技能 的 程序 员 。 

我 们 的 目的 是 解释 所 有 计算 机 系统 的 本 质 概 念 ， 并 向 你 展示 这 些 概念 是 如 何 实际 地 影 啊 应 用 程 
序 的 正确 性 、 性 能 和 实用 性 的 。 与 其 他 主要 针对 系统 构造 人 员 的 系统 类 书籍 不 同 , 这 本 书 是 写 给 程序 
员 的 ， 是 从 程序 员 的 角度 来 描述 的 。 

如 果 你 学 习 和 研究 这 本 书 里 的 概念 ， 你 将 步 入 稀缺 的 “权威 程序 员 ” 的 行列 ， 将 知道 事情 是 如 
何 运 作 的 ， 也 知道 在 出 现 故障 时 如 何 进行 修复 ， 同 时， 你 也 将 做 好 学 习 其 他 具体 系统 主题 的 准备 ， 比 
如 编 详 器 、 计 算 机 体系 结构 、 操 作 系统 、 艇 入 式 系 统 和 网 络 互联 。 


AMMA BA Be AIR 


本 书 中 的 范例 是 基于 英特尔 兼容 的 处 理 器 (英特尔 称 之 为 “IA32”， 即 俗称 的 “x86”)、 在 Unix 
或 类 Unix (比如 Linux) 操作 系统 上 运行 的 C 语言 程序 。( 为 了 简化 我 们 的 描述 ， 我 们 将 用 Unix 统称 
Solaris 和 Linux 这 样 的 系统 .) 文中 包括 了 大 量 已 在 Linux 系统 上 编译 和 运行 过 的 程序 范例 。 我 们 假 
设 你 能 访问 一 人 台 这 样 的 机 器 ， 并 且 能 够 登录 ， 然 后 做 一 些 诸如 修改 上 且 录 之 类 的 简单 操作 。 

如 果 你 的 计算 机 运行 的 是 Microsoft Windows 系统 ， 你 有 两 种 选择 。 第 一 ， 获 取 一 个 Linux HH 
HL 《参见 www.linux.org 或 者 www.redhat.com )， 然 后 以 “双重 启动 ”模式 安装 它 ， 这 样 你 的 机 器 就 能 
运行 任 一 个 操作 系统 了 。 另 一 种 选择 就 是 ， 通 过 安装 Cygwin 工具 (www.Cygwin.com)， 你 就 能 在 
Windows 下 得 到 一 个 类 似 Unix 的 shell 以 及 一 个 非常 类 似 于 Linux 提供 的 环境 。 不 过 ，Cygwin 并 不 
能 提供 所 有 的 Linux 功能 。 

我 们 还 假设 你 对 C 和 C++ 有 一 定 的 了 解 。 如 果 你 以 前 只 有 Java 经 验 ， 那 么 这 种 转换 将 需要 你 自 
己 付出 更 多 的 努力 ， 不 过 我 们 也 将 帮助 你 。Java 和 C 有 相似 的 语法 和 控制 语句 。 

但 是 ， 有 一 些 C 语言 的 内 容 ， 特 别 是 指针 、 显 式 的 动态 存储 器 分 配 和 格式 化 IO，Java 中 都 是 没 
有 的 。 所 辛 的 是 ，C 是 一 个 较 小 的 语言 ， 并 且 在 Brain Kernighan 和 Dennis Ritchie 4A) “K&R” X 
子 中 得 到 了 清晰 优美 的 描述 [40]。 无 论 你 的 编程 背景 如 何 ，K&R 都 应 是 你 个 人 图 书 收藏 的 一 部 分 。 

这 本 书 的 前 几 章 揭示 了 C 语言 程序 和 它们 相应 的 机 器 语言 程序 之 间 的 交互 作用 。 机 器 语言 示例 
都 是 用 运行 在 Intel IA32 处 理 器 上 的 GNU GCC 编译 器 生成 的 ， 我 们 不 需要 你 以 前 有 任何 硬件 、 机 器 
语言 或 是 汇编 语言 编程 的 经 验 。 


给 C 语言 初学 者 ， 关 于 C 编程 语言 的 建议 


为 帮助 C 语言 编程 东 景 薄 梯 的 〈 或 全 无 背景 的 ) 读者 ， 也 为 了 强调 C 中 一 些 重要 特性 ， 我 们 做 
了 专门 的 注释 。 我 们 假设 你 热 悉 C++ 或 Java. 


怎样 阅读 此 书 

从 程序 员 的 角度 来 学 习 计 算 机 系统 如 何 工 作 将 非常 有 趣 , 主要 是 因为 这 个 过 程 叮 以 非常 主动 。 无 
论 何 时 你 学 到 一 些 新 的 东西 ， 都 可 以 乌 上 试验 并 旦 直接 看 到 运行 结果 。 事实 上 ， 我们 相信 学 习 系 统 的 
METAR EK (do) 系统 ， 即 在 真正 的 系统 上 解决 具体 的 问题 ， 或 是 编写 和 运行 程序 。 

这 种 主题 观念 贯穿 全 书 。 当 引入 一 个 新 概念 时 ， 紧 随 其 后 的 将 是 一 个 或 多 个 练习 题 ， 你 应 该 切 上 做 
一 做 来 检验 你 的 理解 。 练 习题 的 解答 在 每 章 的 末尾 。 当 你 阅读 时 ， 尝 试 自己 来 解答 每 个 问题 ， 然 后 再 查 
WAS, 看 看 自己 是 否 正确 。 每 一 章 后 面 都 有 一 组 不 同 难度 的 家 庭 作 业 题 。 你 的 指导 老师 在 教师 于 册 中 
有 这 些 问 题 的 答案 。 对 每 个 家 庭 作 业 题 ， 我 们 标注 了 我 们 认为 的 难度 级 别 ; 

只 南 要 几 分 钟 。 几 乎 或 完全 不 需要 编程 。 

SON RMB AAT 20 分 钟 。 通 常 包括 编写 和 测试 一 些 代 码 ， 许 多 都 取 白 我 们 在 考试 中 的 题 ||。 

OOO RERAN BSA, hit 1 一 2 个 小 时 。 一 般 包 括 编写 和 测试 大 量 的 代码 。 

一 个 实验 作业 ， 和 需要 将 近 10 个 小 时 。 

文中 每 段 代码 示例 都 是 C 程序 ， 经 过 版 本 为 2.95.3 的 GCC 编译 并 在 内 核 版 本 为 2.2.16 的 Linux 
系统 二 测试 后 再 接生 成 的 ， 没 有 任何 人 为 的 改动 。 所 有 源 程序 代码 均 可 从 本 书 的 主页 (csapp.cs.cmu. 
edu) 上 上 获取。 在 文中 ， 源 程序 的 文件 名 列 在 两 条 水 平 线 的 右边 ， 水 平 线 之 间 是 格式 化 代码 。 比 如 ， 
图 P1 中 的 程序 能 在 code/intro 目录 下 的 hello.c 文件 中 找到 。 我 们 鼓励 你 ， 当 遇 到 这 些 坟 例 程序 时 ， 
在 你 的 系统 上 试 试 运行 它们 。 

code/intro/hello.c 

#include <stdio.h> 


int maint) 
{ 
printf("hello, world\n"); 


oo A Be Ww WN) e 


code/intro/hello.c 


API 一 个 典型 的 代码 示例 


最 后 ， 有 些 部 分 (用 “*” 标 注 的 ) 包含 了 一 些 你 可 能 会 觉得 有 趣 但 可 以 略 过 而 不 影响 阅读 连贯 
性 的 东西 。 


Bit: 什么 是 旁 注 ? 

RABY, HSA IRS ABA LR SI. 旁 注 是 附加 说 明 ， 能 使 你 对 当前 讨论 的 主题 
多 一 些 了 解 。 之 注 有 很 多 目的 。 一 些 是 小 的 历史 故事 ， 例 如 ，C、Linux 和 temet 是 从 何 而 来 的 ? 有 
时 ， 旁 注 是 用 来 闹 明 学 生 们 经 常 感 到 疑 总 的 问题 例如， 高 速 缓存 的 行 、 组 和 块 有 什么 区 别 ? 还 有 的 
时 候 ， 泛 注 给 出 了 一 些 现实 世界 的 例子 ， 例如， 一 个 浮 点 错误 怎么 锅 挤 了 法 国 的 一 枚 火箭 ， 或 是 一 个 
真正 的 BM 磁盘 驱动 器 看 上 去 是 什么 样子 。 最 后 ， 还 有 一 些 旁 注 仅仅 就 是 笑料 ， 例 如 ， 什 么 是 


“hoinky” ? 


把 一 个 常量 乘法 转化 为 一 系列 的 移 位 和 加 法 .我 们 用 C 的 位 级 操作 来 说 明 布 尔 代 数 的 原理 和 
应 用 。 我 们 从 如 何 表 示 浮 点 值 和 浮 点 操作 的 数学 属性 方面 讲述 IEEE 标准 的 浮 点 格式 。 

对 计算 机 算术 的 深刻 理解 是 写 出 可 靠 程序 的 关键 。 比如 , 不 能 用 (x-y<0) 来 取代 (x<y)， 
因为 可 能 会 产生 溢出 。 甚 至 也 不 能 用 表达 式 (-y<-x) 来 取代 ， 因 为 在 二 进 制 补 码 表示 中 仙 
数 和 正 数 的 范围 是 不 对 称 的 。 算 术 滋 出 是 程序 错误 的 一 个 常见 根源 ， 然 而 很 少 有 书 从 一 个 程 
序 员 的 角度 去 讲述 计算 机 算术 的 特性 。 

PIE: 程序 的 机 器 级 表示 。 我 们 教学 生 如 何 读 由 C 编译 器 生成 的 IA32 汇编 语言 。 我 们 说 
明 为 不 同 控制 结构 ， 比 如 条 件 、 循 环 和 开关 语句 ， 生 成 的 基本 指令 模式 。 我 们 还 讲述 过 程 的 
执行 ,包括 栈 分 配 、 寄 存 器 使 用 惯例 和 参数 传递 .我 们 讨论 不 同 数据 结构 如 结构 、 联 合 Cunion) 
和 数组 的 分 配 和 访问 方式 。 学 习 本 章 的 概念 能 够 帮助 学 生成 为 更 好 的 程序 员 ， 因 为 他 们 人情 得 
他 们 的 程序 在 机 器 上 是 如 何 表示 的 。 另 外 一 个 妙 处 在 于 学 生 们 对 指针 有 了 具体 的 了 解 。 

第 4 章 : 处 理 器 体系 结构 。 这 一 章 讲述 基本 的 组 合 和 时 序 逻 辑 元 素 ， 并 展示 这 些 元 素 在 数据 
Be 4 (datapath) 中 如 何 组 合 到 一 起 ， 来 执行 IA32 指令 集 的 一 个 称 为 “Y86” 的 简化 子 集 。 
我 们 从 设计 单 时 钟 周期 、 非 流水 线 化 的 数据 路 径 开 始 ， 然 后 扩展 成 一 个 五 阶段 、 流 水 线 化 的 
设计 。 本 章 中 处 理 器 设计 的 控制 逻辑 是 用 一 种 称 为 HCL 的 集 单 硬件 摘 述 语言 来 描述 的 。 用 
HCL 写 的 人 而 件 设 计 能 够 编译 和 链接 成 本 书 中 提供 的 图 形 处 理 器 的 模拟 器 。 

第 5 章 : 优化 程序 性 能 。 在 这 一 章 里 ， 我 们 介绍 许多 提高 代码 性 能 的 技术 。 我 们 从 与 机 器 无 
关 的 程序 转换 开始 ， 这 些 标准 是 在 任何 机 器 上 写 任何 程序 时 都 应 该 遵循 的 。 然 后 是 那些 功效 
有 束 于 是 标 机 器 和 编译 器 特性 的 转换 。 为 了 促进 这 些 转 换 , 我 们 介绍 了 一 个 简单 的 操作 模型 ， 
它 描述 了 现代 乱 序 《out-of-order) 处 理 器 是 如 何 工 作 的 ， 然 后 加 学生 们 展示 怎样 利用 这 个 模 
型 来 改进 他 们 的 C 程序 的 性 能 。 

第 6 章 : 存储 器 层次 结构 。 对 应 用 程序 员 来 说 ， 存 储 器 系统 是 计算 机 系统 中 最 直接 可 见 的 部 分 
之 一 。 到 目前 为 止 ,学生 们 一 直 认 同 这 样 一 个 存储 器 系统 概念 模型 ， 认 为 它 是 一 个 有 一 致 访问 
时 间 的 线性 数组 。 实 际 上 ， 存 储 器 系统 是 一 个 由 不 同 容 量 、 造 价 和 访问 时 间 的 存储 设备 组 成 的 
技 钦 结构 。 我 们 讲述 不 同类 型 的 随机 存 取 存 储 器 CRAM) 和 只 读 存 储 器 (ROM) 以 及 现代 磁 
盘 驱 动 器 的 几何 形状 和 组 织 构造 . 我们 描述 这 些 存 储 设 备 是 如 何 放置 在 层次 结构 中 的 ， 讲 述 访 
加 局 部 性 是 如 何 使 这 种 层次 结构 成 为 可 能 的 。 我 们 通过 一 个 独特 的 观点 使 这 些 理论 具体 化 、 形 
象 化 ， 那 就 是 将 存储 器 系统 视 为 “存储 器 山 ” 山 关 是 时 间 周 部 性 ， 而 斜坡 是 空间 局 部 性 。 最 
后 ， 我 们 向 学 生 们 阐述 如 何 通 过 改善 时 间 和 空间 局 部 性 来 提高 应 用 程序 的 性 能 。 

第 7 章 : 链接 。 本 章 讲述 静态 和 动态 链接 :包括 的 概 含有 可 重 定位 的 《relocatable〉 和 可 执 
行 的 目标 文件 、 符 号 解析 、 重 定位 《relocation )、 静 态 库 、 共 享 目 标 库 ， 以 及 与 位 置 无 关 
的 代码 。 大 多 数 系 统 书 中 都 不 涉及 链接 ， 而 我 们 出 于 下 面 几 个 原因 要 讲述 它 。 第 一 ， 学 生 
们 遇 到 的 最 迷 感 的 问题 中 ， 有 一 些 是 和 链接 时 的 小 故障 有 关 ， 尤 其 是 对 那些 大 型 软件 包 来 
说 。 第 二 ， 链 接 器 生成 的 目标 文件 是 与 一 些 像 加 载 、 虚 拟 存 储 器 和 存储 器 映射 这 样 的 概念 
相关 的 。 

第 8 章 : 异常 控制 流 。 在 课程 的 这 个 部 分 ， 我 们 通过 介绍 异常 控制 流 〈 比 如 ， 正 常 分 支 和 过 
和 枉 调 用 以 外 的 控制 流 变化 ) 的 一 般 概 念 打破 单一 程序 的 模型 。 我 们 给 出 存在 于 系统 所 有 层次 
的 异常 控制 流 的 例子 ， 从 底层 的 硬件 异常 和 冲突 ， 到 并 发 进程 的 上 下 文 切 换 ， 到 Unix 信号 


本 书 的 起 源 


本 书 起 源 于 1998 年 秋季 我 们 在 卡 内 基 梅 隆 (CMU) 大 学 开设 的 一 门 编号 为 15-213 的 介绍 性 课 
Fe: 计算 机 系统 导论 〈Introduction to Computer System, ICS) [71。 从 那 以 后 ， 每 学 期 都 开设 了 ICS 
这 门 课 程 ， 每 期 有 150 名 左右 的 学 生 ， 大 多 数 是 计算 机 科学 和 计算 机 工程 专业 二 年 级 的 学 生 。 后 来 ， 
这 门 课程 还 成 为 了 卡 内 基 梅 隆 大 学 计算 机 科学 系 以 及 电子 和 计算 机 工程 系 中 大 多 数 筷 级 系统 深 程 的 
先行 必修 课 。 

ICS 课程 的 宗旨 是 用 一 种 不 同 的 方式 向 学 生 介绍 计算 机 。 因 为 ， 我 们 的 学 生 中 几乎 没有 人 有 机 会 
构造 计算 机 系统 。 男 一 方面 ， 大 多 数学 生 ， 甚 至 是 计算 机 工程 师 ， 也 要 求 日 常 能 使 用 计算 机 和 编号 计 
算 机 程序 。 所 以 我 们 决定 从 程序 员 的 角度 来 讲解 系统 ， 并 采用 这 样 的 过 滤 方 法 : 我 们 只 讨论 那些 影响 
FAY 2 C 程序 的 性 能 、 正 确 性 或 实用 性 的 主题 。 

比如 ， 我 们 排除 了 诸如 硬件 加 法 器 和 总 线 设 计 这 样 的 主题 。 虽 然 我 们 谈 及 了 机 器 语言 ， 但 是 不 大 
注 如 何 编写 汇编 语言 ， 而 是 关心 C 程序 是 如 何 被 构造 的 ， 例 如 编译 器 是 恕 何 翻译 指针 、 循 环 、 过 程 
而 用 和 返回 以 及 开关 (switch) 语句 的 。 更 进一步 ， 我 们 将 更 广泛 和 现实 地 看 待 系统 ， 包 括 硬 件 和 系 
统 软件 ， 少 盖 了 链接 、 可 载 、 进 程 、 信 号 、 性 能 优化 、 评 估 、VO 以 及 网 络 与 并 发 编程 。 

这 种 做 法 使 得 我 们 讲授 ICS 课程 的 方式 对 学 生来 讲 既 实用 、 上 具体， 还 能 动手 ， 同时 也 非常 能 调动 
学 生 的 积极 性 。 很 快 地 ,我 们 收 到 来 自学 生 和 教 职 工 非常 热烈 和 积极 的 反响 ,我们 意识 到 卡 内 基 梅 隆 
大 学 以 外 的 其 他 人 也 可 以 从 我 们 的 方法 中 获 益 。 因此， 历时 两 年 , 这 本 书 从 ICS 课程 笔记 中 应 运 而 生 
E 


Sit. 与 ICS 有 关 的 数字 

跟 ICS 课程 有 关 的 数字 很 特别 .在 第 一 学 期 过 半 的 时 候 ， 我 们 发 现 课 程 的 编号 (15-213) 正好 就 是 
卡 内 基 梅 隆 大 学 的 邮政 编码 ， 因 此 ， 还 有 了 这 样 的 话 : “15-213. 给 予 卡 内 基 梅 隆 大 学 精神 的 课程 1” | 
无 独 有 惕 ， 手 稿 的 第 一 版 是 在 2001 年 2 月 13 日 (213/01 ) 印刷 的 。 当 我 们 在 SIGCSE 教育 会 议 上 
介绍 这 门 课程 时 ， 被 安排 在 了 213 房间 ， 并 且 此 书 的 最 后 一 版 有 13 个 章节 。 好 在 我 们 并 不 迷信 


本 书 概 述 

本 书 由 13 章 组 成 ， 旨 在 讲述 计算 机 系统 的 核心 概念 ， 

e 第 1 章 : 计算 机 系统 漫游 。 这 一 章 通过 研究 “hello, world” 这 个 简单 程序 的 生命 周期 ， 介 绍 
计算 机 系统 的 主要 概念 和 主题 ， 

© 第 2 章 ; 信息 的 表示 和 处 理 。 我 们 讨论 计算 机 算术 ， 重 点 描述 对 程序 员 有 影响 的 无 符号 和 二 
进 制 补 公 (two’s complement) 的 数字 表示 法 的 特性 。 我 们 考虑 数字 是 如 何 表示 的 ， 以 及 出 
此 确定 对 于 一 个 给 定 的 字 长 ， 其 可 能 编码 值 的 范围 。 我 们 探讨 有 符号 和 无 符号 数字 之 间 类 型 
转换 的 效果 ， 还 阐述 算术 操作 的 数学 特 人 性。 学生 们 很 惊奇 地 了 解 到 〈 二 进 制 补 码 表示 的 ) 两 
个 正 数 的 和 或 者 积 可 以 为 负 。 另 一 方面 ， 二 进 制 补 码 算 法 满足 环 的 特性 ， 因 此 ， 编 谋 器 可 以 


1 zip 既 有 “邮政 编码 ”也 有 “精神 ”之 意 。 一 -一 译 者 
2 SIGCSE 代表 Special Interest Group on Computer Science Education， 计 算 机 科学 教育 特殊 兴趣 组 。 一 一 译 者 


传送 引起 的 控制 流 突 变 ， 到 C 中 破坏 栈 原则 的 非 本 地 跳 转 (nonlocal jump). 

在 这 一 章 ， 我们 还 同学 生 们 介绍 进程 的 基本 概念 。 学 生 们 了 解 进 程 是 如 何 工 作 的 ， 以 友 
如 何在 应 用 程序 中 创建 和 操纵 进程 。 我 们 向 他 们 展示 应 用 程序 员 如 何 通过 Unix 系统 调用 使 
用 多 进程 。 学 完 本 章 ， 他 们 就 能 够 编写 带 作 业 控 制 的 Unix 脚本 了 。 

e 第 9 章 : 测量 程序 运行 时 间 。 这 一 章 教 给 学 生计 算 机 是 如 何 理解 时 间 的 [时间 间隔 计时 器 、 
CPU 周期 计时 器 (cycle timer) 和 系统 时 钟 ]， 当 我 们 试图 用 这 些 时 间 来 测量 程序 运行 时 时 间 
的 错误 根源 ， 以 及 怎样 运用 这 些 知 识 来 得 到 准确 的 度量 值 。 据 我 们 所 知 ， 这 是 惟一 的 在 以 前 
还 未 以 任何 常规 的 方式 讨论 过 的 内 容 。 我 们 在 此 讨论 这 个 主题 是 因为 它 需要 对 汇编 语言 、 进 
程 和 高 速 缓存 有 所 了 解 。 | 

e 第 10 章 : 虚拟 存储 器 。 我 们 讲述 虚拟 存储 器 系统 是 希望 学 生 们 对 它 的 工作 和 特性 有 所 了 解 。 
我 们 想 让 学 生 了 解 为 什么 不 同 的 并 发 进程 各 自 都 有 一 个 相同 的 地 址 范围 ， 能 共 诗 某 些 页 ， 但 
另外 一 些 页 又 是 独占 的 。 我 们 还 覆盖 一 些 管理 和 操作 趾 拟 存储 器 的 问题 。 特 别 地 ， 我 们 讨论 
了 存储 分 配 操作 ， 比 如 Unix 的 malloc 和 free 操作 。 阐 述 这 些 内 容 是 出 于 下 和 面 几 点 日 的 。 它 
加 强 了 只 拟 存储 器 空间 只 是 字 节 数组 ， 程 序 可 以 把 它 划 分 成 不 同人 存储 单元 的 概念 。 它 帮助 学 
生理 解 包含 有 像 存储 泄漏 和 非法 指针 引用 这 样 存储 器 引用 错误 的 程序 的 后 果 。 最 后 ， 许 多 应 
用 程序 员 编 号 自己 的 优化 了 的 存储 分 配 操 作 来 满足 应 用 程序 的 需要 和 和 特性 。 

e 第 11 章 : 系统 级 WO。 我 们 讲述 Unix IO 的 基本 概念 ,例如 文件 和 描述 符 。 我 们 描述 如 何 共 
享 文件 ，LO 重 定 向 是 如 何 工 作 的 ， 还 有 如 何 访问 文件 的 元 数据 。 我 们 还 开发 了 一 个 健壮 的 
带 缓冲 区 的 IO 包 , 可 以 正确 处 理 short counts. 我 们 阐述 C 的 标准 VO FE, URES Unix VO 
的 关系 ， 重 点 谈 到 标准 VO 的 局 限 性 ， 这 些 局 限 性 使 之 不 适合 网 络 编程 。 总 地 说 来 ， 本 章 的 
论题 是 后 面 两 章 网 络 和 并 发 编程 的 基础 。 

© 第 12 章 : 网 络 编程 。 对 编程 而 言 ， 网 络 是 非常 有 趣 的 VO 设备 ， 将 许多 我 们 前 面 文中 学 习 
的 概念 ， 比 如 进程 、 信 号、 字 节 顺序 (byte ordering)、 存 储 器 映射 和 动态 存储 器 分 配 ， 联 系 
在 一 起 。 网 络 程序 还 为 并 发 提供 了 强制 性 上 下 文 ， 这 是 下 一 章 的 论题 。 本 章 是 网 络 编程 的 细 
小 片段 ， 使 学 生 们 能 够 编写 Web 服务 器 。 我 们 还 讲述 位 于 所 有 网 络 程序 底层 的 客户 闹 - 服 务 
器 模型 。 我 们 展现 了 一 个 程序 员 对 Internet 的 观点 ， 并 且 教 给 学 生 们 如 何 用 套 接 字 (socket) 
接口 来 编写 Intemet 客户 端 和 服务 器 。 最 后 ， 我 们 介绍 超 文本 传输 协议 HTTP， 并 开发 了 一 
AMMAR EL Citerative) Web 服务 器 。 

e 第 13 章 : 并 发 编程 。 这 一 章 以 Internet 服务 器 设计 为 例 向 学 生 们 介绍 了 并 发 编程 。 我 们 比较 
对 照 了 三 种 编写 并 发 程序 的 基本 机 制 GHEE. VO 多 路 复 用 技术 以 及 线程 y， 并 且 展 和 示 如 何 用 
它们 来 建造 并 发 Intemet 服务 路。 我 们 探讨 了 用 P, V 信号 操作 、 线 程 安全 和 可 重 入 
(reentrancy )、 况 争 条 件 以 及 死 锁 等 来 实现 同步 的 基本 原则 。 


可 以 基于 本 书 的 课程 


指 于 教师 可 以 使 用 本 书 来 教授 五 种 不 同 的 系统 课程 (图 P2)。 特殊 的 课程 则 有 赖 于 课程 需要 、 个 


人 而 位 、 笃 生 的 宵 景 和 能 力 。 图 中 的 课程 从 左 往 右 ， 逐渐 强调 以 程序 员 的 角度 看 待 系统 ， 以 下 是 简单 
的 描述 : 


e ORG: --- 门 以 非 传统 风格 介绍 传统 问题 的 计算 机 组 成 原理 课程 。 传 统 的 主题 包括 逻辑 设计 、 
处 理 器 体系 结构 、 汇 编 语 言 和 存储 器 系统 。 然 而 ， 需 要 更 多 地 强调 对 程序 员 的 影响 。 例 如 ， 
更 反 过 来 考虑 数据 表示 对 C 程序 的 影响 。 学 生 们 将 学 习 到 如 何 用 机 器 语言 来 表示 C 结构 。 

© ORG+: ORG 课程 特别 强调 硬件 对 应 用 程序 性 能 的 影响 。 和 ORG 课程 相 比 ， 学 生 要 更 多 地 
学 习 代 码 优化 和 改进 他 们 C 程序 的 存储 器 性 能 。 

e ICS: 基本 的 ICS 课程 ， 则 在 培养 开明 的 程序 员 ， 他 们 理解 硬件 、 操 作 系 统 和 编译 系统 对 应 
用 程序 的 性 能 和 正确 性 的 影响 。 和 ORG+ 课 程 的 一 个 显著 不 同 是 ， 本 课程 不 论 及 低级 处 于 器 
体系 结构 。 相 反 地 ， 程 序 员 与 现代 乱 序 处 理 器 的 高 级 模型 打交道 。ICS TRASSEM I HEM 
一 个 10 周 的 学 期 ， 如 果 步 调 更 从 容 一 些 ， 也 可 以 延长 为 一 个 15 周 的 学 期 。 

。 ICS+， 基 本 的 ICS 课程 ， 额 外 论述 一 些 系 统 编程 问题 ， 比 如 系统 级 WO、 网 络 编程 和 并 发 编 
程 。 这 是 一 门 一 学 期 长 度 的 卡 内 基 梅 隆 大 学 课程 ， 会 讲述 本 书 中 除了 低级 处 理 器 体系 结构 以 
外 的 每 一 草 。 

e SP: 一 门 系统 编程 课程 。 和 ICS+ 课 程 相似 ， 但 是 抛弃 了 浮 点 和 性 能 优化 ， 更 加 强调 系统 编 
程 ， 包 括 进程 控制 、 动 态 链接 、 系 统 级 IO、 网 络 编程 和 并 发 编程 。 指 导 教 师 可 能 会 想 从 其 
他 渠道 对 某 些 高 级 论题 做 些 补充 ， 比 如 守护 进程 (daemon)、 终 端 控制 和 Unix IPC 〈 进 程 间 
通信 )。 
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图 P.2 五 门 基 于 本 书 的 课程 
注意 : (a) 只 有 人 硬件， (Cb) 无 动态 存储 分 配 : C) 无 动态 链接 : (d) 无 浮 点 。ICS+ 是 卡 内 基 梅 隆 的 13-2]13 RE. 


图 P2 要 表达 的 主要 信息 是 本 书 给 了 你 多 种 选择 。 如 果 你 希望 你 的 学 生 更 多 地 了 解 低级 处 理 器 体 
系 结构 ， 那 么 通过 ORG 和 ORG+ 课 程 可 以 达到 目的 。 另 一 方面 ， 如 果 你 想 将 当前 的 计算 机 组 成 谋 称 
Fe PRAM ICS 或 者 ICS+ 课 程 ， 但 是 又 担心 突然 做 这 样 猛烈 的 变化 , 那么 你 可 以 逐步 递增 转向 ICS 课程 。 
你 可 以 从 OGR 读 程 开始 ， 它 以 一 种 非 传统 的 方式 教授 传统 的 问题 。 一 旦 你 对 这 些 内 容 感到 概 轻 就 部 


了 ， 束 可 以 转 到 ORG+， 最 终 转 到 ICS。 如 果 学 生 没 有 C 的 经 验 (比如 他 们 只 用 Java 编 过 称 序 》， 你 
可 以 化 儿 周 的 时 间 在 C 上 ， 然 后 再 讲述 ORG 或 者 ICS 课程 的 内 容 。 

最 后 ， 我 们 认为 ORG+ 和 SP 课程 适合 安排 为 两 期 (两 个 季度 或 者 两 个 学 期 )。 或 者 你 可以 考虑 按 
照 一 期 ICS 和 一 期 SP 的 方式 来 教授 ICS+ 课 程 。 


课 党 测试 的 实验 练习 


卡 内 基 梅 隆 大 学 的 ICS+ 课 程 得 到 了 学 生 们 很 高 的 评价 。 这 门 课 的 中 值 分 数 -- 般 为 5.0/5.0， 平 均 
分 数 一 般 为 4.6/5.0。 学 生 们 表扬 说 这 门 课 非常 有 趣 , 令 人 兴奋 ， 主 要 就 是 因为 相关 的 实验 练习 。 下 面 
是 本 书 提供 的 一 些 实验 的 示例 。 


数据 实验 。 这 个 实验 要 求学 生 们 实现 简单 的 逻辑 和 算术 阔 数 ， 但 是 只 能 使 用 -- 个 高 度 受 限 的 
C 的 子 集 。 比 如 ， 他 们 必须 只 能 用 位 级 操作 来 计算 一 个 数字 的 绝对 值 。 这 个 实验 帮助 学 生 们 
TH C 数据 类 型 的 位 级 表示 ， 和 数据 操作 的 位 级 行为 。 

二 进 制 炸弹 实验 。 二 进 制 炸弹 是 一 个 作为 目标 代码 文件 提供 给 学 生 们 的 程序 。 运 行 时 ， 它 提 
不 用 户 输入 6 个 不 同 的 学 符 串 。 如 果 其 中 的 任何 一 个 不 正确 ， 炸 漳 就 会 “爆炸 ”打印 出 一 
条 错误 信息 ， 并 且 在 分 级 (grading〉 服 务 器 上 记录 事件 日 志 。 学 生 们 必须 通过 对 程序 反 汇编 
和 逆 问 工程 来 测定 应 该 是 哪 6 个 串 ， 从 而 解除 他 们 各 自 炸 弹 的 雷管 。 该 实验 教会 学 生理 解 汇 
编 语言 ， 并 且 强 制 他 们 学 习 怎 样 使 用 调试 器 。 

缓冲 区 溢出 实验 . 它 要 求学 生 们 通过 研究 一 个 缓冲 区 溢出 的 错误 ， 来 修改 二 进 制 可 执行 文件 
的 运行 时 行为 。 这 个 实验 教会 学 生 们 栈 的 原理 ， 并 让 他 们 了 解 到 写 那 种 易于 遭受 缓冲 区 溢出 
攻击 的 代码 的 危险 性 。 

体系 结构 实验 。 第 4 章 的 几 个 家 庭 作 业 问 题 能 够 组 合成 一 个 实验 作业 ， 在 实验 中 ， 学 生 们 修 
改 处 理 器 的 HCL 描述 以 增加 新 的 指令 、 修 改 分 支 预测 策略 ， 或 者 增加 或 删除 旁 路 路 径 和 寄 
存 虎 端口 。 设 计 出 来 的 处 理 器 能 够 被 模拟 , 并 通过 运行 自动 化 测试 检测 出 大 多 数 可 能 的 错误 。 
这 个 实验 使 学 生 们 能 体验 到 处 理 器 设计 中 令 人 激动 的 部 分 ， 而 不 需要 他 们 学 习 和 建造 用 
Verilog 或 者 VHDL 语言 写 的 复杂 而 低级 的 模块 。 

性 能 实验 。 学 生 们 必须 优化 应 用 的 核心 函数 〈 比 如 卷 积 积分 或 矩阵 转 置 ) 的 性 能 。 这 个 实验 
非常 清晰 地 表明 了 高 速 缓存 的 特性 ， 并 给 学 生 们 低级 程序 优化 的 经 验 。 


”shell 实验 。 学生 们 实现 他 们 自己 的 带 有 作业 控制 的 Unix shell 程序 , 包括 ctrl-c 和 ctrl-z 按键 、 


fg. bg 和 jobs 命令 。 这 是 学 生 们 第 一 次 接触 并 发 ， 并 且 让 他 们 对 Unix 的 进程 控制 、 信 号 和 
信和 号 处 理 有 清晰 的 了 解 。 

malloc 实验 。 学 生 们 实现 他 们 自己 的 malloc, free 和 realloc (可 选 地 》 版 本 。 这 个 实验 让 学 
生 们 清晰 地 理解 数据 的 布局 和 组 织 ， 并 且 要 求 他 们 评估 时 间 和 空间 效率 的 各 种 权衡 和 折 中 。 
代理 实验 。 学生 们 实现 一 个 位 于 浏览 器 和 万维网 其 他 部 分 之 间 的 并 行 Web 代理 。 这 个 实验 向 
学 生 们 揭示 了 Web 客户 端 和 服务 器 这 样 的 问题 , 并 且 联 系 起 了 课程 中 许多 概念 ， 比 如 字 节 排 
序 、 文 件 TO、 进 程控 制 、 信 号、 信和 号 处 理 、 存 储 器 映射 、 套 接 字 和 并 发 。 


本 书 的 教师 手册 有 对 实验 的 详细 讨论 ， 还 有 关于 下 载 支持 软件 的 说 明 。 
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2 第 1 章 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 , 它们 共同 工作 来 运行 应 用 程序 。 虽 然 系 统 的 具体 实现 方 
式 随 着 时 间 不 断 变 化 , 但 是 系统 内 在 的 概念 却 没有 改变 .所 有 计算 机 系统 都 由 相似 的 硬件 和 软件 组 成 ， 
它们 又 执行 着 相似 的 功能 。 这 本 书 是 为 这 样 一 些 程序 员 而 写 的 , 他们 和 希望 通过 了 解 这 些 部 件 如 何 工 作 
以 及 如 何 影 喝 程 序 的 准确 性 和 性 能 ， 来 提高 目 身 技能 。 
你 现在 就 要 开始 一 次 有 趣 的 漫游 历程 了 。 如 果 你 全 力 投身 学 习 本 书 中 的 概念 ,理解 底层 计算 机 
系统 的 本 质 和 它 如 何 影响 你 的 应 用 程序 ， 那 么 它 将 指引 你 步 上 成 为 稀缺 的 “权威 程序 员 ” 的 道路 。 
你 将 开始 学 习 一 些 实践 技巧 , 比如 如 何 避 免 由 计算 机 表示 数字 方式 引起 的 奇怪 的 数字 错误 . 你 将 
学 会 怎样 通过 一 些 聪明 的 小 窗 门 来 优化 你 的 C 代码 ， 这 些小 窒 门 运用 了 现代 处 理 器 和 和 存储 器 
(memory) 系统 的 设计 。 你 将 了 解 到 编译 器 是 如 何 实现 过 程 调用 的 ， 并 且 了 解 到 如 何 利 用 这 个 知识 
来 避免 缓存 区 洲 出 错误 带 来 的 安全 漏 酒 ， 这 些 错误 给 网 络 和 Internet KRR T RAMI. RS 
会 如 何 认 识 和 避免 链接 时 那些 令 人 讨厌 的 错误 , 它们 困扰 着 普通 的 程序 员 。 你 将 学 会 如 何 编写 自己 的 
Unix shell、 自 己 的 动态 存储 分 配 包 ， 甚 至 于 自己 的 Web 服务器! 
在 Kernighan 和 Ritchie 的 关于 C 编程 语言 的 经 典 文 章 [40] 中 ， 他 们 通过 图 1.1 中 所 示 的 hello 程 
序 来 向 读者 介绍 C。 尽 管 hello 程序 是 一 个 非常 简单 的 程序 ， 但 是 为 了 完成 它 的 执行 ， 系 统 的 每 个 主 
要 组 成 部 分 都 需要 协调 工作 。 从 菜 种 意义 上 来 说 ， 本 书 的 目的 就 是 要 帮助 你 了 解 当 你 在 系统 上 执行 
hello 程序 时 ， 系 统 发 生 了 什么 以 及 为 什么 会 如 此 运作 .。 


code/introshello.c 
#include <stdio.h> 


1 

2 

3 int mainí) 
4 { 

5 

6 


printf("hello, worid\n"); 
} 


code/intro/hello.c 


图 1.1 helo 程序 


我 们 通过 跟踪 hello 程序 的 生命 周期 来 开始 我 们 对 系统 知识 的 学 习 ， 它 的 生命 周期 从 它 被 程序 员 
创建 开始 ， 包 括 在 系统 上 运行 、 输 出 简单 的 消息 ， 然 后 终止。 我 们 将 沿 着 这 个 程序 的 生命 周期 ， 简 要 
地 介绍 一 些 逐 步 出 现 的 关键 概念 、 专 业 术 语 和 成 分 。 后 面 的 章节 将 围绕 这 些 内 容 展 开 。 


1.1 信息 就 是 位 + 上 下 文 


我 们 的 hello 程序 的 生命 是 从 一 个 源 程序 〈 或 者 说 源 文 件 ) 开始 的 ， 该 源 程序 由 程序 员 通 过 编辑 
骼 创建 并 保存 为 文本 文件 ， 文 件 名 就 是 hello.c。 源 程 序 实 际 上 就 是 一 个 由 0 和 1 组 成 的 位 〈 又 称 为 比 
特 〉 序 列 ， 这 些 位 被 组 织 成 8 个 一 组 ， 称 为 字 节 。 每 个 字 节 都 表示 程序 中 某 个 文本 字符 。 

大 部 分 的 现代 系统 都 使 用 ASCI 标准 来 表示 文本 字符 ， 这 种 方式 实际 上 就 是 用 一 个 惟一 的 字 节 
大 小 的 整数 值 来 表示 每 个 字符 。 比 如 ， 图 1.2 中 给 出 了 hello.c 程序 的 ASCH KR. 

hello.c 程序 是 以 字 市 序列 的 方式 储存 在 文件 中 的 。 每 个 字 节 都 有 一 个 整数 值 ， 对 应 于 茶 个 字符 。 
例如 ， 第 一 个 学 市 的 整数 值 是 35， 它 对 应 的 就 是 字符 “#”。 第 二 个 字 节 整数 值 为 105， 它 对 应 的 字符 


计算 机 系统 漫游 了 


是 “i”， 以 此 类 推 。 注 意 ， 每 行文 本 都 是 以 一 个 看 不 见 的 换行 符 “\n” 来 结束 的 ， 它 所 对 应 的 整数 值 
为 10。 像 hello.c 这 样 只 由 ASCH 字符 构成 的 文件 称 为 文本 文件 ， 所 有 其 他 文件 则 称 为 二 进 制 文 件 。 


# i n © 1 u d e <sp> < S t a 1 O : 

35 105 110 99 108 117 #100 101 32 60 115 116 100 105 111 46 
h > \n \n i n t <sp> m a i n ( ) \n { 
104 62 10 10 105 110 116 32 109 97 105 110 40 41 10 123 

\n <SP> <sp> <sp> <sp> p r i n t f { h l 

10 32 32 a2 32 112 114. 2105..310 116 162 40 34 104 101 108 
] r 


O , <SP> w O r 1 d \ n ) - \n Jj 
108 111 44 32 119 111 #114 #108 #100 92 110 34 41 59 I0  I25 


图 1.2 hello.c 的 ASCI 文本 表示 


helioc 的 表示 方法 说 明了 一 个 基本 的 思想 : 系统 中 所 有 的 信息 一 一 包括 磁盘 文件 、 存 储 器 中 的 程 
夺 、 和 存储 器 中 存放 的 用 户 数据 以 及 网 络 上 传送 的 数据 ， 都 是 由 一 串 比 特 表 示 的 。 区 分 不 同 数据 对 象 的 
惟一 方法 是 我 们 读 到 这 些 数据 对 象 时 的 上 下 文 。 比 如 ,在 不 同 的 上 下 文中 ,同样 的 字 节 序 列 可 能 表示 
-个 整数 、 浮 点 数 、 字 符 串 或 者 机 器 指令 。 
作为 程序 员 ， 我 们 需要 了 解数 字 的 机 器 表示 方式 ， 因 为 它们 与 常见 的 整数 和 实数 是 不 同 的 。 它 们 
有 些 相似 ， 但 这 种 相似 并 不 为 人 所 知 。 这 方面 的 基本 原理 将 在 第 2 章 中 详细 描述 。 


Sit: C 编程 语言 
C 语言 是 贝尔 实验 室 的 Dennis Ritchie 于 1969 年 ~ 1973 年 间 创 建 的 。 美 国 国家 标准 化 组 织 
( American National Standards Institute. ANSI) 在 1989 年 颁布 了 ANSI C 的 标准 . 该 标准 定义 了 C 
语言 和 一 系列 函数 库 ， 即 所 谓 的 C 标准 库 。Kemighan 和 Ritchie 在 他 们 众所周知 的 经 典 著 作 “K&R” 
[40] 'P 438 J ANSIC. A Ritchie 的 话 来 说 , CA “HHH. HRB, 但 同时 也 是 一 个 巨大 的 成 功 ”. 
为 什么 说 是 成 功 的 呢 ? 

© C 与 Unix 操作 系统 关系 密切 。C 从 开始 就 是 作为 一 种 用 于 Unix 系统 的 程序 语言 开发 出 来 的 。 
Unix 内 核 的 大 部 分 ， 以 及 所 有 它 支持 的 工具 和 函数 库 都 是 用 C 语言 编写 的 .20 世纪 70 年 代 
后 期 到 80 年 代 早 期 ，Unix 风行 于 高 等 院 校 ， 许 多 人 开始 接触 C 并 喜欢 上 了 C。 因 为 Unix 几 
FERRE C 编写 的 ， 它 就 可 以 很 方便 地 移植 到 新 的 机 器 上 ， 这 种 特点 为 C 和 Unix ART 
更 为 广泛 的 支持 。 

e C 龙 一 个 小 而 简单 的 语言 。C 语言 的 设计 是 由 一 个 人 而 非 一 个 协会 掌控 的 ， 其 结果 就 是 这 
A—-A MBA. RAHA REIT. KER 这 本 书 用 了 大 量 的 例子 和 练习 描述 了 完整 的 C 
语言 及 其 标准 库 ， 而 全 书 不 过 261 页 。C 语言 的 简单 使 它 相对 而 言 易 于 学 习 ， 也 易于 移植 到 
不 同 的 计算 机 上 。 

© C 有 是 为 实践 目的 设计 的 。C 是 设计 用 来 实现 Unix 操作 系统 的 。 后来， 其 他 人 发 现 能 够 用 这 门 
语言 无 障碍 地 编写 他 们 想 要 的 程序 。 

C 语言 是 系统 级 编程 的 首选 ， 同 时 它 也 非常 适用 于 应 用 级 程序 的 编写 。 然而， 它 也 并 非 适 用 于 所 

有 的 程序 员 和 所 有 的 情况 。C 的 指针 是 造成 困 芒 和 程序 错误 的 一 个 常见 原因 。 同 时 ，C 还 缺乏 对 一 些 


ALARM RAR, Hho. HRA. Het MAG CH+ 和 Java 等 新 的 程序 语言 解决 了 
这 些 问题 . 
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1.2 程序 被 其 他 程序 翻译 成 不 同 的 格式 


在 hello 程序 生命 周期 的 一 开始 时 是 一 个 高 级 C 程序 ， 因 为 当 处 于 这 种 形式 时 ， 它 是 能 够 被 人 
读 习 的 。 然 而， 为 了 在 系统 上 运行 hello.c BF, BHC 语句 都 必须 被 其 他 程序 转化 为 一 系列 的 低 
级 机 器 语言 指令 。 然 后 这 些 指 令 按 照 一 种 称 为 可 执行 目标 程序 (executable object program) 的 格式 
打 好 包 ， 并 以 二 进 制 磁盘 文件 的 形式 存放 起 来 。 目 标 程序 也 称 为 可 执行 目标 文件 (executable object 
file). 

在 Unix 系统 上 ， 从 源 文件 到 目标 文件 的 转化 是 由 编译 器 驱动 程序 (compiler driver) 完成 的 : 


unix> gcc -o hello hello.c 


在 这 里 ，gcc 编译 器 驱动 程序 读 取 源 程序 文件 belloc， 并 把 它 翻译 成 一 个 可 执行 目标 文件 hello。 
这 个 翻 详 的 过 程 是 分 为 四 个 阶段 完成 的 ,如 图 1.3 所 示 。 执行 这 四 个 阶段 的 程序 ( 预 处 理 器 、 编 译 器 、 
汇编 器 和 链接 器 ) 一 起 构成 了 编译 系统 。 


printf.o 


hello.c | 预 处 理 器 f hello.i 编译 器 hello.s 汇编 器 hello.o 链接 器 hello 
W “cpp) | 被 收 改 的 | D | 汇编 程序 | Cas) 可 重 定位 (id) 可 执行 


(文本 ) 源 程序 (文本 ) 目标 程序 HIE? 
(XA) (二 进 制 》 (二 进 制 》 


图 1.3 ”编译 系统 


© MEEME. MOHER Cpp) 根据 以 字符 # 开 头 的 命令 (directives), 修改 原始 的 C 程序 。 
比如 helloc 中 第 一 行 的 #include <stdio.h> 指 令 告诉 预 处 理 器 读 取 系统 头 文件 stdioh 的 内 容 ， 
并 把 它 直 接 插入 到 程序 文本 中 去 。 结 果 就 得 到 了 另 一 个 C 程序 ， 通 常 是 以 i 作为 文件 扩展 
名 。 

© RIFF. 编译 器 (cc1) 将 文本 文件 hello.i 翻译 成 文本 文件 hello s， 它 包 含 一 个 汇编 语言 程 
序 。 汇 编 语言 程序 中 的 每 条 语句 都 以 一 种 标准 的 文本 格式 确切 地 描述 了 一 条 低级 机 器 语言 指 
令 。 汇 编 语言 是 非常 有 用 的 ， 因为 它 为 不 同 高 级 语言 的 不 同 编译 器 提供 了 通用 的 输出 语言 。 
例如 ，C 编译 器 和 Fortran 编译 器 产生 的 输出 文件 用 的 都 是 一 样 的 汇编 语言 。 

。 江 编 阶段 。 接 下 来 ， 汇 编 器 (as) 将 hello.s 翻译 成 机 器 语言 指令 ， 把 这 些 指令 打包 成 为 一 种 
由 做 可 重 定位 (relocatable) 目标 程序 的 格式 ， 并 将 结果 保存 在 目标 文件 hello.o P. hello.o 
文件 是 一 个 二 进 制 文件 ， 它 的 字 节 编 码 是 机 器 语言 指令 而 不 是 字符 。 如 果 我 们 在 文本 编辑 器 
中 打开 hello.o 文件 ， 呈 现 的 将 是 一 堆 乱 码 。 

。 链接 阶段 。 请 注意 ， 我 们 的 hello 程序 调用 了 printf 函数 ， 它 是 标准 C 库 中 的 一 个 函数 ， 每 
个 C 编译 器 都 提供 。printf 函数 存在 于 一 个 名 为 printf.o 的 单独 的 预 编译 目标 文件 中 ， 而 这 个 
文件 必须 以 某 种 方式 并 入 到 我 们 的 hello.o 程序 中 。 链 接 器 (d) 号 负责 处 理 这 种 并 入 ， 结 果 


就 得 到 hello 文件 ， 它 是 一 个 可 执行 目标 文件 (或 者 简称 为 可 执行 文件 )。 可 执行 文件 加 载 到 
存储 器 后 ， 由 系统 负责 执行 。 
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Sit: GNU mE | 

GCC Æ GNU (GNU 是 GNU’s Not Unix 的 简写 ) AB 开发 出 来 的 众多 有 用 工具 之 一 。GNU 项 目 
是 1984 年 由 Richard Stallman 发 起 的 一 个 免税 的 起 善 项 目 。 该 项 目 的 目标 非常 宏大 ,就 是 开发 出 一 个 
完整 的 类 Unix 的 系统 ， 其 源 代 码 能 够 不 受 限 制 地 被 修改 和 传播 。 到 2002 年 ，GNU 项 目 已 经 发 展 成 
为 一 个 Unix 操作 系统 的 所 有 主要 部 件 构成 的 环境 ， 但 内 核 除 外 ， 内 核 是 由 Linux 项 目 独立 发 展 而 来 
的 . GNU 环境 包括 EMACS 编辑 器 、GCC 编译 器 、GDB 调试 器 、 汇编 器 、 链 接 器 、 处 理 二 进 制 文件 
的 工具 以 及 其 他 一 些 部 件 . 

GNU 项 目 取 得 了 非凡 的 成 绩 ， 但 是 却 常常 被 忽略 ， 现代 开放 源码 运动 (通常 和 Linux 联系 在 一 
起 ) 的 思想 起 源 是 GNU 项 目 中 自由 软件 ( free software ) 的 概念 .| 此 处 的 free 为 自由 言论 ( free speech ) 
中 “自由 ”之 意 ， 而 非 免费 啤酒 (free beer) 中 “免费 ”之 意 . ] GB. Linux 的 知名 度 在 很 大 程度 上 
还 要 归功 于 GNU 工具 ， 它 们 给 Linux 内 核 提 供 了 环境 . 


1.3 了 解 编译 系统 如 何 工作 是 大 有 益处 的 


对 于 像 hello.c 这 样 简单 的 程序 ， 我 们 可 以 依靠 编译 系统 生成 正确 有 效 的 机 器 代码 。 但 是 ， 有 一 
学 重要 的 原因 促使 程序 员 必 须知 道 编 译 系统 是 如 何 工作 的 。 

© 优化 程序 性 能 。 现 代 编 译 器 都 是 成 熟 的 工具 ， 通常 可 以 生成 很 好 的 代码 。 作 为 程序 员 ， 我 们 
无 观 为 了 写 出 高 效 代码 而 去 了 解 编译 器 的 内 部 工作 。 但 是 , 为 了 在 我 们 的 C 程序 中 做 出 好 的 
代码 选择 , 我 们 确实 需要 对 汇编 语言 以 及 编译 器 如 何 将 不 同 的 C 语句 转化 为 汇编 语言 有 一 些 
基本 的 了 解 。 比 如 ， 一 个 switch 语句 是 个 是 总 是 比 一 系列 的 if-then-else 语句 高 效 得 多 ? 一 个 
隐 数 调用 的 代价 有 多 大 ? while 循环 比 do 循环 更 有 效 吗 ? 指针 引用 比 数组 索引 更 有 效 吗 ? 相 
对 于 用 通过 引用 传递 过 来 的 参数 求 和 ， 为 什么 用 本 地 变量 求 和 的 循环 ， 其 运行 就 会 快 得 多 
Be? 为 什么 两 个 功能 相近 的 循环 的 运行 时 间 会 有 很 大 差异 ? 

企 第 3 章 中 ， 我 们 将 介绍 Intel IA32 机 器 语言 ， 并 阐述 编译 器 是 如 何 将 不 同 的 C 程序 结 
构 翻 译 成 机 器 语言 的 。 在 第 5 Heh, 你 将 学 习 如 何 通过 对 C 代码 做 些 简单 转换 ， 帮 助 编译 器 
移 好 地 完成 工作 ， 从 而 调整 你 的 C 程序 的 性 能 。 然 后 在 第 6 音 ， 你 将 学 习 存 储 器 系统 的 层次 
特性 ，C 编译 器 是 如 何 将 数组 存放 在 存储 器 中 ， 以 及 你 的 C 程序 又 是 如 何 能 够 利用 这 些 知 识 
从 而 更 高 效 地 运行 。 

。 理解 链接 时 出 现 的 错误 。 根据 我 们 的 经 验 ， 一 些 最 令 人 困扰 的 程序 错误 往往 都 与 链接 器 操作 
有 关 ， 尤 其 是 当 你 试图 建立 大 型 的 软件 系统 时 。 比 如 ， 链接 器 报告 说 它 无 法 解析 一 个 引用 ， 
TARA? 静态 变量 和 全 周 变 量 的 区 别 是 什么 ? 如 果 你 在 不 同 的 C 文件 中 定义 了 名 字 
相同 的 两 个 全 局 变量 会 发 生 什么 ? 藤 态 库 和 动态 库 的 区 别 是 什么 ?为 什么 我 们 在 命令 行 上 
排列 库 的 顺序 是 有 影响 的 ? 最 为 烦人 的 是 ， 为 什么 有 些 链接 错误 直到 运行 时 才 出 现 ? 在 第 7 
草 中 ， 你 将 了 解 到 这 些 问题 的 答案 。 

。 避免 安 全 漏洞 。 近 年 来 ， 缓 冲 区 溢出 错误 造成 了 大 多 数 网 络 和 Internet 服务 器 上 的 安全 漏洞 。 
这 些 错误 的 存在 是 因为 太 多 的 程序 员 忽 视 了 编译 器 用 来 为 函数 产生 代码 的 堆栈 规则 。 作为 学 
习 汇 编 语言 的 一 部 分 ， 我 们 将 在 第 3 章 中 摘 述 堆栈 规则 和 缓冲 区 溢出 错误 。 
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1.4 ”处 理 器 读 并 解释 储存 在 存储 器 中 的 指令 


此 刻 , 我 们 的 hello.c 源 程序 已 经 被 编译 系统 转换 成 了 可 执行 目标 文件 hello, 并 被 存放 在 磁盘 上 。 
为 了 在 Unix 系统 上 运行 该 可 执行 文件 ， 我 们 将 它 的 文件 名 输入 到 称 为 shell 的 应 用 程序 中 : 

unix> ./hello 

hello, world 

unix> 


shell 是 一 种 命令 行 解释 器 ， 它 输出 一 个 提示 符 ， 等 待 你 输入 一 行 命令 ， 然 后 执行 这 个 命令 。 如 
果 佼 命令 行 的 第 一 个 单词 不 是 一 个 内 置 的 shel 命令 , 那么 shell 就 会 假设 这 是 一 个 可 执行 文件 的 名 字 ， 
要 加 载 和 执行 该 文件 。 所 以 在 此 例 中 ，shell 将 加 载 和 执行 helo 程序 ， 然 后 等 待 程序 终止 。hello 程序 
在 屏幕 上 输出 它 的 信息 ， 然 后 终止 。shell 随后 输出 一 个 提示 符 ， 等 待 下 一 个 输入 的 命令 行 。 


1.4.1 系统 的 硬件 组 成 

为 了 了 解 运行 时 hello 程序 发 生 了 什么 ， 我们 需要 理解 一 个 典型 系统 的 硬件 组 织 ， 如 图 1.4 所 示 。 
这 张 图 是 Intel Pentium 系统 产品 族 的 模型 , 但 是 所 有 其 他 系统 也 有 相同 的 外 观 和 特性 。 现在 不 要 担心 
这 张 图 很 复杂 一 一 我 们 将 在 贯穿 这 本 书 的 课程 中 分 阶段 介绍 大 量 的 细节 。 


CPU 


FFA te ER 


H RR, 留 竺 网络 适配器 
;一 类 的 设备 使 用 


存储 在 磁盘 上 的 hello 
可 执行 文件 


1.4 一 个 典型 系统 的 硬件 组 成 
CPU: 中 央 处 理 单元 ，ALU: 算术 /逻辑 单元 PC: 程序 计数 器 ，USB: 通用 串 行 总 线 。 
总 线 
页 罕 整 个 系统 的 是 一 组 电子 管道 , 称 做 总 线 , 它 携带 信息 字 节 并 负责 在 各 个 部 件 间 传递 。 通常 总 线 
被 设计 成 传送 定 长 的 字 节 块 ， 也 就 是 字 ( word )。 字 中 的 字 节 数 MEK) 是 一 个 基本 的 系统 参数 ， 各 
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个 系统 中 也 不 尽 相 同 。 比如，Intel Pentium 系统 的 字 长 为 4 字 节 , 而 服务 器 类 的 系统 , 例如 Intel [taniums 
和 高 端的 Sun 公司 的 SPARCS 的 字 长 为 8 字 节 。 用 于 汽车 和 工业 中 的 振 入 式 控 制 器 之 类 较 小 的 系统 的 
字 长 往往 只 有 1 或 2 字 节 。 为 了 便于 描述 ， 我 们 假设 字 长 为 4 字 节 ， 并 且 假 设 总 线 一 次 只 传 1 个 字 。 


IO 设备 

VO (输入 /输出 ) 设备 是 系统 与 外 界 的 联系 通道 。 我 们 的 示例 系统 包括 四 个 IO 设备 : 作为 用 户 
输入 的 键盘 和 鼠标 ， 作 为 用 户 输出 的 显示 器 ， 以 及 用 于 长 期 存储 数据 和 程序 的 碟 盘 驱动 种 (简单 地 说 
就 是 磁盘 )。 最 开始 ， 可 执行 程序 hello 就 放 在 磁盘 上 。 

每 个 IO 设备 都 是 通过 一 个 控制 器 或 适配器 与 VO 总 线 连接 起 来 的 。 控 制 器 和 适配器 之 间 的 区 别 
主要 在 于 它们 的 组 成 方式 。 控 制 器 是 IO 设备 本 身 中 或 是 系统 的 主 印 制 电路 板 〈 通 常 被 称 做 主板 ) 上 
的 芯片 组 ， 而 适配器 则 是 一 块 插 在 主板 插 槽 上 的 卡 。 无 论 如 何 ， 它 们 的 功能 都 是 在 VO RAM VO R 
备 之 间 传 递 信息 。 

第 6 章 会 更 多 地 说 明 磁 盘 之 类 的 IO 设备 是 如 何 工作 的 。 在 第 11 章 中 ， 你 将 学 习 如 何在 应 用 程 
序 中 利用 Unix VO 接口 访问 设备 。 我 们 万 其 关注 特别 有 趣 的 网 络 类 设备 ， 不 过 这 些 技术 也 适用 于 其 
他 设备 。 

主 存 

主 存 是 一 个 临时 存储 设备 , 在 处 理 器 执行 程序 时 ， 它 被 用 来 存放 程序 和 程序 处 理 的 数据 。 物 理 上 
来 说 ， 主 存 是 由 一 组 DRAM (动态 随机 存 取 存储 器 芯片 组 成 的 ， 逻 辑 上 来 说 ， 存 储 器 是 由 一 个 线 
性 的 字 节 数组 组 成 的 ， 每 个 字 节 都 有 自己 锥 一 的 地 址 (数组 索引 )， 这 些 地 址 是 从 零 开 始 的 。 一 般 来 
说 ， 组 成 程序 的 每 条 机 器 指令 都 由 不 定量 的 字 节 构成 。 与 C 程序 变量 相对 应 的 数据 项 的 大 小 是 根据 
类 型 变化 的 。 比 如 ， 在 运行 Linux 的 Intel 机 器 上 ，short 类 型 的 数据 需要 2 字 节 ，int、float Al long 类 
型 则 需要 4 字 节 ， 而 double 类 型 需要 8 字 节 。 

第 6 章 具 体 说 明 存 储 技术 ,比如 DRAM 是 如 何 工 作 的 ， 以 及 它们 又 是 如 何 组 合 起 来 构成 主 存 的 。 


Ab FS 

中 央 处 理 单元 (CPU) 简称 处 理 器 ， 是 解释 〈 或 执行 ) 存储 在 主 存 中 指令 的 引擎 。 处 理 器 的 核心 
是 一 个 被 称 为 程序 计数 器 (PC) 的 字 长 大 小 的 存储 设备 (或 寄存 器 )。 在 任何 一 个 时 间 点 上 ，PC 都 
指 同 主 存 中 的 某 条 机 器 语言 指令 (内 含 其 地 址 )。， 

从 系统 通电 开始 ， 直 到 系统 断 电 ， 处 理 器 一 直 在 不 假 思索 地 重复 执行 相同 的 基本 任务 ， 从 程序 计 
数 器 (PC) 指向 的 存储 器 处 读 取 指 令 ， 解 释 指 令 中 的 位 ， 执 行 指 令 指示 的 简单 操作 ， 然 后 更 新 程序 
计数 器 指 问 下 一 条 指令 ， 而 这 条 指令 并 不 一 定 在 存储 器 中 和 刚刚 执行 的 指令 相 邻 。 

这 样 的 简单 操作 的 数目 并 不 多 ,它们 在 主 存 、 寄 存 器 文件 (register file) FIR RHPA (ALU) 
之 则 御 环 。 寄 存 器 文件 是 一 个 小 的 存储 设备 ， 由 一 些 字 长 大 小 的 寄存 器 组 成 ,这些 寄存 器 每 个 都 有 惟 
HEF. ALU 计算 新 的 数据 和 地 址 值 。 下 面 是 一 些 简单 操作 的 例子 ，CPU 在 指令 的 要 求 下 可 能 会 
执行 这 些 操 作 。 

。 加 载 : 从 主 存 拷贝 一 个 字 节 或 者 一 个 字 到 寄存 器 ， 覆 盖 寄 存 器 原来 的 内 容 。 

© 存储 : 从 寄存 器 拷贝 一 个 字 节 或 者 一 个 字 到 主 存 的 某 个 位 置 ， 覆 盖 这 个 位 置 上 原来 的 内 容 。 


1 PC 也 普 示 地 第 用 来 作为 个 人 计算 机 的 缩写 。 然而， 两 者 之 间 的 区 别 应 该 可 以 很 清楚 地 从 上 下 文中 看 出 来 。 
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。 更 新 : 找 贝 两 个 寄存 器 的 内 容 到 ALU，ALU 将 两 个 字 相 加 ， 并 将 结果 存放 到 一 个 寄存 器 中 ， 
和 害 兹 该 寄存 器 中 原来 的 内 容 。 

e VOU: 从 一 个 LO 设备 中 拷贝 一 个 字 节 或 者 一 个 字 到 一 个 寄存 器 。 

© VOR: 从 一 个 寄存 器 中 拷贝 一 个 字 节 或 者 一 个 字 到 一 个 VO 设备 。 

。 转移 : 从 指令 本 身 中 抽取 一 个 字 ， 并 将 这 个 字 拷 贝 到 程序 计数 器 (PC) p, AA PC 中 原来 
的 值 。 

第 4 章 将 对 处 理 器 的 工作 原理 给 予 更 详细 的 说 明 。 


1.4.2 执行 hello 程序 
通过 对 系统 的 硬件 组 成 和 操作 的 简单 学 习 ， 我 们 开始 能 够 了 解 当 我 们 运行 示例 程序 时 发 生 了 什 
么 。 在 这 里 我 们 必须 忽略 很 多 细节 ， 稍 后 会 做 一 些 补 充 ， 但 是 现在 我 们 将 很 满意 于 这 种 粗略 的 描述 。 
B56. shell 程序 执行 它 的 指令 ， 等 待 我 们 输入 命令 。 当 我 们 在 键盘 上 输入 字符 串 “./hello” 后 ， 
shel 程序 就 逐一 读 取 字 符 到 寄存 器 ， 再 把 它 存放 到 存储 器 中 ， 如 图 1.5 所 示 。 


CPU 


+ | “hello” 


PR. Bishi 
配器 一 类 的 设备 使 用 


VO 总 线 


ARG | , 
Suena canes 


1.5 从 键盘 上 读 取 hello 命令 
SRT FERPA BERS, shell 就 知道 我 们 已 经 结束 了 命令 的 输入 。 然 后 shell 执行 一 系列 指 
令 ， 这 些 指令 将 helo 目标 文件 中 的 代码 和 数据 从 磁盘 拷贝 到 主 存 ， 从 而 加 载 hello 文件 。 数 据 包括 最 
终 会 被 输出 的 字符 串 “hello, world\n”. 
利用 称 为 DMA 〈 直 接 存储 器 存 取 ， 将 在 第 6 章 中 讨论 ) 的 技术 ， 数 据 可 以 不 通过 处 理 器 而 直接 
从 磁盘 到 达 主 存 。 这 个 步骤 如 图 1.6 所 示 。 
— EB hello 目标 文件 中 的 代码 和 数据 被 加 载 到 了 存储 器 , 处 理 器 就 开始 执行 helo 程序 的 主 程序 中 
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的 机 器 语言 指令 。 这 些 指令 将 “hello, worldn” 串 中 的 字 节 从 存储 器 中 拷贝 到 寄存 器 文件 ， 再 从 寄存 
俩 中 文件 拷贝 到 显示 设备 ， 最 终 显 示 在 屏幕 上 。 这 个 步骤 如 图 1.7 所 示 。 


CPU 


系统 总 线 存储 器 总 线 


“hello, woridin” 
1 hello 代码 


扩展 模 , 留待 网 络 适配器 
ae) AEEA 


鼠标 键盘。 显示 器 a 存储 在 磁盘 上 的 hello 


EE 可 执行 文件 
图 1.6 从 磁盘 加 载 可 执行 文件 到 主 存 


系统 总 线 


存储 器 总 线 


| “hello, woridin” 
储 器 hello 代码 
“VO 总线 i 4 
扩展 模 ， 留 待 网 络 适 


He 配器 一 类 的 设备 使 用 
控制 器 适配器 


限 标 键盘 显示 器 


存 情 在 磁盘 上 的 hello 
“hello, worldin” 


可 执行 文件 
7 从 存储 器 写 输 出 串 到 显示 器 


15 高速 缓 存 
通过 这 个 简单 的 示例 我 们 了 解 到 重要 的 一 课 ， 那 就 是 系统 花费 了 大 量 的 时 间 把 信息 从 一 个 地 方 挪 
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到 另 一 个 地 方 。hello 程序 的 机 器 指令 最 初 是 存放 在 磁盘 上 的 。 当 程序 加 载 时 ， 它 们 被 措 贝 到 主 存 。 
当 处 理 器 运行 程序 时 ， 指 令 又 从 主 存 拷 贝 到 处 理 器 。 相 似 地 ， 数 据 串 “hejlo, worldm ”开始 时 在 磁盘 
上 ， 再 被 拷贝 到 主 存 ， 然 后 从 主 存 上 拷贝 到 显示 设备 。 从 一 个 程序 员 的 角度 来 看 ， 大 量 的 拷贝 减 慢 了 
程序 的 实际 工作 。 因 此 ， 系 统 设计 者 的 一 个 主要 目标 就 是 使 这 些 拷贝 操作 尽 可 能 的 快 。 

根据 机 械 原 理 , 较 大 的 存储 设备 要 比较 小 的 存储 设备 运行 得 慢 , 而 快速 设备 的 造价 还 高 于 低速 间 
类 设备 。 比 如 说 ， 一 个 典型 系统 上 的 磁盘 驱动 器 可 能 比 主 存 大 100 倍 , 但 是 对 处 理 器 而 言 ， 从 磁盘 驱 
动 器 上 读 取 一 个 字 的 时 间 开 销 要 比 从 主 存 中 读 取 的 开销 大 1000 万 倍 。 

类 似 地 ， 一 个 典型 的 寄存 器 文件 只 存储 几 百 字 节 的 信息 ， 与 此 相反 ， 主 存 里 可 存放 几 百 万 字 广 。 
然而 ， 处 理 器 从 寄存 器 文件 中 读数 据 比 从 主 存 中 读 取 要 快 几乎 100 倍 。 更 麻烦 的 是 ， 随 者 这 些 年 半 导 
体 技 术 的 进步 , 这 种 处 理 器 与 主 存 之 间 的 差距 还 在 持续 增 大 。 加快 处 理 器 的 运行 速度 比 加 快 主 存 的 处 
理 速度 要 容易 和 便宜 得 多 。 

针对 这 种 处 理 器 与 主 存 之 间 的 差异 , 系统 设计 者 采用 了 更 小 更 快 的 存储 设备 ,， 称 为 高 速 缓存 存储 
器 (cache memories， 简 称 高 速 缓存 )， 它 们 被 用 来 作为 暂时 的 集结 区 域 ， 存 放 处 理 器 在 不 和 久 的 将 来 可 

上 会 需要 的 信息 。 图 1.8 展示 了 一 个 典型 系统 中 的 高 速 缓存 存 储 器 。 位 于 处 理 器 必 片 上 的 LI ike 
在 的 容量 可 以 达到 数 万 字 节 , 访问 速度 几乎 和 访问 寄存 器 文件 一 样 快 。 一 个 容量 为 数 十 万 到 数 百 万 的 
更 大 的 L2 高 速 缓存 是 通过 一 条 特殊 的 总 线 连 接 到 处 理 器 的 。 进程 访问 L2 的 时 间 开 销 要 比 访 问 Ll 的 
开销 大 5 倍 , 但 是 这 仍然 比 访问 主 存 的 时 间 快 5~10 倍 。L1 和 [2 高 速 缓存 是 用 一 种 叫做 静态 随机 访 
问 和 存储 器 (SRAM) 的 硬件 技术 实现 的 。 

这 本 书 的 重要 课题 之 一 就 是 应 用 程序 员 通 过 理解 高 速 缓存 存储 器 的 机 理 , 能 够 利用 这 些 知识 极 大 
地 提高 程序 的 性 能 。 你 将 在 第 6 章 里 学 习 这 些 重要 的 设备 ， 并 学 习 如 何 利用 它们 。 


CPU 芯片 


高 速 缓存 总 线 
L2 高 速 级 存 | ,人 | i 
(SRAM) L | (DRAM) 


图 1.8 RAH has 


1.6 形成 层次 结构 的 存储 设备 


在 处 理 器 和 一 个 较 大 较 慢 的 设备 (例如 主 存 ) 之 间 插 入 一 个 更 小 、 更 快 的 存储 设备 (例如 ， 高 速 
缓存 存储 器 ) 的 想法 成 为 一 个 普遍 的 观念 。 实 际 上 ,每 个 计算 机 系统 中 的 存储 设备 都 被 组 织 成 一 个 大 
储 器 层次 模型 ， 就 像 图 1.9 所 展示 的 那样 。 在 这 个 层次 异型 中 ， 从 上 全 下 ， 发 备 变 得 更 慢 、 更 大 ， 并 
且 每 字 节 的 造价 也 更 便宜 。 寄 存 器 文件 在 层次 模型 中 位 于 最 顶部 ， 也 就 是 第 0 级 或 记 为 LO。L1 高 速 
绥 存 处 在 第 一 层 〈 所 以 称 为 L1)，L2 高 速 缓 存 占据 第 二 层 ， 主 存在 第 三 层 ， 以 此 类推 。 

存储 器 分 层 结构 的 主要 思想 是 一 个 层次 上 的 存储 器 作为 下 一 层次 上 的 存储 器 的 高 速 缓存 。 因 此 ， 
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寄存 器 文件 就 是 LI 的 高 速 缓存 ， 而 Ll 又 是 LORE, LIER NMRA, ERR 


高 速 绥 存 。 在 菜 些 带 分布 式 文件 系统 的 网 络 系统 中 , 本 地 磁盘 就 是 其 他 系统 中 磁盘 上 被 存储 数据 的 丙 
速 缓 存 。 


更 小 ， 

更 快 ， | CU SHER ERR EE 
(每 字 节 ) 存储 器 的 字 

更 贵 的 LI 高 速 缓存 保存 取 自 L2 AEZ 
存储 设备 2 芯片 外 的 12 ee 
/ 高速 缓存 (SRAM) L2 高 速 缓存 保存 取 自 存储 器 
的 高 速 缓存 行 
L3: 主 存储 器 
天 (DRAM? 主 存储 器 保存 取 自 本 地 


更 二 磁盘 的 磁盘 块 
(每 字 节 ) 【4 本 eg 
( ) 
TaM 本 地 磁盘 保存 取 自 远程 网 络 
上 磁盘 的 
入 ee mee 服务 器 上 磁盘 的 文件 
《分 布 式 文件 系统 ，Web 服务 器 ) 


图 1.7 一 个 存储 器 层次 模型 的 示例 


就 像 程序 员 可 以 运用 Ll 和 L2 的 知识 来 提高 程序 性 能 一 样 ， 程 序 员 同 样 可 以 利用 对 整个 存储 器 
层次 模型 的 理解 来 提高 程序 性 能 。 第 6 章 将 更 详细 地 讨论 这 个 问题 。 


1.7 操作 系统 管理 硬件 


让 我 们 回 到 hello 程序 的 例子 。 当 shell 加 载 和 运行 hello 程序 时 , 当 hello 程序 输出 自己 的 消息 时 ， 
程序 没有 直接 访问 键盘 、 显 示 器 、 磁盘 或 者 主 存储 器 。 取而代之 的 是 , 它们 依靠 操作 系统 提供 的 服务 。 
我 们 可 以 把 操作 系统 看 成 是 应 用 程序 和 硬件 之 间 插 入 的 一 层 软件 ， 如 图 1.10 所 示 。 所 有 应 用 程序 对 
人 硬件 的 操作 尝试 都 必须 通过 操作 系统 。 


图 1.10 计算 机 系统 的 分 层 视图 


操作 系统 有 两 个 基本 功能 : 防止 硬件 被 失控 的 应 用 程序 滥用 ; 在 控制 复杂 而 又 通常 广泛 不 同 的 低 
级 硬件 设备 方面 ， 为 应 用 程序 提供 简单 一 致 的 方法 。 操 作 系 统 通过 图 1.11 中 显示 的 几 个 基本 的 抽象 
概念 进程、 虚拟 存储 器 和 文件 ) 实现 这 两 个 功能 。 如 图 1.11 所 示 ， 文 件 是 对 WO 设备 的 抽象 表示 ， 
虚拟 存储 器 是 对 主 存 和 磁盘 VO 设备 的 抽象 表示 ， 进 程 则 是 对 处 理 器 、 主 存 和 IO 设备 的 抽象 表示 。 
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我 们 将 依次 讨论 每 种 抽象 表示 。 
进程 
FO 一 一 
| 虚拟 存储 器 
文件 
| — an 


图 1.11 操作 系统 提供 的 抽象 表示 
Sit: Unix 和 Posix 

20 世纪 60 年 代 是 大 型 、 复 杂 操作 系统 的 年 代 ， 比 如 IBM 的 OS/360 和 Honeywell 的 Multics 系 
%. OS/360 是 历史 上 最 上 成功 的 软件 项 目 之 一 ,而 Multics 持续 了 多 年 ， 却 从 来 没有 被 广泛 应 用 过 ， 忠 
尔 实验 室 痢 经 是 Multis 项 目的 最 初 参与 者 ， 但 是 因为 考虑 到 该 项 目的 复杂 性 和 缺乏 进展 而 于 1969 
年 退出 。 鉴 于 对 Mutics 项 目 不 愉 快 的 经 验 ， 一 群 贝尔 实验 室 的 研究 人 员 一 一 Ken Thompson. Dennis 
Ritchie. Doug Mcllroy 和 Joe Ossanna 在 1969 年 开始 在 DEC PDP-7 计算 机 上 完全 用 机 器 语言 编写 一 
个 简单 得 多 的 操作 系统 。 这 个 新 系统 中 的 很 多 思想 ， 比 如 层次 文件 系统 、 作 为 用 户 级 进程 的 shell 概 
念 ， 都 是 来 自 于 Multics， 不 过 封装 在 更 小 、 更 简单 的 程序 包 里 .1970 年 ，Brian Kernighan 给 新 系统 
命名 为 “Unix”， 也 是 双关 语 ， 上 暗 指 “Mujtics” 的 复杂 性 。1973 年 其 内 核 用 C 重新 编写 ，1974 年 ， 
Unix 开始 正式 对 外 发 布 [65]。， 

因为 贝尔 实验 室 以 宽松 大 方 的 条 款 向 学 校 提供 源 代 码 ， 所 以 Unix 在 大 专 院 校 里 获得 了 很 多 支持 
和 发 展 。 最 有 影响 的 工作 发 生 在 20 世纪 70 年 代 晚期 到 80 年 代 早期 在 美国 加 州 大 学 伯克利 分 校 ， 伯 
克利 的 研究 人 员 在 称 为 Unix 4.xBSD ( Berkeley Software Distribution) 的 一 系列 版 本 中 增加 了 虚拟 在 
储 器 和 Internet 协议 。 与 此 同时 ， 忠 尔 实 验 室 发 布 了 他 们 自己 的 版 本 ， 也 就 是 System V Unix。 其 他 厂 
商 的 版 本 ， 比 如 Sun Microsystems 的 Solaris 系统 ， 则 是 从 这 些 原始 的 BSD 和 System V Unix 版 本 中 
衍生 而 来 的 。 

20 世纪 80 年 代 中 期 , Unix 厂商 试图 通过 加 入 新 的 .一 般 不 兼容 的 特性 来 使 他 们 的 程序 与 众 不 同 ， 
麻烦 也 就 随 之 而 来 了 。 为 了 阻止 这 种 趋势 ，IEEE (电气 和 电子 工程 师 协 会 ) 发 起 努力 来 标准 化 Unix, 
也 就 是 后 来 Richard Stallman 命名 的 “Posix”。 结 果 就 得 到 了 一 系列 的 标准 ， 称 做 Posix 标准 。 这 套 标 
BAS TRS AH, toto Unix ARMA CHER. shell 程序 和 工具 、 线 程 及 网 络 编程 。 随 着 越 
来 越 多 的 系统 越 来 越 完 全 地 遵从 Posix 标准 ，Unix 版 本 之 间 的 差异 正在 逐渐 消失 . 


1.7.1 进程 

像 hello 这 样 的 程序 在 现代 系统 上 运行 时 ， 操 作 系 统 会 提供 一 种 假象 ， 就 好 像 系 统 上 只 有 这 个 程 
序 在 运行 。 程 序 看 上 去 独占 地 使 用 处 理 器 、 主 存 和 LO 设备 ， 而 处 理 器 看 上 去 就 像 在 不 间断 地 一 条 接 
一 条 地 执行 程序 中 的 指令 。 该 程序 的 代码 和 数据 就 好 像 是 系统 存储 器 中 惟一 的 对 象 。 这 些 假象 是 通过 
进程 的 概念 来 实现 的 ， 进 程 是 计算 机 科学 中 最 重要 和 最 成 功 的 概念 之 一 。 

进程 是 操作 系统 对 运行 程序 的 一 种 抽象 。 在 一 个 系统 上 可 以 同时 运行 多 个 进 称 ， 而 每 个 进程 都 好 
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像 在 独占 地 使 用 硬件 。 我 们 称 之 为 并 发 运行 ,实际 上 是 说 一 个 进程 的 指令 和 另 一 个 进程 的 指令 是 交 铺 
执行 的 。 操 作 系统 实现 这 种 交错 执行 的 机 制 称 为 上 下 文 切 换 〔〈context switching )。 

操作 系统 保存 进程 运行 所 需 的 所 有 状态 信息 。 这 种 状态 ， 也 就 是 上 下 文 (context), GATS 
息 ， 比 如 PC 和 寄存 器 文件 的 当前 值 ， 以 及 主 存 的 内 容 。 在 任何 一 个 时 刻 ， 系 统 上 都 上 共有 一 个 进程 正 
在 运行 。 当 操作 系统 决定 从 当前 进程 转移 控制 权 到 某 个 新 进程 时 , 它 就 会 进行 上 下 文 切 换 ， 即 保存 当 
前 进程 的 上 下 文 、 恢 复 新 进程 的 上 下 文 ， 然后 将 控制 权 转 移 到 新 进程 。 新 进程 束 会 从 它 上 次 停止 的 地 
方 开始 。 图 1.12 展示 了 我 们 的 示例 hello 运行 的 基本 场景 。 

在 我 们 的 示例 场景 中 有 两 个 同时 运行 的 进程 shell 进程 和 hello 进程 。 最 开始 ， 只 有 shell 进程 在 
运行 ， 等 待命 令 行 上 的 输入 。 当 我 们 让 它 运行 hello 程序 时 ，shell 通过 调用 一 个 专门 的 函数 ， 即 系统 
调用 ， 来 执行 我 们 的 请 求 ， 系 统 调用 会 将 控制 权 传递 给 操作 系统 。 操 作 系 统 保存 shell 进程 的 上 下 文 ， 
创建 一 个 新 的 helo 进程 及 其 上 下 文 ， 然 后 将 控制 权 传 给 新 的 hello 进程 。 在 helo 进程 终止 后 ， 操 作 
系统 恢复 shel 进程 的 上 下 文 ， 并 将 控制 权 传 回 给 它 ， 它 会 继续 等 待 下 一 命令 行 答 入 。 


shell heilso 


时 间 。 ”进程 。 ， 进程 
' 应 用 程序 代码 
3 操作 系统 代码 } 上 下 文 切换 
应 用 程序 代码 
操作 系统 代码 上 下 文 切换 
应 用 程序 代码 


图 1.12 进程 的 上 下 文 切 换 


实现 进程 这 个 抽象 概念 需要 低级 硬件 和 操作 系统 软件 的 紧密 合作 ,我 们 将 在 第 8 章 中 揭 丰 这 是 如 
何 工 作 的 ， 以 及 应 用 程序 是 如 何 创建 和 控制 它们 的 进程 的 。 
进程 这 个 抽象 概念 还 暗示 着 由 于 不 同 的 进程 交错 执行 , 打 乱 了 时 间 的 概念 , 使 得 程序 员 很 难 获 得 


运行 时 间 的 准确 和 可 重复 测量 , 第 9 章 讨 论 了 现代 系统 中 的 各 种 时 间 概 念 , 并 描述 了 用 来 获得 准确 测 
基 值 的 技术 。 


1.7.2 线程 

尽管 通常 我 们 认为 一 个 进程 只 有 单一 的 控制 流 , 但 是 在 现代 系统 中 , 一 个 进程 实际 上 可 以 由 多 个 
称 为 线程 的 执行 单元 组 成 ， 每 个 线程 都 运行 在 进程 的 上 下 文中 ， 并 共享 同样 的 代码 和 全 局 数据 。 由 于 
网 络 服 务 器 中 对 并 行 处 理 的 要 求 , 线程 成 为 越 来 越 重要 的 编程 模型 , 因为 多 线程 之 间 比 多 进程 之 间 更 


容易 共 至 数据 ， 也 因为 线程 一 般 都 比 进程 更 高 效 。 在 第 13 章 中 ， 你 将 学 习 到 并 行 的 基本 概念 ， 也 包 
括 线程 化 的 概念 。 


1.73 ”虚拟 存储 器 


虚拟 存储 器 是 一 个 抽象 概念 , 它 为 每 个 进程 提供 了 一 个 假象 , 好像 每 个 进程 都 在 独占 地 使 用 主 存 。 
每 个 进程 看 到 的 存储 器 都 是 一 致 的 ， 称 之 为 虚拟 地 址 空间 。 图 1.13 所 示 的 是 Linux 进程 的 虚拟 地 址 
空间 (其 他 Unix 系统 的 设计 也 与 此 类 似 )。 在 Linux 中 ， 最 上 面 的 四 分 之 一 的 地 址 空间 是 预 留 给 操作 
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系统 中 的 代码 和 数据 的 , 这 对 所 有 进程 都 一 样 。 底部 的 四 分 之 三 的 地 址 空间 用 来 存放 用 户 进程 定义 的 
代码 和 数据 。 请 注意 ， 图 中 的 地 址 是 从 下 往 上 增 大 的 。 


Oxffffftfff 用 户 代 码 不 可 见 


的 存储 器 


PY HOT FF fi ae 
《运行 时 创建 的 》 
共享 库 的 存储 器 
映射 区 域 
IITE 
(在 运行 时 由 malloc 创建 的 》 
读 / 写 数据 
只 起 的 代码 和 数据 


1.13 ”进程 的 虚拟 地 址 空间 


OxcO000000 


printf () RR 


0x40000000 


M hello 可 执行 
文件 加 载 进 来 的 


O0x08048000 


0 


每 个 进程 看 到 的 虚拟 地 址 空间 由 大 量 准确 定义 的 区 (area) 构成 ， 每 个 区 都 有 专门 的 功能 。 在 本 
书 的 后 面 你 将 学 到 更 多 的 有 关 这 些 区 的 知识 ， 但 是 先 简单 看 看 每 一 个 区 ， 从 最 低 的 地 址 开始 ,逐步 内 
上 研究 将 是 非常 有 益 的 。 


程序 代码 和 数据 。 代 码 是 从 同一 固定 地 址 开始 ， 紧 接着 的 是 和 C 全 局 变量 相对 应 的 数据 区 。 
代码 和 数据 区 是 由 可 执行 目标 文件 直接 初始 化 的 , 在 我 们 的 示例 中 就 是 可 执行 文件 hello. 在 
第 7 章 我 们 介绍 链接 和 加 载 时 ， 你 会 学 习 到 更 多 有 关 地 址 空间 中 这 部 分 的 内 容 。 

堆 。 代 码 和 数据 区 后 紧 随 着 的 是 运行 时 堆 。 代 码 和 数据 区 是 在 进程 一 旦 开始 运行 时 就 被 指定 
了 大 小 的 ， 与 此 不 同 ， 作 为 调用 像 malloc 和 free 这 样 的 C 标准 库 限 数 的 结果 ， 堆 可 以 在 运 
行 时 动态 地 扩展 和 收缩 。 在 第 10 章 学 习 管 理 虚拟 存储 器 时 ， 我 们 将 更 详细 地 研究 堆 。 
RFE. 在 地 址 空间 的 中 间 附 近 是 一 块 用 来 存放 像 C 标准 库 和 数学 库 这 样 共享 库 的 代码 和 数 
据 的 区 域 。 共 享 库 的 概念 非常 强大 ， 但 是 也 是 个 相当 难 懂 的 概念 。 在 第 7 章 我 们 学 习 动 态 链 
接 时 ， 将 学 习 共 享 库 是 如 何 工作 的 。 

栈 。 位 于 用 户 虚拟 地 址 空间 顶部 的 是 用 户 栈 ， 编 译 器 用 它 来 实现 吨 数 调用 。 和 堆 一 样 ， 用 己 
栈 在 程序 执行 期 间 可 以 动态 地 扩展 和 收缩 。 特别 地 , 每 次 我 们 调用 一 个 函数 时 , 栈 厌 会 增长 。 
每 次 我 们 从 畏 数 返回 时 ， 栈 就 会 收缩 。 在 第 3 章 中 你 将 学 习 编译 器 是 如 何 使 用 栈 的 。 

内 核 虚 拟 存 储 器 。 内 核 是 操作 系统 总 是 驻 留 在 存储 器 中 的 部 分 。 地 址 空间 顶部 的 四 分 之 一 部 分 
是 为 内 核 预 留 的 。 应 用 程序 不 允许 读 写 这 个 区 域 的 内 容 或 者 直接 调用 失 核 代码 定义 的 亏 数 。 


虚拟 存储 颖 的 运作 需要 硬件 和 操作 系统 软件 间 的 精密 复杂 的 互相 合作 , 包括 对 处 理 器 生成 的 每 个 
地 址 的 硬件 翻译 。 基 本 思想 是 把 一 个 进程 虚拟 存储 器 的 内 容 存 储 在 磁盘 上 , 然后 用 主 存 作 为 磁盘 的 口 
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RATE. P 10 章 将 解释 它 如 何 工作 ， 以 及 它 为 什么 对 现代 系统 的 运行 如 此 重要 。 


1.7.4 文件 

文件 只 不 过 就 是 字 节 序列 。 每 个 VO 设备 ， 包 括 磁 盘 、 键 盘 、 显 示 器 ， 甚 至 于 网 络 ， 部 可 以 被 
看 成 是 文件 .系统 中 的 所 有 输入 输出 都 是 通过 使 用 称 为 Unix VO 的 一 小 组 系统 消 数 调用 读 写 文件 来 
SE BLA . 

文件 这 个 简单 而 精致 的 概念 是 非常 强大 的 , 因为 它 使 得 应 用 程序 能 够 统一 地 看 符 系 统 中 可 能 含有 
的 所 有 各 式 各 样 的 IO 设备 。 例 如 ， 处 理 磁 盘 文 件 内 容 的 应 用 程序 员 可 以 非常 位 福地 无 南 了 解 具 体 的 
磁盘 技术 。 进 一 步 说 ， 同 一 个 程序 可 以 在 使 用 不 同 磁盘 技术 的 不 同系 统 上 运行 。 你 将 在 第 11 章 中 学 
>} Unix VO. 


旁 注 ，Linux iB 

1991 年 8 月 ,一 个 名 为 Linus Torvalds 的 芬兰 研究 生 谨慎 地 发 布 了 一 个 新 的 类 Unix 的 操作 系统 
内 核 。 

来 自 : torvalds@klaava.Helsinki.FI (Linus Benedict Torvalds) 

新 闻 组 : comp.os.minix 

主题 : 在 minix 中 你 最 想 看 到 什么 ? 

HE: 关于 我 的 新 操作 系统 的 小 调查 

时 间 : 1991 #8 A 25 B 20:57:08 GMT 

每 个 使 用 minix 的 朋友 ， 体 们 好 一 

我 正在 做 一 个 【免费 的 ) 用 在 386 (486) AT 上 的 操作 系统 (只 是 业余 爱好 ， 它 不 会 像 GNU 那 
样 磺 大 和 专业 )。 这 个 想法 自从 4 月 份 就 开始 酝酿 。 我 希望 得 到 各 位 对 minis 喜欢 和 不 满 的 反馈 意见 ， 
因 为 我 的 气 作 系统 在 某 些 方面 是 模仿 它 的 [其 中 包括 相同 的 文件 系统 的 物理 设计 ( 因为 某 些 实际 的 原 
因 ) ]。 

我 现在 已 经 移植 了 bash (1.08) 和 gce (1.40 )， 并 且 看 上 去 能 运行 这 意味 着 我 需要 几 个 月 的 时 
间 来 让 它 变 得 更 实用 一 些 ， 并 且 ， 我 起 要 知道 大 多 数 人 想 要 的 特性 . 欢迎 任何 建议 , 但 是 我 无 法 保证 
我 能 实现 他 们 。: -) 

Linus (torvalds @kruuna.helsinki_fi) 

接 下 来 的 ， 如 他 们 所 说 ， 就 成 为 了 历史 。Linux 逐渐 发 展 成 为 一 个 技术 和 文化 现象 .通过 和 GNU 
项 目的 力量 结合 ，Linux 项 目 发 展 成 为 了 一 个 完整 的 、 符 合 Posix 标准 的 Unix 操作 系统 的 版 本 ， 包 括 
内 核 和 所 有 支撑 的 基础 设施 。 从 手持 设备 到 大 型 计算 机 ，Linux 在 范围 如 此 广泛 的 计算 机 上 得 到 了 应 
M. IBM 的 一 个 工作 组 甚至 把 Linu 移植 到 了 一 块 手表 中 ! 


1.8 利用 网 络 系统 和 其 他 系统 通信 


系统 漫游 行 之 至 此 ,我们 一 直 是 把 系统 视 为 一 个 孤立 的 硬件 和 软件 的 集合 体 。 实 际 上 ,现代 系统 

经 闻 是 通过 网 络 和 其 他 系统 连接 到 一 起 的 。 从 一 个 单独 的 系统 来 看 ， 网 络 可 被 视 为 又 一 个 WO RE, 
如 图 1.14 所 示 。 当 系统 从 主 存 拷贝 一 串 字 符 到 网 络 适 配器 时 ， 数 据 流 经 过 网 络 到 达 另 一 台 机 器 ， 而 
不 是 到 达 本 地 磁盘 驱动 器 。 相 似 地 ， 系统 可 以 读 取 从 其 他 机 器 发 送 来 的 数据 ， 并 把 数据 搁 贝 到 自己 的 
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EF- 


CPU 25 


寄存 器 文件 
到 = 
| 系统 总 线 存储 器 总 线 
i | t 
Pi p 储 器 


TRS 


m) 


1.14 网 络 也 是 一 种 MO 设备 


随 者 像 Internet 这 样 的 全 球 网 络 的 出 现 ， 从 一 台 主 机 拷贝 信息 到 另外 一 台 主 机 已 经 成 为 计算 机 系 
统 最 重要 的 用 途 之 一 。 比 如 ， 像 电子 邮件 、 即 时 消息 传送 、 万 维 网 、FTP 和 telnet 这 样 的 应 用 都 是 基 
于 通过 网 络 拷贝 信息 的 功能 的 。 

回 到 我 们 的 hello 示例 ， 我 们 可 以 使 用 熟悉 的 telnet 应 用 在 一 个 远程 主机 上 运行 hello 程序 。 假 设 
我 们 用 本 地 主机 上 的 telnet 客 户 端 连 接 远 程 主机 上 的 telnet 服 务 器 。 在 我 们 登录 到 远程 主机 并 运行 shell 
ks Amh shell 就 在 等 待 接收 输入 的 命令 。 从 这 点 上 来 看 ， 在 远 端 运行 helo 程序 包括 如 图 1.15 所 
示 的 五 个 基本 步骤 。 


1. 用 户 在 键盘 上 
HA “hello” 2. 客户 端 问 telnet 服务 器 发 


IAF FEB “hello” 3. 服务 器 问 shell Rik 
— meee ee ee ee ee ee ee oe Te sé n 
We = i FFE “hello”, shell 
E pe pei 运行 hello 程序 并 将 输 
ae ee E 出 发 送 给 telnet 服务 器 
4. Telnet 服务 路 问 客 户 端 发 


客户 端 在 显示 器 上 打 IEF FB “hello world\n” 
E) “hello world\n 


总 线 接口 


i 


USB ; 


限 标 ”键盘 显示 器 


VO RE 


图 1.15 利用 felnef 跨越 网 络 远程 运行 hello 


“BRUIT: telnet 客户 端 键入 “hello " 串 并 敲 下 回 车 键 后 ,客户 端 软件 就 会 将 这 个 字符 串 发 送 到 telnet 
的 服务 器 。 在 telnet 服务 器 从 网 络 上 接收 到 这 个 串 后 ， 会 把 它 传递 给 远 端 shell 程序 。 接 下 来 ， 远 端 
shell 运行 hello 程序 ， 并 将 输出 行 返回 给 telnet 服务 器 。 最 后 ，telnet 服务 器 通过 网 络 把 输出 串 转 发 给 
telnet 客户 项， 客户 端 就 将 输出 串 输 出 到 我 们 的 本 地 终端 上 。 

这 种 在 禾 户 端 和 服务 器 之 间 交 互 的 类 型 在 所 有 的 网 络 应 用 中 是 非常 典型 的 。 在 第 12 章 中 ， 你 将 
学 会 如 何 构造 网 络 应 用 程序 ， 并 利用 这 些 知识 创建 一 个 简单 的 Web 服务 器 。 
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我 们 旋风 式 的 系统 漫游 到 此 就 结束 了 。 从 这 次 讨论 中 要 得 出 一 个 很 重要 的 观点 , 那 就 是 系统 不 仅 
仅 只 是 硬件 。 系统 是 互相 交织 的 硬件 和 系统 软件 的 集合 体 , 它们 必须 共同 协作 以 达到 运行 应 用 程序 的 
最 终 目 的 。 本 书 的 余下 部 分 将 对 这 个 论点 进行 展开 。 


1.10 小结 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 , 它们 共同 协作 以 运行 应 用 程序 。 计算机 内 部 的 信息 被 表 
示 为 一 组 组 的 位 ， 它 们 依据 不 同 的 上 下 文 义 有 不 同 的 解释 方式 。 程序 被 其 他 程序 翻译 成 不 同 的 形式 ， 
开始 时 是 ASCI 文本 ， 然 后 被 编 详 器 和 链接 器 翻译 成 二 进 制 可 执行 文件 。 

处 理 器 读 取 并 解释 存放 在 主 存 里 的 二 进 制 指令 。 因 为 计算 机 花费 了 大 量 的 时 间 在 存储 器 、LIO 设 
备 和 CPU 寄存 器 之 间 找 由 数据 ， 所 以 系统 中 的 存储 设备 就 被 按 层 次 排列 ，CPU 寄存 器 在 顶部 ， 接 者 
是 多 层 的 硬件 珊 速 缓存 存储 器 、DRAM 主 存储 器 和 磁盘 存储 器 。 在 层次 模型 中 位 于 更 高 层 的 仓储 设 
备 比 低层 的 存储 设备 要 快 ， 单 位 比特 造价 也 更 高 。 程 序 员 通过 理解 和 运用 这 种 存储 层次 结构 的 知识 ， 
可 以 优化 他 们 C 程序 的 性 能 。 

操作 系统 内 核 是 应 用 程序 和 使 件 之 间 的 媒介 。 它 提供 三 个 基本 的 抽象 概念 : 文件 是 对 IO 设备 的 
抽象 概念 ， 虚 拟人 存储 器 是 对 主 存 和 磁盘 的 抽象 概念 ， 进 程 是 处 理 器 、 主 存 和 VO 设备 的 抽象 概念 。 

最 后 ,网 络 提供 了 计算 机 系统 之 间 通 信 的 手段 。 从 某 个 系统 的 角度 来 看 ,网络 就 是 一 种 IO KE. 


参考 文献 说 阴 

Ritchie 写 了 关于 早期 C 和 Unix 的 有 趣 的 第 一 手 资料 [63，64]。Ritchie 和 Thompson 提供 了 最 早 
出 版 的 Unix 资料 [65]。 Silberschatz 和 Gavin[70] 提 供 了 关于 Unix 不 同 版 本 的 详尽 历史 。GNU 
(www.gnu.org) 和 Linux (www.linux.org) 网 页 有 大 量 的 当前 和 历史 信息 。 不 幸 的 是 ， 无 法 在 线 获 得 
Posix 标准 ， 必 须 通过 IEEE (standards.ieee.org) 定购 。 


a 1 部 分 
程序 结构 和 执行 


系统 组 成 。 在 核心 部 分 ， 我 们 需要 方法 来 表示 基本 数据 类 型 ， 比 如 整数 和 实 
数 运 算 的 近似 值 。 然 后 ， 我 们 考虑 机 器 级 指令 如 何 操作 这 样 的 数据 ， 编 译 器 
<- ~- 如何 将 C 程序 翻译 成 这 样 的 指令 。 接 下 来 ， 我 们 研究 几 种 实现 处 理 器 的 方法 ， 来 更 好 
地 了 解 如 何 使 用 硬件 资源 来 执行 指令 。 一 旦 我 们 理解 了 编译 器 和 机 器 级 代码 ， 我 们 就 
能 通过 编写 可 以 更 高 效 编译 的 源 代 码 ， 来 分 析 如 何 最 大 化 程序 的 性 能 。 我 们 以 存储 器 

了 系统 的 设计 来 结束 本 部 分 ， 这 是 现代 计算 机 系统 最 复杂 的 部 分 之 一 。 
本 书 的 这 一 部 分 将 领 着 你 深入 了 解 应 用 程序 是 如 何 被 表示 和 执行 的 。 你 将 学 会 大 

量 编程 技巧 ， 从 而 可 以 编写 更 可 靠 并 充分 利用 计算 资源 的 程序 。 


EY istics. 26085, RRR 
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现代 计算 机 存储 和 处 理 以 二 值 信号 表示 的 信息 。 这 些 普通 的 二 进 制 数字 ， 或 者 位 (pit)， 形 成 
了 数字 革命 的 基础 。 大 家 熟悉 的 使 用 了 1000 多 年 的 十 进 制 〈 以 十 为 基数 ，base-10) 起源 于 印度 ， 
在 12 世纪 被 阿拉 伯 数 学 家 所 改进 ， 并 在 13 世纪 被 意大利 数学 家 Leonardo Pisano 〈 更 有 名 的 叫 法 是 
Fibonacci) 带 到 西方 。 使 用 十 进 制 表 示 法 对 于 有 十 个 指头 的 人 类 来 说 是 很 自然 的 事情 ， 但 是 当 构 者 
存储 和 处 理 信 息 的 机 器 时 ， 二 进 制 值 工 作 得 更 好 。 二 值 信 号 能 够 很 容易 地 表示 、 存 储 和 传输 ， 例 如 ， 
可 以 表示 为 穿孔 卡片 上 有 润 或 无 润 、 导 线 上 的 高 电压 或 低 电压 ， 或 者 磁场 引起 的 顺 时 针 或 逆 时 针 。 
基于 二 值 信 号 的 存储 和 执行 计算 的 电子 电路 非常 简单 和 可 靠 ， 使 得 制造 商 能 够 在 一 个 单独 的 硅 片 上 
集成 百 万 个 这 样 的 电路 。 

单独 地 来 说 ， 单 个 的 位 不 是 非常 有 用 。 然而 ， 当 我 们 把 位 组 合 在 一 起 ， 再 加 上 某 种 解释 
(Cinterpretation)， 即 给 予 不 同 的 可 能 位 模式 以 含意 ， 我 们 就 能 够 表示 任何 有 限 集 合 的 元 素 。 比 如 ， 使 
用 一 个 二 进 制 数 字 系 统 ， 我 们 能 够 用 位 组 来 编码 非 负数 。 通 过 使 用 标准 的 字符 码 ， 我 们 能 够 对 一 份 
文档 中 的 字母 和 符号 进行 编码 。 在 本 章 中 ， 我 们 将 讨论 这 两 种 编码 ， 以 及 表示 负数 的 编码 和 近似 实 
数 的 编码 。 

我 们 考虑 三 种 最 重要 的 数字 编码 。 无 符号 《unsigned) 编码 是 基于 传统 的 二 进 制 表 示 法 的 ， 表 
示 大 于 或 者 等 于 零 的 数字 。 二进制 补 码 (two’s-complement) 编码 是 表示 有 符号 整数 的 最 常见 的 方式 ， 
有 符号 整数 就 是 为 正 或 者 为 负 的 数字 。 浮 点 数 〔floating-point〉 编码 是 表示 实数 的 科学 记 数 法 的 以 
二 为 基数 的 版 本 。 计 算 机 用 这 些 不 同 的 表示 方法 实现 算术 运算 ， 例 如 加 法 和 和 乘法， 类似 于 相应 的 整 
Be ASE By zs R.. 

计算 机 的 表示 法 用 有 限 的 位 数 来 对 一 个 数字 编码 ， 因 此 ， 当 结果 太 大 以 至 不 能 表示 时 ， 某 些 运 
算 就 会 溢出 〈overflow )。 这 会 导致 某 些 令 人 吃惊 的 后 果 。 例 如 ， 在 大 多 数 今 天 的 计算 机 上 ， 计 算 表 
达 式 200*300*400*500 会 得 出 -884 901 888 。 这 违背 了 整数 运算 的 属性 一 一 计算 一 组 正 数 的 乘积 产生 
TRA RWS BR. 

万 一 方面 ， 整 数 的 计算 机 运算 满足 了 真正 整数 运算 的 许多 普通 的 属性 。 例 如 ， 乘 法 是 可 结合 
和 可 交换 的 ， 这 样 一 来 计算 下 面 任 何 一 个 C 表达 式 ， 都 会 得 出 -884 901 888: 

(5900*400) *(300*200) 

( (500*400) *300) *200 

((200*500) *300) *400 

400* (200* (300*500) ) 

计算 机 可 能 没有 产生 这 个 预期 的 结果 ， 但 是 至 少 它 是 一 致 的 ! 

浮 扣 运算 有 完全 不 同 的 数学 属性 。 虽然 洲 出 会 产生 特殊 的 值 +oo, 但 是 一 组 正 数 的 乘积 总 是 下 的 。 
万 一 方面 ， 由 于 表示 的 精度 有 限 ， 浮 点 运算 是 不 可 结合 的 。 例 如 ， 在 大 多 数 机 器 上 ，C 表达 式 
(3.14+1e20) -1e20 求 得 的 值 会 是 0.0， 而 3.14+ (le20-1e20) 求 得 的 值 会 是 3.14。 

通过 研究 实际 数字 的 表示 ， 我 们 能 够 了 解 可 以 表示 的 值 的 范围 和 不 同 算术 运算 的 属性 。 对 于 编 
号 在 全 部 数值 范围 内 都 能 正确 工作 ， 而 且 可 以 跨越 不 同 机 器 、 操 作 系统 和 编译 器 组 合 的 可 移植 的 程 
序 来 说 ， 这 种 了 解 是 非常 重要 的 。 

计算 机 用 几 种 不 同 的 二 进 制 表示 来 编码 数值 。 在 第 3 章 中 随 着 你 进入 机 器 级 编程 ， 你 将 需要 熟 
悉 这 些 表示 方式 。 在 本 章 中 ， 我 们 描述 这 些 编码 ， 并 给 你 一 些 关于 数字 表示 的 推理 练习 。 

通过 直接 操作 位 级 的 数字 表示 ， 我 们 得 到 了 几 种 进行 算术 运算 的 方式 。 理 解 这 些 技术 对 于 理解 
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编 详 算术 表达 式 时 产生 的 机 器 级 代码 是 很 重要 的 。 

我 们 对 这 些 内 容 的 处 理 是 非常 精确 的 。 我 们 从 编码 的 基本 定义 开始 ， 然 后 得 出 一 些 属性 ， 例 如 
可 表示 的 数字 的 范围 、 它 们 的 位 级 表示 以 及 算术 运算 的 属性 。 我 们 相信 从 这 样 一 个 抽象 的 观点 来 分 
久 这 些 内 容 ， 对 你 来 说 是 很 重要 的 ， 因 为 程序 员 和 需要 对 计算 机 运算 和 更 为 人 熟悉 的 整数 和 实数 运算 
之 间 的 关系 有 牢固 的 理解 。 尽 管 这 看 起 来 很 吓人 ， 但 精确 的 处 理 只 需要 了 解 基本 的 代数 知识 。 我 们 
建议 你 将 练习 题 作 为 巩固 公式 和 一 些 实际 生活 例子 之 间 联 系 的 一 种 方法 。 


Sit: 怎样 阅读 本 章 : 

如 果 你 觉得 等 式 和 公式 令 人 生 姻 ， 不 要 让 它 妨 碍 你 学 习 本 章 的 内 容 ! 为 了 完整 性 ， 我 们 提供 全 
部 的 数学 概念 的 推导 ， 但 是 阅读 这 些 内 容 的 最 好 方法 是 在 你 首次 阅读 时 跳 过 这 些 推导 . 相反 ， 试 着 
完成 一 些 简单 的 示 倒 (比如,， 练 习题 ) 来 建立 你 的 直觉 ， 然 后 看 看 数学 推导 是 如 何 巩固 你 的 直觉 的 . 


C++ 顷 杜 语言 建立 在 C 之 上 ， 使 用 完全 相同 的 数字 表示 和 运算 。 在 本 章 中 关于 C 的 所 有 内 容 对 
C++ 都 有 效 。 另 一 方面 ，Java 语言 创造 了 一 套 新 的 数字 表示 和 运算 标准 。C 标准 被 设计 为 允许 多 种 
实现 方式 ,而 Java 标准 在 数据 的 格式 和 编码 上 是 详细 而 精确 的 。 在 本 章 中 好 几 个 地 方 我 们 都 突出 了 
Java 文 持 的 表示 和 运算 。 


2.1 信息 存储 


大 多 数 计 算 机 使 用 8 位 的 块 ， 或 叫做 字 节 (byte), 来 作为 最 小 的 可 寻 址 的 存储 器 单位 ， 而 不 是 
访问 存储 器 中 单独 的 位 。 机 器 级 程序 将 存储 器 视 为 一 个 非常 大 的 字 节 数组 , 称 为 虚拟 存储 器 (virtual 
memory )。 入 储 器 的 每 个 字 节 都 由 一 个 惟一 的 数字 来 标识 ， 称 为 它 的 地 址 (address)， 所 有 可 能 地 址 
的 集合 就 称 为 虚拟 地 址 空间 (virtual address space)。 正 如 它 的 名 字 表 明 的 ， 这 个 虚拟 地 址 空间 只 是 
一 个 展现 给 机 器 级 程序 的 概念 性 映像 (image)。 实 际 的 实现 〈 见 第 10 章 ) 使 用 的 是 随机 访问 存储 器 
RAM、 磁 盘存 储 、 特 殊 硬 件 和 操作 系统 软件 的 结合 ， 来 为 程序 提供 一 个 看 上 去 统一 的 字 节 数 组 。 

编 详 器 和 运行 时 系统 的 一 个 任务 就 是 将 这 个 存储 器 空间 划分 为 更 可 管理 的 单元 ， 来 存放 不 同 的 
程序 对 象 (program object)， 也 就 是 ， 程 序数 据 、 指 令 和 控制 信息 。 有 各 种 机 制 可 以 用 来 分 配 和 管 
理 程 序 不 同 部 分 的 存储 。 这 种 管理 完全 是 在 虚拟 地 址 室 间 里 完成 的 。 例 如 ，C 中 一 个 指针 的 值 ( 无 
论 它 指向 一 个 整数 、 一 个 结构 或 是 某 个 其 他 程序 单元 ) 都 是 某 个 存储 块 的 第 一 个 字 节 的 虚拟 地 址 。 
C 编译 器 还 把 每 个 指针 和 类 型 信息 联系 起 来 ， 这 样 它 就 可 以 根据 指针 人 和 值 的 类 型 ， 生成 不 同 的 机 器 级 
代码 来 访问 存储 在 指针 所 指向 位 置 处 的 值 。 尽 管 C 编译 器 维护 着 这 个 类 型 信息 ,但 是 它 生成 的 实际 
机 器 级 程序 并 没有 关于 数据 类 型 的 信息 。 它 简 单 地 把 每 个 程序 对 象 视 为 一 个 字 节 块 ， 而 将 程序 本 身 
看 做 一 个 字 节 序列 。 


给 C 语言 初学 者 C 中 指针 的 角色 

指针 是 CC 的 一 个 重要 特性 。 它 提供 了 引用 数据 结构 的 元 素 ( 包括 数组 ) 的 机 制 .就 像 一 个 变量 ， 
指针 也 有 两 个 方面 : 它 的 值 和 它 的 类 型 。 它 的 值 表示 的 是 某 个 对 象 的 位 置 ， 而 它 的 类 型 表示 那个 位 
置 上 所 存储 对 象 的 类 型 (比如 ， 整 数 或 者 浮 点 数 ) 
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2.1.1 十 六 进 制 表示 法 

一 个 字 节 包括 8 位 。 在 二 进 制 表示 法 中 ， 它 的 值 域 是 00000000,~-11HLH11。 如 果 看 成 十 进 制 
整数 ， 它 的 值 域 就 是 0,0o~25516。。 两 种 符号 表示 法 对 于 描述 位 模式 来 说 都 不 是 非常 方便 。 二 进 制 表 
MAAR, 而 使 用 十 进 制 表 示 法 , 与 位 模式 的 互相 转化 很 麻烦 。 替代 的 方法 是 , 我 们 以 16 HER, 
或 者 叫做 十 六 进 制 (hexadecimal) 数 ， 来 书写 位 模式 。 十 六 进 制 (简写 为 “Hex”) 使 用 数字 “0” 一 
“9”, ARFI “A” ~ “F” RER 16 个 可 能 的 值 。 图 2.1 展示 了 16 个 十 六 进 制 数字 对 应 的 十 进 
制 值 和 二 进 制 值 。 用 十 六 进 制 书写 ， 一 个 字 节 的 取 值 范围 为 00,o~FF,。。 

在 C 中 ， 以 0x ROX 开头 的 数字 常量 被 认为 是 十 六 进 制 的 值 。 字 符 “A” 一 “F” 既 可 以 是 大 
写 ， 也 可 以 是 小 号 。 例 如 ， 我 们 可 以 将 数字 FA1D37B,。 写 作 0xFA1D37B， 或 者 0xfald37b， 甚 至 是 
大 小 写 混合 ， 比 如 ，0xFalD37b。 在 本 书 中 ， 我 们 将 使 用 C 表示 法 来 表示 十 六 进 制 值 。 


十 六 进 制 数字 
十 进 制 什 
一 进 制 什 


十 六 进 制 数字 
“yt BVA 


图 2.1 十 六 进 制 表示 法 

每 个 十 -六 进 制 数字 都 对 16 个 值 中 的 -个 进行 了 编码 。 

编写 机 器 级 程序 的 一 个 常见 任务 就 是 手工 地 在 位 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 表示 之 间 转 
换 ， 二 进 制 和 十 六 进 制 之 间 的 转换 是 简单 直接 的 ， 因 为 可 以 一 次 执行 一 个 十 六 进 制 数字 的 转换 。 数 
字 的 转换 可 以 参考 图 2.1 所 示 的 表 。 在 你 脑 中 做 转换 的 一 个 简单 的 窍门 是 ， 记 住 十 六 进 制 数 字 A, C 
和 下 相应 的 十 进 制 值 。 而 对 于 把 十 六 进 制 值 B、D 和 了 翻译 成 十 进 制 值 ， 则 可 以 通过 计算 它们 与 前 
三 个 值 的 相对 关系 来 完成 。 

比如 假设 给 你 一 个 数字 0x173A4C。 可 以 通过 展开 每 个 十 六 进 制 数字 ， 将 它 转换 为 二 进 制 格 
式 ， 如 下 所 示 : 

十 六 进 制 1 7 3 A 4 C 

二 进 制 0001 0111 0011 1010 0100 1100 


这 样 就 给 出 了 二 进 制 表示 0001011 10011101001001100. 

反 过 来 ， 如 果 给 定 个 三 进 制 数字 1111001010110110110011， 你 可 以 通过 首先 把 它 分 割 为 每 四 
位 一 组 ， 来 把 它 转换 为 十 六 进 制 。 不 过 要 注意 ， 如 果 位 总 数 不 是 四 的 倍数 ， 最 左边 的 一 组 可 以 少 于 
四 位 ， 表 面 用 零 补足 。 然 后 将 每 个 四 位 组 转换 为 相应 的 十 六 进 制 数 字 ， 

二 进 制 11 1100 1010 1101 1011 0011 

十 六 进 制 3 C A D B 3 
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练习 题 2.1 

完成 下 面 的 数字 转换 : 

A. 将 0x8F7A93 转换 为 二 进 制 。 

B. 将 二 进 制 1011011110011100 转换 为 十 六 进 制 。 

C. 将 0xC4ESD 转换 为 二 进 制 。 

D. 将 二 进 制 1101011011011111100110 转换 为 十 六 进 制 ， 


当 值 x 是 2 的 罕 时 ,也 就 是 ， 对 于 某 个 n, x=2"， 我 们 可 以 很 容易 地 将 x 写成 十 六 进 制 形 式 ， 只 
RWE x 的 二 进 制 表示 就 是 1 后 面 跟 nn 个 零 。 症 六 进 制 数字 0 代表 四 个 二 进 制 0。 所 以 ， 对 于 被 写 
成 tj 形式 的 nn 来 说 ， 其 中 0<i<3， 我 们 可 以 把 x 写成 开头 的 十 六 进 制 数字 为 1 (i=0)、2 Ged). 
4 (i=2) 或 者 8 (i=3)， 后 面 跟随 着 j 个 十 六 进 制 的 0。 比 如 ，x=2048=21, 我 们 有 n=11=3+4.2， 
从 而 得 到 十 六 进 制 表 示 0x800。 


练习 题 2.2 
填写 下 表 中 的 空白 项 ， 给 出 2 的 不 同 次 堆 的 二 进 制 和 十 六 进 制 表示 : 


2”( 十 进 制 ) 2”( 十 六 进 制 ) 
| wm 
e ea 


十 进 制 和 十 六 进 制 表示 之 间 的 转换 需要 使 用 乘法 或 者 除法 来 处 理 一 般 情 况 。 将 一 个 十 进 制 数字 
x 转换 为 十 六 进 制 ， 我 们 可 以 反复 地 用 16 除 x， 得 到 一 个 商 q 和 一 个 余数 +， 也 就 是 x=g.16+r。 
然后 ， 我 们 用 十 六 进 制 数字 表示 的 r 作为 最 低位 数字 ， 并 且 通 过 对 q 反复 进行 这 个 过 程 得 到 剩 下 的 
数字 。 例 如 ， 考 虑 十 进 制 314156 的 转换 : 
314156 = 19634.16+12 (C) 
19634 = 1227.16+2 (2) 


1227 = 76.16+11 (B) 
76 = 4-16+12 (C) 
4 = 0-16+4 (4) 


从 这 里 ， 我 们 能 读 出 十 六 进 制 表示 为 0x4CB2C。 

反 过 来 , 将 一 个 十 六 进 制 数字 转换 为 十 进 制 数字 , 我 们 可 以 用 相应 的 16 HS Fe HE LY BES NE 
数字 。 比 如 ， 给 定数 字 0x7AF， 我 们 计算 它 对 应 的 十 进 制 值 为 7.162+ 10-164 15=7- 2564 10-16 
+ 15 = 1792 + 160 + 15 = 1967. 
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练习 题 2.3 

一 个 字 节 可 以 被 表示 为 两 个 十 六 进 制 数字 .。 填写 下 表 中 缺失 的 项 , 给 出 不 同 字 节 模式 的 十 进 制 、 
二 进 制 和 十 六 进 制 值 : 
eg 

43 


Sik: 十 进 制 和 十 六 进 制 间 的 转换 à 
为 了 在 十 进 制 和 十 六 进 制 之 间 转 换 较 大 的 数值 ， 最 好 是 让 计算 机 或 者 计算 器 来 完成 这 项 工作 . 
例如 ， 下 面 的 Perl 语言 脚本 将 一 列 数字 从 十 进 制 转换 为 十 六 进 制 ; 


code/data/d2h 
1 #!/usr/local/bin/perl 
2 # Convert list of decimal numbers into hex 
3 
4 for ($i = 0; $i < @ARGV;: $i++) { 
> printf ("$d\t= 0xtx\n", SARGV[Si], SARGV[Si]); 
oe } 
code/data/d2h 
一 旦 这 个 文件 被 设置 为 可 执行 的 ， 命 令 : 
unix> ./d2h 100 500 751 
会 产生 输出 : 
100=0x64 
500=0x1f4 
751=0x2ef 
相似 地 ， 下 面 的 脚本 将 十 六 进 制 转 接 为 十 进 制 : 
code/data/h2d 


1 #!/usr/local/bin/perl 


2 # Convert list of hex numbers into decimal 
3 
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4 for ($i = 0; $i < @ARGY; Si+t) { 

5 Sval = hex(SARGV[$i]); 

6 printf("Ox$x = d\n", Sval, $val); 
7 } 


corded 


练习 题 2.4 

不 将 数字 转换 为 十 进 制 或 者 二 进 制 ， 试 着 解答 下 面 的 算术 题 ， 答 案 要 用 十 六 进 制 表示 。 提 示 : 
只 要 修改 你 执行 十 进 制 加 法 和 减法 所 使 用 的 方法 ， 以 16 为 基数 。 

A. 0x502c+0x8= 

B. 0x502c-0x30= 

C. 0x502c+64= 

D. 0x50da—0x502c= 


212 F 
台 计 算 机 都 有 一 个 字 长 《word size), 指明 整数 和 指针 数据 的 标 称 大 小 (nominal size). A 

为 虚拟 地 址 是 以 这 样 的 字 来 编码 的 ， 所 以 字 长 决定 的 最 重要 的 系统 参数 就 是 虚拟 地 址 空间 的 最 大 
大 小 。 也 就 是 说 ， 对 于 一 个 字 长 为 n 位 的 机 器 而 言 ， 虚 拟 地 址 的 范围 为 0 一 2”1， 程序 最 多 访问 
2" F ti. 

分 大 大 多 数 计算 机 的 字 长 都 是 32 位。 这 就 限制 了 虚拟 地 址 空间 为 4 千 兆 字 节 (写作 4GB)， 也 
器 是 说 ， 刚 刚 超 过 4 x 10 字 节 。 虽 然 对 大 多 数 应 用 而 言 ， 这 个 空间 足够 大 了 ， 但 是 现在 已 经 有 许多 
大 型 的 科学 和 数据 库 应 用 需要 更 大 的 存储 了 。 因此, 随 着 存储 器 价格 的 降低 ， 字 长 为 64 位 的 高 端 机 
fo LE PHT BE FF EF He ELK 


2.1.3 ”数据 大 小 

计算 机 和 编译 器 使 用 不 同 的 方式 来 编码 数字 ， 比 如 不 同 长 度 的 整数 和 浮 点 数 ， 从 而 支持 多 种 数 
宇 格式。 比如， 许多 机 器 都 有 处 理 单个 字 节 的 指令 ， 也 有 处 理 表 示 为 两 字 节 、 四 字 节 或 者 八字 节 整 
数 的 指令 ， 还 有 些 指令 支持 表示 为 四 字 节 和 八字 节 的 浮 点 数 。 

C 语言 文 持 整数 和 浮 点 数 的 多 种 数据 格式 。C 的 数据 类 型 char 表示 一 个 单独 的 字 节 ， 尽管 “char” 
这 个 名 字 是 由 于 它 被 用 来 存储 文本 串 中 的 单个 字符 这 一 事实 而 来 的 ， 但 它 也 能 被 用 来 存储 整数 值 。 
C 的 数据 类 型 int 之 前 还 能 加 上 限定 词 long 和 short， 提 供 各 种 大 小 的 整数 表示 。 图 2 2 展示 了 为 各 
种 C 数据 类 型 分 配 的 字 节 数 。 准确 的 字 节 数 依 赖 于 机 器 和 编译 器 。 我 们 展示 了 两 个 有 代表 性 的 例子 : 
典型 的 32 位 机 器 和 Compaq Alpha 体系 结构 ， 其 中 Compaq Alpha 是 针对 高 端 应 用 的 64 位 机 器 。 大 
多 数 32 位 机 器 使 用 “典型 ”的 分 配方 式 。 可 以 观察 到 ;“ 短 ”整数 分 配 有 两 字 节 ， 而 不 加 限制 的 int 
为 四 字 节 ,“ 长 ”整数 使 用 机 器 的 全 字 长 。 

图 2.2 也 说 明了 指针 (例如 ， 一 个 被 声明 为 类 型 为 “char *” 的 变量 ) 使 用 机 器 的 全 字 长 。 大 多 
数 机 器 还 支持 两 种 不 同 的 浮 点 格式 : 单 精度 (在 C 中 声明 为 float) 和 双 精 度 (在 C 中 声明 为 double). 
这 些 格 式 分 别 使 用 四 字 节 和 八字 节 。 
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典型 的 32 位 机 器 Compaq Alpha 机 器 


char 


short int 


int 


long int 


Float 
图 2.2 (语言 中 数字 数据 类 型 的 大 小 〈 以 字 节 为 单位 ) 
分 配 的 字 节 数 随 着 机 器 和 编译 器 的 不 同 而 不 同 。 
给 C 语言 初学 者 : 声明 指针 
对 于 任何 数据 类 型 T， 声 明 
T “pi 
表明 p 是 一 个 指针 变量 ， 指 向 类 型 T 的 一 个 对 象 。 例如 
char *p; 


就 将 一 个 指针 声明 为 指向 char 类 型 的 一 个 对 象 。 


程序 员 应 该 力图 使 他 们 的 程序 在 不 同 的 机 器 和 编译 器 上 可 移植 。 可 移植 性 的 一 个 方面 就 是 使 程 
序 对 不 同 数据 类 型 的 确切 大 小 不 敏感 。C 标准 对 不 同 数据 类 型 的 数字 范围 设置 了 下 界 ， 这 点 在 后 面 
还 将 讲 到 ， 但 是 却 没 有 上 界 。 因 为 32 位 机 器 在 过 去 20 年 里 一 直 是 标准 ， 许 多 程序 的 编写 都 是 以 图 
2.2 中 “典型 的 32 位 机 器 ” 列 出 的 分 配 原 则 为 假设 的 。 在 不 久 的 将 来 ， 随 着 64 位 机 器 越 来 越 重要 ， 
在 将 这 些 程 序 移植 到 新 机 器 上 时 ， 许 多 隐藏 的 对 字 长 的 依赖 就 会 显现 出 来 ， 成 为 错误 。 比 如 ， 许 多 
程序 员 假 股 一 个 声明 为 int 类 型 的 程序 对 象 能 被 用 来 存储 一 个 指针 。 这 在 大 多 数 32 位 的 机 器 上 工作 
正常 ， 但 是 在 一 台 Alpha 机 器 上 却 会 导致 问题 。 


2.1.4 SHAS Ply 

对 于 跨越 多 字 节 的 程序 对 象 ， 我 们 必须 建立 两 个 规则 ， 这 个 对 象 的 地 址 是 什么 和 我 们 在 存储 器 中 
如 何 对 这 上 印字 市 排序 。 在 几乎 所 有 的 机 器 上 ， 多 字 节 对 象 都 被 存储 为 连续 的 字 节 序列 ， 对 和 象 的 地 址 为 
所 使 用 字 节 序列 中 最 小 的 地 址 。 例 如 ， 假 设 一 个 类 型 为 in 的 变量 x 的 地 址 为 0x100， thi kei, Hah 
表达 式 &x 的 值 为 0x100. WA, x 的 四 字 节 将 被 存储 在 存储 器 的 0x100、0x101、0x102 和 0x103 位 置 。 

对 表示 一 个 对 象 的 字 节 序列 排序 ， 有 两 个 通用 的 规则 。 考 虑 一 个 w 位 的 整数 ， 有 位 表示 [xw1， 
Kw-2» ***s Xi» Xol» 其 中 xwl 是 最 高 有 效 位 ， 而 xo 是 最 低 有 效 位 。 BRIE w 是 8 的 倍数 ， 这 些 位 不 能 被 
分 组 成 为 字 太 ， 其 中 最 高 有 效 字 节 包含 位 [x1，x.2，…，xg]， 而 最 低 有 效 字 节 包 含 位 [xy，xe，… 
wo]， 其 他 字 节 包含 中 间 的 位 。 某 些 机 器 选择 在 存储 器 中 按照 从 最 低 有 效 字 节 到 最 高 有 效 字 节 的 顺序 
存储 对 象 ， 而 另 一 些 机 器 则 按照 从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 存储 。 前 一 种 规则 最 低 
有 效 字 节 在 最 前 面 的 方式 被 称 为 小 端 法 (little endian)。 大 多 数 源 自 以 前 的 Digital Equipment 公司 ( 现 
在 是 Compaq 公司 的 一 部 分 ) 的 机 器 ， 以 及 Intel 的 机 器 都 采用 这 种 规则 。 后 一 种 规则 (最 高 有 效 字 
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节 在 最 前 面 的 方式 ) 被 称 为 大 端 法 (big endian). IBM. Motorola 和 Sun Microsystems 的 大 多 数 机 器 
都 采用 这 种 规则 。 注意 我 们 说 的 是 “大 多 数 ”。 这 些 规 则 并 没有 严格 按照 企业 界限 来 划分 。 比如, IBM 
制造 的 个 人 计算 机 使 用 的 是 Intel 兼容 的 处 理 器 ， 因此 不 是 小 端 法 。 许 多 微 处 理 器 芯片 ， 包 括 Alpha 
和 Motorola 的 PowerPC, 能 够 运行 在 任 一 种 模式 中 , 其 取决 于 芯片 加 电 局 动 时 确定 的 字 节 顺序 规则 。 

继续 我 们 前 面 的 示例 ， 假 设 变 量 x 类 型 为 int， 位 于 地 址 0x100 4b, 有 一 个 十 六 进 制 值 为 
0x01234567。 地 址 范围 0x100~0x103 的 字 节 顺序 依赖 于 机 器 的 类 型 ， 


0x100 0x101 0x102 0x103 
ANTA 
0x100 0x101 0x102 0x103 


注意 ， 在 字 0x01234567 中 ， 高 位 字 节 的 十 六 进 制 值 为 0x01， 而 低位 字 节 值 为 0x67。 

令 人 吃惊 的 是 ， 在 哪 种 字 节 顺序 是 合适 的 这 个 问题 上 ， 人 们 表现 得 非常 情绪 化 。 实 际 上 ， 术语 
“little endian (小 端 )” 和 “big endian CKW)” 来自 于 Jonathan Swift 的 《 格 利 佛 游记 (Gulliver'’s 
Travels)》， 其 中 交战 的 两 个 派别 无 法 就 应 该 从 哪 一 端 一 小 端 还 是 大 端 一 打开 一 个 半熟 的 鸡蛋 达 
成 一 致 。 就 像 鸡蛋 的 问题 一 样 ， 没 有 技术 原因 来 选择 字 节 顺序 规则 ， 因此 争论 退化 成 为 关于 社会 政 
治 论题 的 口角 。 对 于 哪 种 字 节 排序 的 选择 是 任意 的 。 


Sit: “endian” ack 

于 面 就 是 Jonathan Swift 在 1726 年 如 何 描述 大 、 小 端 之 争 的 历 史 的 : 

“…… 我 下 面 要 告诉 你 的 是 ，Lilliput 和 Blefuscu 这 两 大 强 国 在 过 去 三 十 六 个 月 里 一 直 在 苦战 。 
战争 开始 是 由 于 以 下 的 原因 : 我 们 大 家 都 认为 ， 吃 鸡蛋 前 ， 原始 的 方法 是 打破 鸡蛋 较 大 的 一 端 ， 可 
站 当今 皇 党 的 祖父 小 时 候 吃 鸡 蛋 ， 一 次 按 古 法 打 鸡 蛋 时 碰巧 将 一 个 手指 弄 破 了 ， 因 此 他 的 父亲 ， 当 
时 的 皇帝 ， 就 下 了 一 道 救 今 ， 命 令 全 体 臣 民 吃 鸡蛋 时 打破 鸡蛋 较 小 的 一 端 ， ESET. BAHN 
对 这 项 命令 极为 反感 。 历史 告诉 我 们 ， 由 此 曾 发 生 过 六 次 叛乱 ， 其 中 一 个 皇帝 送 了 命 ， 另 一 个 委 了 
王位 。 这 些 叛 乱 大 多 都 是 由 Blefuscu 的 国王 大 臣 们 煽动 起 来 的 。 减 乱 平 息 后 ， MT HAS ik Fl MM 
DEF RIE, Heit, EEILAA—F 一 千 人 情愿 受 死 也 不 此 去 打破 鸡蛋 较 小 的 一 端 。 关 于 
这 一 字 端 ， 曾 出 版 过 几 百 本 大 部 著作 ， 不 过 大 端 派 的 书 一 直 是 受 禁 的 ， 法 律 也 规定 该 派 的 任何 人 不 
得 做 官 。”( 此 段 译 文摘 自 网 上 蒋 剑 锋 译 的 《 格 利 佛 游记 》 第 一 卷 第 4 章 . ) 

在 他 那个 时 代 , Swift 是 在 讽刺 英国 ( Lilliput ) 和 法 国 (Blefuscu ) 之 问 持续 的 冲突 . Danny Cohen, 
一 位 网 络 协议 的 早期 开创 者 ， 第 一 次 使 用 这 两 个 术语 来 指 代 字 节 顺序 [17]， 后 来 这 个 术语 被 广泛 接 
纳 了 。 


对 于 大 多 数 应 用 程序 员 来 说 ， 他 们 机 器 的 字 节 顺序 是 完全 不 可 见 的 。 无 论 为 哪 种 类 型 的 机 器 所 
编译 的 程序 都 会 得 到 同样 的 结果 。 不 过 有 时 候 ， 字 节 顺 序 会 成 为 问题 。 首先 是 在 不 同类 型 的 机 器 之 
则 通过 网 络 传送 二 进 制 数据 时 。 一 个 常见 的 问题 是 当 小 端 法 机 器 产生 的 数据 被 发 送 到 大 端 法 机 器 或 
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者 反之 时 ， 接 收 程序 会 发 现 ， 字 里 的 字 节 成 了 反 序 的 。 为 了 避免 这 类 问题 ， 网 络 应 用 程序 的 代码 编 
号 必须 遵守 已 建立 的 关于 字 节 顺序 的 规则 ， 以 确保 发 送 方 机 器 将 它 的 内 部 表示 转换 成 网 络 标 准 ， 而 
接收 方 机 器 则 将 网 络 标准 转换 为 它 的 内 部 表示 。 我 们 将 在 第 12 章 中 看 到 这 种 转换 的 例子 。 

子 有 顺序 变 得 重要 的 第 二 种 情况 是 当 阅 读 表示 整数 数据 的 字 节 序列 时 。 这 通常 发 生 在 检查 机 器 
级 程序 时 。 作 为 一 个 示例 ， 从 某 个 文件 中 摘出 了 下 面 这 行 代码 ,该 文件 给 出 了 一 个 针对 Intel 处 理 器 
的 机 器 级 代码 的 文本 表示 : 

80483bd: 01 05 64 94 04 08 add eax, 0x8049464 


IX — 47 E HRI BS Cdisassembler) 生成 的 ， 反 汇编 器 是 一 种 确定 可 执行 程序 文件 所 表示 的 指 
令 序 列 的 工具 。 我 们 将 在 下 一 章 中 学 习 有 关 这 些 工具 的 更 多 知识 ， 以 及 怎样 解释 像 这 样 的 行 。 而 现 
在 ， 我 们 只 是 注意 这 行 表述 了 十 六 进 制 字 节 串 01 05 64 94 04 08 是 一 条 指令 的 字 节 级 表示 ， 这 条 指 
令 是 增加 一 个 字 宽 的 数据 到 存储 在 主 存 地 址 0x8049464 的 值 上 。 如 果 我 们 取出 这 个 序列 的 最 后 四 字 
W: 64 94 04 08， 并 日 按 照相 反 的 顺序 写 出 ， 我 们 得 到 08 04 94 64。 去 掉 开头 的 零 ， 我 们 就 得 到 值 
Ox8049464， 就 是 右边 写 着 的 数值 。 当 阅读 像 此 例 中 一 - 样 的 小 端 法 机 器 生成 的 机 器 级 程序 表示 时 ,经 
疝 会 将 子 市 按照 相反 的 顺序 显示 。 书 写字 节 序 列 的 自然 方式 是 最 低位 字 节 在 左边 ， 而 最 高 位 字 节 在 
布 边 ， 但 是 这 和 书写 数字 时 最 高 有 效 位 在 左边 ， 最 低 有 效 位 在 右边 的 通常 方式 是 相反 的 。 

字 市 顺序 变 得 可 见 的 第 三 种 情况 是 当 编 写 规 避 正 常 的 类 型 系统 的 程序 时 。 在 C 语言 中 ， 可 以 通 
过 使 用 强制 类 型 转换 (cast) 来 允许 以 一 种 不 同 于 它 被 创造 时 的 数据 类 型 来 引用 一 个 对 象 。 大 多 数 
应 用 编程 都 强烈 不 推荐 这 种 编码 技巧 ， 但 是 它们 对 系统 级 编程 来 说 是 非常 有 用 ， 其 至 是 必须 的 。 

图 2.3 展示 了 一 段 C 代码 ， 它 使 用 强制 类 型 转换 来 访问 和 打印 不 同 程序 对 象 的 字 节 表示 。 我 们 
用 typedef 将 数据 类 型 byte_pointer 定义 为 一 个 指向 类 型 为 “unsigned char” 的 对 象 的 指针 。 这 样 一 
个 字 节 指针 引用 一 个 字 节 序列 ， 其 中 每 个 字 节 都 被 认为 是 一 个 非 负 整 数 。 第 一 个 例 程 show_bytes 的 
输入 是 一 个 字 节 序列 的 地 址 ( 它 用 一 个 字 节 指针 来 指示 ) 和 一 个 字 节 数 。show_bytes 打印 出 以 十 六 
进 制 表 示 的 字 节 。C 格式 化 指令 “%.2x” 表 示 整 数 必须 用 至 少 两 个 数字 的 十 六 进 制 格式 输出 。 


给 C 语言 初学 者 : 使 用 typedef 来 命名 数据 类 型 

C 中 的 typedef 声明 提供 了 一 种 给 数据 类 型 命名 的 方式 。 这 能 够 极 大 地 改善 代码 的 可 读 性 .因为 
AREY RE BARE 

typedef 的 语法 与 声明 变量 十 分 相像 ， 除 了 它 使 用 的 是 类 型 名 ， 而 不 是 变量 名 。 因 此 ， 图 2.3 中 
byte_pointer 的 声明 和 将 一 个 变量 声明 为 类 型 “unsigned char” 有 相同 的 形式 。 

例如 ， 声 明 : 

typedef int *int_pointer; 

int_pointer ip; 

将 类 型 “int_pointer” 定 义 为 一 个 指向 int 的 指针 ， 并 且 声 明了 这 种 类 型 的 变量 ip。 我 们 还 可 以 
直接 声明 这 个 变量 为 : 

iite “ap; 


code/data/show-bytes.c 
1 #include <stdio.h> 


2 
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typedef unsigned char *byte_ pointer， 


3 

4 

> void show_bytes(byte_pointer start, int len) 
6 { 

TInt i: 

S for (1 = 072i < lens i++) 

2 PYINct{"” 2x", stare lil): 

10 Pre a n). 

11 } 


13 void show _int (int x) 

14 { 

15 show_bytes((byte_pointer) &x, sizeof (int)): 
16 } 


18 void show_float (float x) 

TS: 

20 show_bytes((byte_pointer) &x, sizeof (float) ) ; 
21 } 


23 void Show pointer (void *x) 

24 f 

25 show_bytes ((byte_pointer) &x, sizeof (void *)); 
26} 


code/data/show-bytes.c 
图 2.3 ”打印 程序 对 象 的 字 节 表示 
这 段 代码 使 用 强制 类 型 转换 来 规避 类 型 系统 。 


给 C 语言 初学 者 ， 使 用 printf 格式 化 输出 

printf 函数 (还 有 它 的 同类 fprintf 和 sprintf) 提供 了 对 格式 化 细节 有 相当 大 控制 的 输出 信息 的 方 
式 。 第 一 个 参数 是 格式 囊 ， 而 其 余 的 参数 都 是 要 打印 的 值 。 在 格式 囊 里 ， 每 个 以 “%” 开 始 的 字符 
FE NARA ROTH RAL FARR, RR ROE “Ha” Bh Asam “f 是 输出 
一 个 浮 点 数 ， 而 “%c” 是 输出 一 个 字符 ， 这 个 字符 的 护 码 是 由 参数 给 出 的 . 


给 C 语言 初学 者 : 指针 和 数组 

在 函数 show_bytes (图 2.3) 中 ， 我 们 看 到 指针 和 数组 之 间 紧 密 的 联系 ， 这 将 在 3.8 节 中 详细 描 
述 。 我们 看 到 这 个 函数 有 一 个 类 型 为 byte_pointer ( 被 定义 为 一 个 指向 unsigned char 的 指针 ) 的 参数 
start， 但 是 我 们 在 第 9 行 看 到 数组 引用 stanji. ÆC 中 . 我们 能 够 用 数组 表示 法 来 引用 指针 ， 同 时 
我 们 也 能 用 指针 表示 法 来 引用 数组 元 素 。 在 这 个 例子 中 ， 引 用 start[i 表 示 我 们 想 要 读 取 以 start 指向 
的 位 置 沪 超 始 的 第 ii 个 位 置 处 的 字 节 。 


过 程 show_int. show_float 和 show_pointer 展示 了 如 何 使 用 程序 show_bytes 来 分 别 输出 类 型 为 
int. float 和 void * 的 C 程序 对 象 的 字 节 表示 。 可 以 观察 到 它们 仅仅 传递 给 show_bytes 一 个 指向 它们 
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参数 x 的 指针 &x， 且 这 个 指针 被 强制 类 型 转换 为 “unsigned char* ”。 这 种 强制 类 型 转换 告诉 编译 器 ， 
程序 应 该 把 这 个 指针 看 成 指向 一 个 字 节 序列 ， 而 不 是 指向 一 个 原始 数据 类 型 的 对 象 。 然 后 ， 这 个 指 
针 将 指 问 对 象 使 用 的 最 低 字 节 地 址 。 


给 C 语言 初学 者 ; 指针 的 创建 和 间接 引用 

在 图 2.3 的 第 15、20 和 25 行 ， 我 们 看 到 对 C 和 C++ 中 两 种 独 有 操作 的 使 用 。C 的 “ 取 地 址 ” 
运算 符 放 创建 一 个 指针 。 在 这 三 行 中 ， 表 达 式 &x 创建 了 一 个 指向 保存 变量 x 的 位 置 的 指针 。 这 个 指 
SHABBAT x 的 类 型 ， 因 此 这 三 个 指针 的 类 型 分 别 为 intt、float* 和 void**。( 数据 类 型 void* 是 
一 种 特殊 类 型 的 指针 ， 没 有 相关 的 类 型 信息 。) 

强制 类 型 转换 运算 符 是 将 一 种 数据 类 型 转换 为 另 一 种 。 因 此 ， 强 制 类 型 转换 (byte_PpoinEer) 
&x 表明 无 论 指 针 &x 以 前 是 什么 类 型 ， 它 现在 就 是 一 个 指向 数据 类 型 为 unsigned char 的 指针 了 。 


这 些 过 程 使 用 C 的 运算 符 sizeof 来 确定 对 象 使 用 的 字 节 数 。 一 般 来 说 ， 表 达 式 sizeof( 了 返回 在 
储 一 个 类 型 为 7 的 对 象 所 瑚 要 的 字 节 数 。 使 用 sizeof， 而 不 是 一 个 固定 的 值 ， 是 向 编写 在 不 同 机 器 
类 型 上 可 移植 的 代码 迈进 了 一 - 步 ， 

在 几 种 不 同 的 机 器 上 运行 如 图 2.4 所 示 的 代码 ， 得 到 如 图 2.5 所 示 的 结果 。 使 用 了 以 下 机 器 : 

Linux: Intel Pentium I] 运行 Linux. 

NT: Intel Pentium II 运行 Windows-NT. 

Sun; Sun Microsystems UltraSPARC 3247 Solaris. 

Alpha; Compaq Alpha 21164 运行 Tru64 Unix. 


code/data/show-bytes.c 
void test_show_bytes(int val) 


1 
2 4 
3 int ival = val; 
4 float fval = (float) ival; 
5 int *pval = &ival; 
6 show_int (ival): 
7 show_float(fval); 
8 show_pointer (pval); 
9 } 
code/data/show-bytes.c 
图 2.4 了 字 节 表示 的 示例 
这 段 代 码 输出 了 样本 数据 对 象 的 字 节 表 示 。 


我 们 的 参数 12 345 的 十 六 进 制 表示 为 0x00003039。 对 于 int 类 型 的 数据 ， 除 了 字 节 顺序 以 外 ， 
我 们 在 所 有 机 器 上 都 得 到 相同 的 结果 。 特 别 地 ， 我 们 可 以 看 到 在 Linux. NT 和 Alpha 上 ， 最 低 有 效 
Fifa 0x39 最 先 输出 ， 这 说 明 它 们 是 小 端 法 机 器 ， 而 在 Sun 上 最 后 输出 ， 这 说 明 Sun 是 大 端 法 机 
aro FFH, float 类 型 的 数据 ， 除 了 字 节 顺序 以 外 ， 也 都 是 相同 的 。 另 一 方面 ， 指 针 值 却 是 完全 不 
同 的 。 不 同 的 机 器 /操作 系统 配置 使 用 不 同 的 存储 分 配 规 则 。 一 个 值得 注意 的 特性 是 Linux 和 Sun 的 
机 器 使 用 四 字 节 地 址 ， 而 Alpha 使 用 八字 节 地 址 。 
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bf 
02 
e4 
1f 01 00 00 00 


图 2.3 不 同 数据 值 的 字 节 表示 
除了 字 节 顺序 以 外 ，int 和 float 的 结果 是 一 样 的 。 指 针 值 是 与 机 器 相关 的 。 


可 以 观察 到 ， 尽 管 浮 点 和 整 型 数据 都 是 对 数值 12 345 编码 ， 但 是 它们 有 非常 不 同 的 字 节 模式 ; 
整 型 为 0x00003039， 而 浮 点 数 为 0x4640E400。 一 般 而 言 ， 这 两 种 格式 使 用 不 同 的 编码 方法 。 如 果 
我 们 将 这 些 十 六 进 制 模式 扩展 为 二 进 制 形式 , 并 且 适 当地 将 它们 移 位 , 我 们 就 会 发 现 一 个 有 13 个 相 
匹配 的 位 的 序列 ， 如 下 面 的 一 串 星 号 标识 出 来 的 那样 ， 


0 0 0 0 3 0 3 9 
00000000000000000011000000111001 


KRaeKeKEKEKRKK KEK 


£ 6 4 USE = 0 0 
01000110010000001110010000000000 


这 并 不 是 巧合 。 当 我 们 研究 浮 点 格式 时 ， 还 将 再 回 到 这 个 例子 。 


练习 顾 2.5 ae = 
思考 下 面 对 show_bytes 的 三 个 调用 : 

int val = 0x12345678; 

byte_pointer valp = (byte_pointer) &val: 

show_bytes(valp, 1); /* A. */ 

show_bytes (valp, 2); /* B. */ 

Show_bytes(valp, 3): /* C. */ 


指出 在 小 端 法 机 器 和 大 端 法 机 器 上 ， 每 个 调用 的 输出 值 . 


A. 小 端 法 : 大 端 法 : 
B. 小 端 法 : 大 端 法 : 
Cc 小 端 法 : 大 端 法 : 
练习 题 2.6 


使 用 show_int 和 show_float， 我 们 确定 整数 3490593 的 十 六 进 制 表示 为 0Ox003$4321， 而 浮 点 数 
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3490593.0 的 十 六 进 制 表示 为 Ox4A550C84. 
A. 写 出 这 两 个 十 六 进 制 值 的 二 进 制 表示 。 
B. 移动 这 两 个 二 进 制 串 的 相对 位 置 ， 使 得 它们 相 匹 配 的 位 数 最 大 . 
C. 有 多 少 位 相 匹 配 呢 ? 串 中 的 什么 部 分 不 相 匹 配 ? 


2.1.5 RTF R 

-一 和 G 中 的 字符 串 被 编 但 为 一 个 以 null (HEAP) 字符 结尾 的 字符 数组 。 每 个 字符 都 由 某 个 标 
准 编码 来 表示 ， 最 常见 的 就 是 ASCI 字符 码 。 因 此 ， 如 果 我 们 以 参数 “12345” 和 6 (包括 终止 符 ) 
来 运行 例 程 show_bytes， 我 们 得 到 结果 31 32 33 34 35 00。 请 注意 , 十进制 数字 x 的 ASCII 码 正 好 
是 0x3x， 而 终止 字 节 的 十 六 进 制 表示 为 0x00. 在 使 用 ASCH 码 作为 字符 码 的 任何 系统 上 都 将 得 到 
相同 的 结果 ， 与 字 节 顺序 和 字 大 小 规则 无 关 。 因 而 ， 文 本 数据 比 二 进 制 数据 具有 和 更 强 的 平台 独立 
性 。 


Sit: 生成 一 张 ASCI 表 
可 以 通过 执行 命令 man ascii 来 得 到 一 张 ASCI 字符 码 的 表 。 


练习 2.7 
下 面 对 show_bytes 的 调用 将 输出 什么 结果 ? 
char *s = "ABCDEF": 


show_bytes(s, strlen(s)); 
注意 字母 “A”-~ “Z?” 的 ASCII 码 为 0x41 ~ OxSA. 


Sit: Unicode (统一 字符 编码 标准 ) FHE 

ASCH 字符 集 适 合 于 编码 英语 文档 ， 但 是 它 在 表达 一 些 特殊 字符 方面 并 没有 太 多 办 法 ， 例 如 法 
语 的 “C”。 它 完全 不 适合 编码 希腊 语 、 俄 语 和 中 文 这 样 语言 的 文档 。 最 近 ，16 位 的 Unicode 字符 集 
被 采纳 用 来 支持 所 有 语言 的 文档 。 这 种 双 字 节 字 符 集 表示 使 得 大 量 不 同 字 符 的 表示 变 为 可 能 。Java 
编程 语言 使 用 Unicode 来 表示 字符 事 。 对 于 C 也 有 可 用 的 程序 库 来 提供 Unicode 版 本 的 标准 字符 事 
函数 ， 例 如 strlen 和 strcpy. 


2.1.6 ”表示 代码 


考虑 下 面 的 C me: 

1 int sum(int x, int y) 
2 | 

3 return x + y; 

4 } 


当 在 我 们 的 示例 机 器 上 编译 时 ， 我 们 生成 有 如 下 字 节 表 示 的 机 器 代码 : 
Linux: 55 89 e5 8b 45 Oc 03 45 08 89 ec 5d c3 

NT: 55 89 e5 8b 45 Oc 03 45 08 89 ec 5d c3 

Sun: 81 C3 EO 08 90 02 00 09 

Alpha: 00 00 30 42 01 80 FA 6B 
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这 里 我 们 发 现 除了 NT 和 Linux 机 器 以 外 ， 指 令 编 码 是 不 同 的 。 不 同 的 机 器 类 型 使 用 不 同 的 且 
不 兼容 的 指令 和 编码 方式 NT 和 Linux 机 器 使 用 的 都 是 Intel 处 理 器 ,因此 支持 相同 的 机 器 级 指令 。 
然而 ， 一 般 而 言 ， 一 个 可 执行 的 NT 程序 和 一 个 Linux 程序 的 结构 是 不 同 的 ， 因 此 这 些 机 器 并 不 完 
全 是 二 进 制 兼容 的 。 二 进 制 代码 很 少 能 在 不 同 机 器 和 操作 系统 组 合 之 间 移 植 。 

计算 机 系统 的 一 个 基本 概念 就 是 从 机 器 的 角度 来 看 ， 程 序 仅 仅 只 是 字 节 序列 。 机 器 没有 关于 原 
始 源 程序 的 任何 信息 ， 除 了 可 能 有 些 用 来 帮助 调试 的 辅助 表 以 外 ， 当 我 们 在 第 3 章 中 学 习 机 器 级 编 
程 时 ， 将 更 清楚 地 了 解 这 一 点 。 


2.1.7 布尔 代数 和 环 

因为 二 进 制 值 是 计算 机 编码 、 存 储 和 操作 信息 的 核心 ， 所 以 围绕 数值 0 和 1 已 经 演化 出 了 丰富 
的 数学 知识 体系 。 这 起 源 于 1850 年 左右 乔治 。 布 尔 (George Boole) 的 工作 ， 因 此 也 被 称 为 布尔 代 
% (Bool aigebra)。 布 尔 观察 到 通过 将 二 进 制 值 1 和 0 编码 为 逻辑 值 TRUE (A) A FALSE (R), 
能 够 设计 出 一 种 代数 ， 研 究 命题 逻辑 的 属性 。 

存在 大 量 不 同 的 布尔 代数 ， 其 中 最 简单 的 是 定义 在 二 元 素 集 合 {0，1]} 基 础 上 的 运算 。 图 2.6 
定义 了 这 种 布尔 代数 中 的 几 种 运算 。 我 们 用 来 表示 这 些 运算 的 符号 是 和 C 的 位 级 运算 使 用 的 符号 
相 匹 配 的 ， 这 些 将 在 后 面 讨论 到 。 布 尔 运算 "对 应 于 逻辑 运算 NOT， 在 命题 逻辑 中 表示 为 一 。 也 
就 是 说 ， 当 P 不 是 真 的 时 候 ， 我 们 就 说 一 P 是 真 的 ， 反 之 亦 然 。 相 应 地 ， 当 P 等 于 0 时 ，P 了 等 于 
1， 反 之 亦 然 。 布 尔 运算 & 对 应 于 逻辑 运算 AND， 在 命题 逻辑 中 表示 为 人 。 当 PP 和 8 都 为 真 时 ， 
我 们 说 PAO 成 立 ， 反 之 亦 然 。 相 应 地 ， 只 有 当 p=1 B gq=1 时 ，p&g 才 等 于 1。 布尔 运算 | 对 应 
于 逻辑 运算 OR， 在 命题 逻辑 中 表示 为 V。 当 P 或 者 8Q 为 真 时 ,我 们 说 PVO 成立。 相应 地 ， 当 
p=1 或 者 gq=1 时 ，p | g 等 于 1。 布尔 运算 ^ 对 应 于 逻辑 运算 EXCLUSIVE-OR (FRR), 在 命题 逻辑 
中 表示 为 @ 。 当 PP 或 0 为 真 但 不 同 为 真 时 , RANK PeO R. 相应 地 ， 当 p=1 A g=0, 或 者 p=0 


B g=1 f, pqg 等 于 1。 
- «lo 1 |lo 1 «lo 
Q |1 OilI0O O QIQ 1 O10 1 
{1/0 {10 1 1/4 1 +11 0 


26 布尔 代数 的 运算 
二 进 制 值 1 和 0 表示 逻辑 值 TRUE 或 者 FALSE, MERA a MARK RE B NOT. AND.OR 和 EXCLUSIVE-OR。 


后 来 创立 信息 理论 领域 的 Claude Shannon 首先 建立 了 布尔 代数 和 数字 逻辑 之 间 的 联系 。 在 他 
1937 年 的 硕士 论文 中 ， 他 表明 了 布尔 代数 可 以 用 来 设计 和 分 析 机 电 继电器 网 络 。 尽 管 从 那 时 起 计算 
机 技术 已 经 取得 了 相当 的 发 展 ， 但 是 布尔 代数 仍然 在 数字 系统 的 设计 和 分 析 中 扮演 着 重要 的 角色 。 

在 整数 运算 和 布尔 代数 之 间 有 许多 相似 点 ， 同 时 也 有 一 些 重要 的 不 同 之 处 。 特别 地 ， 整 数 集 合 ， 
用 Z 来 表示 ， 形 成 了 一 个 称 为 环 的 数据 结构 ， 表 示 为 <Z，+，x，-，0，1>， 其 中 加 法 为 求 和 运算 ， 
乘法 为 求 积 运算 , 负 号 作为 加 法 的 逆 运 算 , 而 元 素 0 和 1 作为 加 法 和 乘法 的 单位 元 。 布尔 代数 <{0,1}， 
1 廊 ， , 0, 1> 有 相似 的 属性 。 图 2.7 突出 了 两 种 结构 的 属性 , 展示 了 两 者 的 共同 点 和 各 自 独特 的 属性 。 
一 个 重要 的 不 同 之 处 就 在 于 ‘a 不 是 a 在 | 运算 下 的 逆 元 。 
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同 ] 

axl=a a&l=a 
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图 2./ 整数 环 和 布尔 代数 的 比较 
两 种 数学 结构 有 很 多 共同 的 属性 ， 但 也 有 一 些 关键 的 不 同 点 ， 尤 其 是 在 -和 ”之 间 。 


旁 注 ,抽象 代数 有 什么 好 处 ? 

抽象 代数 包括 识别 和 分 析 不 同 领 域内 数学 运算 的 共同 属性 。 典 型 地 ， 一 个 代数 就 是 被 定义 为 一 
组 元 素 、 一 些 关键 运算 和 一 些 重要 的 元 素 。 比 如 ， 模 数 运 算 也 构成 一 个 环 。 对 于 模 数 n， 代 数 被 束 
TA (Za tp Xn，-n，0O，1)， 其 中 各 个 部 分 定义 如 下 : 


Bn = 10,1……,m 一 1 } 
at+.b 主 a+bmodn 
ax,b = axbmodn 


0, a=0 
E a>O 

虽然 模 数 运算 和 整数 运算 得 到 的 结果 不 同 ， 但 是 它们 还 是 有 很 多 相同 的 数学 属性 的 。 其 他 知名 
的 环 还 包括 有 理 数 和 实数 。 


-ja 
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如 果 我 们 用 EXCLUSIVE-OR 运算 来 取代 布尔 代数 中 的 OR 运算 ， 并 且 用 同一 运算 (identity 

operation) 7 来 取代 补 运算 ， 这 里 对 于 所 有 的 a, I(a)= a， 那么 我 们 就 得 到 一 个 结构 <{0, 1}, ^, & 1 0, 

1>。 这 个 结构 不 再 是 一 个 布尔 代数 ， 实 际 上 它 是 一 个 环 。 它 能 被 视 为 一 种 特别 简单 的 环 的 形式 ， 是 

由 所 有 整数 {0，1，…，n-1} 组 成 的 ， 并 且 加 法 和 乘法 都 是 模 的。 在 这 个 例子 中 ,我 们 设 n=2。 也 

就 是 说 , 布尔 AND 和 EXCLUSIVE-OR 分 别 相 当 于 模 2 的 乘法 和 加 法 。 这 个 代数 的 一 个 奇怪 的 属性 
吕 是 ， 每 个 元 素 都 是 它 自 己 的 加 法 道 元 a^Ia)y=a^a=0。 


芳 注 ， 除 了 数学 家 ， 还 有 谁 关心 布尔 环 ? 
每 当 你 享受 一 张 CD 记录 的 清晰 的 音乐 或 者 一 张 DVD 记录 的 高 质量 的 视频 画面 时 ， 休 就 在 利 


用 布尔 环 。 这 些 技术 都 依赖 于 纠 错 码 从 碟 片 上 可 靠 地 获取 位 ， 即 使 碟 片 很 脏 ， 甚 至 有 划 痕 。 这 些 纪 
错 码 的 数字 基础 就 是 基于 布尔 环 的 线性 代数 。 


我 们 能 够 将 这 四 种 布尔 运算 扩展 到 位 向 量 上 ， 位 向 量 就 是 某 个 固定 长 度 为 w 的 0 或 1 的 串 。 
找 们 通过 将 运算 应 用 到 参数 相 匹 配 的 元 素 上 ， 来 定义 对 位 向 量 的 运算 。 例 如 ， 我 们 定义 [we ，， 
Qy.29 s Qol&[b,1, by2, *…, bol 为 [aw 1&b,1, O,.2&Dy.2% ***, Ag&Do]s 对 于 运算 、 | 和 ”有 类 似 
的 定义 。 设 {0，1}" 表示 所 有 长 度 为 w 的 0、1 BES, To” aH w 个 符号 a ARNE, Fp 
么 你 能 看 到 得 到 这 样 的 代数 : <(0, 1)", 1 & ~, OY, ><{0, 1)", ^, & IL 0, 1">, 4} 
别 构成 了 布尔 代数 和 环 。 每 一 个 不 同 的 w 值 就 定义 了 一 个 不 同 的 布尔 代数 和 一 个 不 同 的 布尔 环 。 
Sit: 布尔 环 和 模 运算 一 样 吗 ? 

ZARA RH<{0, 1}, ^, & 1, 0, BERI 2 H<Z, +), X ，，-，,，0，1> 是 相同 的 。 然 
而 ， 推 广 到 长 度 为 what, SHAS MHMERS TRAY. 


练习 题 2.8 
填写 下 表 ， 给 出 对 位 向 量 的 布尔 运算 的 求 值 结果 。 


[01101001] 
[01010101] 


位 回 量 的 一 个 有 用 的 应 用 就 是 表示 有 限 集合 。 例 如 ， FAT BES FAG Ea > ay, ag eH 
MEA FRAC(O b en wl}, 其 中 a;= 1 当 且 仅 当 ie 4。 例 如 ,( 记 住 我 们 是 把 ayi 与 在 左边 ， 
而 将 ao 与 在 右边 ), RATA a = [01101001] RAS A = (0, 3, 5, 6}, m b = [010100] RRES B = 10， 
2，4，06}。 在 这 种 解释 中 ， 布 尔 运算 |/ 和 & 分 别 相当 于 集合 的 并 和 交 ， 而 ~ 相当 于 集合 的 补 。 比如 ， 运 
算 a&b 得 到 位 向 量 [01000001], 而 ANB = {0, 6}. 

实际 上 ， 对 于 任何 集合 S$, 结构 〈 多 (5S),U N, 0, S) 形成 了 一 个 布尔 代数 ， 其 中 (S$) 表示 所 有 
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S 的 子 集 的 集合 , 而 表示 集合 的 补 运算 符 。 也 就 是 说 , 对 于 任何 集合 A, 它 的 补 集 就 是 集合 A = fa 
Ee Slag A}。 使 用 位 向 量 运算 来 表示 和 操作 有 限 集合 的 能 力 ， 是 实践 -- 种 深奥 的 数学 原理 的 结果 。 
练习 题 2.9 


通过 混合 三 种 不 同 顾 色 的 光 ( 红色 、 绿 色 和 蓝 色 )， 计 算 机 在 视频 屏幕 或 者 液晶 显示 器 上 产生 彩色 
的 画面 。 设 想 一 种 简单 的 方法 ， 使 用 三 种 不 同 颜色 的 光 ， 每 种 光 都 能 打开 或 关闭 ， 投 射 到 玻璃 屏幕 上 。 
光源 玻璃 屏幕 


那么 基于 光源 R ( 红 )、G ( 绿 ) B ( 蓝 ) 的 关闭 (0) RAF (1)， 我 们 就 能 够 创建 八 种 不 同 
a AR & 


这 些 顾 色 的 集合 形成 了 一 个 八 元 素 布尔 代 数 。 
A. 一 种 颜色 的 补 是 通过 关 掉 那些 打开 的 颜色 光 , 且 打 开 那 些 关 掉 的 颜色 光 而 形成 的 . MALS 
5) E NAP ARE MARA A? 
B. 对 于 这 种 代数 ， 布 尔 值 0*" 和 地 对 应 的 颜色 是 什么 ? 
C. 换 述 对 下 列 闫 色 应 用 布尔 运算 的 结果 : 
Be | 红色 = 
eee & ERE = 
43 &, A 白色 = 


2.1.8 C 中 的 位 级 运算 

C 的 一 个 很 有 用 的 特性 就 是 它 支 持 按 位 布尔 运算 。 事 实 上 ， 我 们 在 布尔 运算 中 使 用 的 那些 符号 
MÆ C 中 使 用 的 : IRE OR, &BE AND, “就 是 NOT， 而 ^ 就 是 EXCLUSIVE-OR。 这 些 运算 能 
运用 到 任何 “ 整 型 ”的 数据 类 型 上 ， 也 就 是 ， 那 些 声明 为 char 或 者 int 的 数据 类 型 ， 无 论 有 没有 像 
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Short. long 或 者 unsigned 这 样 的 限定 词 。 以 下 是 一 些 表达 式 求 值 的 例子 ， 


om io 
mw | row | um | am 
ero oo onion 


正如 我 们 的 示例 说 明 的 ， 确 定 一 个 位 级 表达 式 的 结果 的 最 好 方法 就 是 将 十 六 进 制 参数 扩展 成 它 
们 的 二 进 制 表 示 ， 执 行 二 进 制 运算 ， 然 后 再 转换 回 十 六 进 制 。 


练习 题 2.10 
为 了 展示 “的 环 属 性 的 用 处 ， 考 虑 下 面 的 程序 : 


1 void inplace_swap(int *x, int *y) 


2 | 
3 “X= *x " *y; /* Step 1 */ 
4 "y = =” “ge /* Step 2 */ 
5 TR = Se Vey /* Sten 3. */ 
6 } 


正如 程序 名 字 所 暗示 的 那样 , 我 们 认为 这 个 过 程 的 效果 是 交换 指针 变量 x fo y 所 指向 的 存储 位 
团 处 存放 的 值 。 注 意 ， 与 通常 的 交换 两 个 数值 的 技术 不 一 样 ， 当 我 们 移动 一 个 值 时 ， 我 们 不 需要 第 
三 个 位 置 来 临时 存储 另 一 个 值 。 这 种 交换 方式 并 没有 性 能 上 的 优势 ， 它 仅仅 是 一 个 智力 上 的 消 韦 ， 

开始 时 ， 指 针 x 和 y 所 指向 的 位 置 存储 的 值 分 别 是 a 和 b， 填 写 下 表 ， 给 出 在 程序 的 每 一 步 之 
后 ， 存 储 在 这 两 个 位 置 中 的 值 。 利 用 环 的 属性 来 表明 所 希望 的 效果 被 达到 了 。 回 想 一 下 ， 每 个 元 素 
就 是 它 自身 的 加 法 北 元 (也 就 是 说 ，aAa=0). 


位 级 运算 的 一 个 常见 用 法 就 是 实现 掩 码 运 算 ， 这 里 掩 码 是 一 个 位 模式 ， 表示 从 一 个 字 中 选 出 的 一 
组 位 。 计 我 们 来 看 一 个 例子 , 掩 码 0xFF( 最 低 有 效 八 位 为 1 ) 表 示 一 个 字 的 低位 字 节 。 位 级 运算 x&0xFF 
生成 一 个 由 x 的 最 低 有 效 字 节 组 成 的 值 ， 而 其 他 的 字 节 就 被 置 为 了 0。 比如 ， 对 于 x=0x89ABCDEF, 
表达 式 将 得 到 0x000000EF。 表 达 式 ”0 将 生成 一 个 全 1 W, 不 管 机 器 的 字 大 小 是 多 少 。 尽 管 对 于 
一 个 32 位 机 器 同样 的 掩 码 可 以 写成 0xFFFFFFFF， 但 是 这 样 的 代码 是 不 可 移植 的 。 


练习 题 2.11 


根据 下 面 的 值 ， 以 及 当 x=0x98FDECBA 和 字 长 为 32 位 时 的 结果 ， 写 出 C 的 表达 式 ， 方 括号 中 
所 示 的 即 为 结果 。 
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A.x 的 最 低 有 效 字 节 ， 其 他 位 均 置 为 1[0xFFEFFFBA]. 

B. x RIAA RS th, EAF RAF A E [Ox98FDEC4S]. 

C. 除了 x 的 最 低 有 效 字 节 外 的 所 有 字 节 保持 不 变 ， 最 低 有 效 字 节 置 为 0[0x98FDEC001]. 
尽管 我 们 的 例子 假设 的 是 32 位 字 长 ， 但 是 你 的 代码 应 该 可 以 工作 在 w>8 的 任何 字 长 下 。 


练习 题 2.12 


从 20 世纪 70 年 代 末 到 80 FAR, Digital Equipment 的 VAX 计算 机 是 一 种 非常 流行 的 机 型 ， 
它 没 有 布尔 运算 AND 和 ORRA, CRA bis (位 设置 ) 和 bic (位 清除 ) 这 两 种 指令 。 两 种 指令 的 
输入 部 是 一 个 数据 字 x 和 一 个 掩 码 字 m。 它 们 生成 一 个 结果 z，z 是 由 根据 掩 码 m 的 位 修改 x 的 位 
得 到 的 。 使 用 bis 指令 ， 这 种 修改 就 是 在 m 为 1 的 每 个 位 置 ， 将 z 设 置 为 1。 使 用 bic FER, 这 种 修 
改 就 是 在 m 为 0 的 每 个 位 置 ， 将 z 设 置 为 0. 

我 们 想 要 编写 C 函数 bis 和 bic 来 计算 这 两 个 指令 的 效果 。 使 用 C 的 位 级 运算 ， 填 写 下 列 代 码 
中 缺失 的 表达 式 : 

/* Bit Set */ 

“nt bis(int x, int m) 


/* Write an expression in C that computes the effect of bit set */ 
int result = 
return result; 

} 

/* Bit Clear */ 

int bic(int x, int m) 

{ 
/* Write an expression in C that computes the effect of bit clear */ 
int result = 
return result; 


| 


2.1.9 C 中 的 逻辑 运算 

C 还 提供 了 一 系列 的 逻辑 运算 符 l、 用 及 和 !， 分 别 对 应 于 命题 逻辑 中 的 OR. AND 和 NOT 运算。 
逻辑 运算 很 容易 和 位 级 运算 相 混淆 ， 但 是 它们 的 功能 是 完全 不 同 的 。 逻 辑 运算 认为 所 有 非 零 的 参数 
都 表示 TRUE, MARMARA FALSE。 它 们 返回 1 或 者 0， 分 别 表示 结果 为 TRUE MAW FALSE. 
以 下 是 一 些 表 达 式 求 值 的 示例 : 
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可 以 观察 到 ， 按 位 运算 只 有 在 特殊 情况 中 ， 也 就 是 参数 被 限制 为 0 或 者 1 时 ， 才 和 与 其 对 应 的 
逻辑 运算 有 相同 的 行为 。 

迎 辑 运算 符 &&&& 和 || 与 它们 对 应 的 位 级 运算 有 & 和 | 之 间 第 二 个 重要 的 区 别 是 ， 如 果 对 第 一 个 参数 求 
仁 就 能 确定 表达 式 的 结果 ， 那 么 逻辑 运算 符 就 不 会 对 第 二 个 参数 求 值 。 因 此 , 例如， 表达 式 a&&5/a 
将 不 会 造成 被 零 除 ， 而 表达 式 p&&*p++ 也 不 会 导致 间接 引用 空 指针 。 

练习 题 2.13 


假设 x 和 yy HF PLD IA 0x66 和 0x93. 填写 下 表 ， 指 明 各 个 C 表达 式 的 字 节 值 : 


练习 题 2.14 


只 使 用 位 级 和 逻辑 运算 ， 编写 一 个 CC 表达 式 ， 它 等 价 于 x= =y。 换 名 话说 ， 当 x 和 yy 相等 时 它 
将 返回 1， 否 则 就 返回 O, 


2.1.10 C 中 的 移 位 运算 

C 还 据 供 了 一 系列 的 移 位 运算 ， 以 向 左 或 者 向 右 移 动 位 模式 。 对 于 一 个 位 表示 为 Co， i， S29 
xo] 的 运算 数 x, CREA x << k 会 生成 一 个 值 ， 其 位 表示 为 bo sl， 加 2 x，0, …，0]。 也 就 
是 说 ,x 同 左 移动 上 上位， 丢弃 上 个 最 高 位 ， 并 在 右 端 补 了 大 个 0。 移 位 量 应 该 是 一 个 0~n-] 之 间 的 
值 。 移 位 运算 从 左 至 右 结 合 ， 所 以 x<<j<<k 等 价 于 (x<<j)<<k。 注 意 运算 符 的 优先 级 : J]<<5-1 应 该 
按照 1<<(S-DD 而 不 是 (1<<$)-1 来 求 值 。 

有 一 个 相应 的 右 移 运算 x>>k, 但 是 它 的 行为 有 点 微妙 。 一 般 而 言 ， 机 器 支持 两 种 形式 的 右 移 : 
逐 辑 的 和 工 术 的。 有 还 辑 右 移 在 左 端 补 上 个 0， 得 到 的 结果 是 [0, = 0s xo moo ae REB 
是 在 左 端 补 上 个 最 高 有 效 位 的 拷贝 ， 得 到 的 结果 是 [x,_1， e ,a gle 这 种 做 法 看 上 
去 可 能 有 点 奇特 ， 但 是 我 们 会 发 现 它 对 有 符号 整数 数据 的 运算 非常 有 用 。 

C 怀 准 并 没有 明确 定义 应 该 使 用 哪 种 类 型 的 右 移 。 对 于 无 符号 数据 (也 就 是 , 以 限定 词 unsigned 
声明 的 整 型 对 象 )， 右 移 必 须 是 逻辑 的 。 而 对 于 有 符号 数据 (默认 )， 算 术 的 或 者 逻辑 的 右 移 都 可 以 。 
ANE Hi, 这 就 意味 着 任何 假设 一 种 或 者 另 一 种 右 移 形式 的 代码 都 潜在 地 会 遇 到 可 移植 性 问题 。 然 而 ， 
实际 上 ， 几 乎 所 有 的 编译 器 /机 器 组 合 都 对 有 符号 数据 使 用 算术 右 移 ， 且 许多 程序 员 也 都 假设 使 用 这 


HAH. 

练习 题 2.15 

填写 下 表 ， 展 示 不 同 移 位 运算 对 单字 节 数 的 影响 。 思 考 移 位 运算 的 最 好 方式 是 使 用 二 进 制 表示 
方式 。 将 最 初 的 值 转换 为 二 进 制 ， 执 行 移 位 运算 ， 然 后 再 将 它 转换 回 十 六 进 制 。 每 个 答案 都 应 该 是 
8 个 二 进 制 数字 或 者 2 个 十 六 进 制 数字 ， 
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CIE AR BY D (算术 的 ) 
十 六 进 制 ” 二进制 二 进 制 ”十 六 进 制 二 进 制 HARS 二 进 制 HARER 
| T 


OxOF 


2.2 整数 表示 


企 本 下 中 ， 我 们 描述 用 位 来 编码 整数 的 两 种 不 同 的 方式 : 一 种 只 能 表示 非 负 数 ， 而 另 一 种 能 够 
表示 负数 、 雪 和 正 数 。 在 后 面 我 们 将 会 看 到 它们 在 数学 属性 和 机 器 级 实现 方面 有 很 强 的 关联 。 我 们 
还 会 研究 扩展 或 者 收缩 一 个 已 编码 整数 以 适应 不 同 长 度 表 示 的 效果 。 


2.2.1 整 型 数据 类 型 

C 文 持 多 种 整 型 数据 类 型 一 表示 有 限 范 围 的 整数 。 这 些 类 型 如 图 2.8 所 示 。 每 种 类 型 都 有 一 
个 大 小 指示 符 : char. short, int 和 long， 同 时 还 有 被 表示 的 数字 是 非 负 数 〈 声 明 为 unsigned), 或 者 
可 能 是 负数 (默认) 的 指示 。 图 2.2 中 给 出 了 对 这 些 不 同 的 大 小 的 典型 分 配 。 如 图 2.8 所 示 ， 这 些 
不 同 的 大 小 允许 表示 不 同 范围 的 值 。C 标准 定义 了 每 种 数据 类 型 必须 能 够 表示 的 最 小 数值 范围 。 如 
图 中 所 示 ， 虽 然 C 标准 允许 16 位 的 表示 ， 但 一 个 典型 的 32 位 机 器 使 用 一 个 32 位 表示 来 表示 int 和 
unsigned 数据 类 型 。 像 图 2.2 所 描述 的 ，Compaq Alpha 使 用 64 位 字 来 表示 long 整数 ， 无 符号 数 的 
上 限 超过 了 1.84x10 ， 而 有 符号 数 的 范围 超过 了 49.22 x 10". 


char 


unsigned char 


short fint] 


unsigned short [int] 


int -32 767 32 767 -2 147 483 648 2 147 483 647 

unsignec{int]} 0 65 535 0 4 294 967 295 
long {int] -2 147 483 647 2 147 483 647 -2 147 483 648 2 147 483 647 
unsigned lorglirt] 0 4 294 967 295 0 4 294 967 295 


图 2.8 《CC 的 整 型 数据 类 型 


方 括 与 中 的 文字 是 可 选 的 。 


给 C 语 育 初学 者 ;: GCG、C++ 和 Java 中 的 有 符号 积 无 符号 数 
C 和 C++ 都 支持 有 符号 (默认) 和 无 符号 数 。Java 只 支持 有 符号 数 . 
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2.2.2 无 符号 和 二 进 制 补 码 编码 

假设 有 一 个 整数 数据 类 型 有 w 位 。 我 们 可 以 将 位 向 量 写成 x ， 表 示 整 个 向 量 ， 或 者 写成 [x,， 
xw2;""，Xo]， 表 示 向 量 中 的 每 一 位 。 把 3 看 做 一 个 写成 二 进 制 表示 的 数 ， 我 们 就 获得 了 zz 的 无 符号 
表示 。 我 们 用 一 个 函数 B2U, (代表 “无 符号 的 二 进 制 ”， 长 度 为 w》 来 表示 这 种 形式 : 

B2U,,(x)= F x2 (2.1) 
i=0 

在 这 个 等 式 中 ， 符 号 “= ”表示 左手 边 被 定义 为 等 于 右手 边 。 函 数 B2U, 将 一 个 长 度 为 ww 的 0、 
1 串 映 射 到 非 负 整数 。 它 的 最 小 值 是 用 位 向 量 [00…0] 表 示 ， 也 就 是 整数 值 0， 而 它 的 最 大 值 是 用 位 
向 量 [11…1] 表 示 ， 也 就 是 整数 值 UMa, =} 2 =2* -1 。 因 此 ， 函 数 B2U, 能 够 被 定义 为 一 个 映 
HY B2U,:{0，1}w 一 {0, …，2”-1}。 注 意 B2U, 是 一 个 双 射 一 一 对 于 每 一 个 长 度 为 w 的 位 向 量 ， 都 有 
一 个 惟一 的 值 与 之 对 应 ; RIK, E 0~2”-1 之 间 的 每 一 个 整数 都 有 一 个 惟一 的 长 度 为 w 的 位 向 量 
二 进 制 表 示 与 之 对 应 。 

对 于 许多 应 用 ， 我 们 还 希望 表示 负数 值 。 最 常见 的 有 符号 数 的 计算 机 表示 方式 就 是 二 进 制 补 码 
(two’s-complement》 形 式 。 它 的 定义 将 字 的 最 高 有 效 位 解释 为 负 权 (negative weight)。 我 们 用 函数 
B2T, CRI “HRA HHE”, KEA w) 来 表示 这 种 解释 : 


w—2 
B2T,,(X) = -xy42"' + ¥ x,2! (2.2) 
i=0 
Fx A SUL BARA TES AL (sign bit)。 当 被 设置 为 1 时， 表示 值 为 负 ， 而 当 被 设置 为 0 时 ， 值 为 
非 负 。 它 能 表示 的 最 小 值 是 位 向 量 [10…0] (也 就 是 ， 设 置 这 个 位 为 负 权 ,但 是 清除 其 他 所 有 的 位 )， 
其 整数 值 为 TMin, = -2” 。 而 最 大 值 是 位 向 量 [01…1]， 其 整数 值 为 TMaxw = ”21=2”1-1。 
同样 地 ， 我 们 可 以 看 到 B27, 也 是 一 个 双 射 B2U,:{0，1}* 一 {-2”1,…，2*!-1}， 对 于 可 表示 范围 内 
的 每 个 位 模式 都 有 一 个 惟一 的 整数 与 之 对 应 。 
练习 题 2.16 
假设 w=4， 我 们 能 给 每 个 可 能 的 十 六 进 制 数字 赋予 一 个 数值 ， 假 设 是 一 个 无 符号 或 者 二 进 制 补 
码 表 示 。 请 根据 这 些 表 示 ， 通 过 写 出 等 式 2.1 和 2.2 所 示 的 求 和 公式 中 的 二 的 非 零 畸 数 ， 填 写 下 表 ; 


十 六 进 制 二 进 制 


8 ae 


图 2.9 展示 了 不 同 字 长 的 几 个 “有 趣 的 ”数字 的 位 模式 和 数值 。 前 三 个 给 出 的 是 可 表示 的 整数 的 


44 第 2 章 


mH. 有 几 点 值得 注意 。 第 一 ,二 进 制 补 码 的 范围 是 不 对 称 的 : ITMin,| = ITMax,l+ 1, RE, TMin, 
没有 与 之 对 应 的 正 数 。 就 像 我 们 会 看 到 的 ， 这 导致 了 二 进 制 补 码 运算 的 某 些 特殊 的 属性 ， 并 晶 容 易 造 
成 程序 中 细微 的 错误 。 第 二 ， 最 大 的 无 符号 值 刚 好 比 二 进 制 补 码 的 最 大 值 的 两 倍 大 一 点 : UMax, = 2 
TMax, + 1。 这 是 因为 二 进 制 补 码 表示 体 留 了 一 半 的 位 模式 来 表示 负数 值 。 其 他 的 情况 是 癌 数 -1 和 0， 
注意 -1 和 UMax, 有 同样 的 位 表示 一 一 一 个 全 1 的 串 。 数 值 0 在 两 种 表示 方式 中 都 是 全 ONS. 


FE w 
数 
8 | 1 aa | au ŻČü Oü O 
UM OxFF OxXFFFF OXFFFFFFFF OXKFEFFFFFFFFFFFFFF 
Hu 255 65 535 4 294 967 295 18 446 744 073 709 551 615 
TM ÜK7F Ox7FFF OX7FFFFFFF OX7FFFFFFFFFFFFFFF 
Hw 127 32 767 2 147 483 647 9 223 372 036 854 775 807 


090x0000 0x00000000 Oxd0000000000000000 


图 2.2 “有 趣 的 ”数字 


给 出 了 数字 值 和 十 六 进 制 表示 。 


C 的 标准 并 没有 要 求 要 用 二 进 制 补 码 形式 来 表示 有 符号 整数 ， 但 是 几乎 所 有 的 机 器 都 是 这 么 做 
的 。 为 了 保证 代码 的 可 移植 性 ， 除 了 图 2.2 所 示 的 那些 范围 之 外 ， 我 们 不 应 该 假设 任何 可 表示 的 数 
值 范 围 ， 或 者 假设 它们 会 被 如 何 表示 。C 库 中 的 文件 <limits.h> 定 义 了 一 组 常量 ， 来 限定 运行 编译 器 
的 这 台 机 器 的 不 同 整 型 数据 类 型 的 范围 . 比如, 它 定 义 了 常量 INT_MAX INT_MIN 和 UINT_MAX, 
它们 描述 了 有 符号 和 无 符号 整数 的 范围 。 对 于 一 个 二 进 制 补 码 的 机 器 ， 数 据 类 型 int 有 w 位 ， 这 些 
常量 就 对 应 于 TMax,,、TMin, Al UMax,,. 
旁 注 ， 有 符号 数 的 其 他 玫 示 方法 
有 符号 数 号 外 还 有 两 种 标准 的 表示 方法 : 
二 进 制 反 码 (Ones' Compjement， 又 译作 “一 的 补 码 ” );， 这 和 二 进 制 补 码 是 一 致 的 ， 除 了 最 高 
有 效 位 的 权 是 -(2 -1) 而 不 是 -2"1: 
w- 2 
B20,,(%) = - x," -D+ x2! 
i=Q 


符号 数值 ( Sign-Magnitude )， 了 最 高 有 效 位 是 符号 位 ， 确 定 剩 下 的 位 应 该 取 负 权 还 是 正 权 : 


w-2 
B2S (%) =(-1)*™" . $ x2 | 


i=0 
这 两 种 表示 方法 都 有 一 个 古怪 的 属性 ， 那 就 是 对 于 数字 0 有 两 种 不 同 的 编码 方式 。 对 于 两 种 表 
示 方 法 ，[00.…0] 都 被 解释 为 +0。 而 值 -0 在 符号 量 形式 中 表示 为 [10…0]， 而 在 二 进 制 反 码 中 表示 为 
[33.…1]。 入 然 过 去 生产 过 基于 二 进 制 反 码 表 示 的 机 器 , 但 是 几乎 所 有 的 现代 机 器 都 使 用 二 进 制 补 码 。 
我 们 将 看 到 符号 数值 编码 方式 使 用 在 浮 点 数 中 。 
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请 注意 二 进 制 补 码 (Two's-complement) 和 二 进 制 反 码 (Ones’complement ) 中 搬 号 的 位 置 是 不 
同 的 。 | 
short int x = 12345: 


Short int mx = -x; 


Show_bytes((byte_pointer) &x, sizeof(short int)); 


i 
2 
3 
4 
> show_bytes((byte_pointer) &mx, sizeof (short int)); 


E 
| 
- 
i 
i 


a 12 345 5 | st 


8 192 
16 384 
+32 768 


— æ O O = = = œ = = O O © m, m 
= = O O ~ = _ o = =) æ= G © e p p ë Á 


I 
0 
0 
l 
1 
] 
0 
0 
0 
0 
0 
0 
1 
1 
0 
0 


2.10 12345 和 -12 345 的 二 进 制 补 码 表示 ， 以 及 53 191 的 无 符号 表示 
注意 后 面 两 个 数 有 相同 的 位 表示 。 


当 运 行 在 大 端 法 机 器 上 时 , 这 段 代 码 的 输出 为 30 39 和 cf c7, 指明 x 的 十 六 进 制 表示 为 0x3039， 
而 mx 的 十 六 进 制 表 示 为 0xCEFC7。 将 它们 展开 为 二 进 制 ,我 们 得 到 x 的 位 模式 为 [0011000000111001]， 


而 mx 的 位 模式 为 [1100111111000111]。 如 图 2.10 所 示 ， 等 式 2.2 对 这 两 个 位 模式 生成 的 值 为 12 345 
和 -12 345。 


练习 显 2.17 
在 第 3 章 中 ， 我 们 将 看 到 由 反 汇 编 器 生成 的 列表 ， 反 汇 编 跨 是 一 种 将 可 执行 程序 文件 转换 回 
更 可 读 的 ASCII 码 形式 的 程序 。 这 些 文件 包含 许多 十 六 进 制 数字 ， 典型 地 都 是 用 二 进 制 补 码 形式 


来 表示 这 些 值 的 , 能够 认识 这 些 数字 并 理解 它们 的 意义 ( 例如 ， 它们 是 正 数 还 是 负数 )， 是 一 项 重 
要 的 技巧 。 
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在 下 面 的 列表 中 ， 对 于 标号 为 A~ 开 (标记 在 右边 ) 的 那些 行 ， 将 指令 名 (sub. push. mov 和 
add ) 右边 显示 的 十 六 进 制 值 转换 为 它们 的 十 进 制 等 价值 。 


80483b7: 81 ec 84 01 00 00 sub $0x184,%esp A. 
B0483bd: 53 push $ebx 

80483be: 8b 55 08 mov 0x8{(¢*ebp) , tedx B. 
80483c1: 8b 5d 0c mov Oxc{%ebp) , tebx C. 
80483c4: Bb 4d 10 mov 0x10 (tebp) , tecx D. 
80483c7: 8b 85 94 fe ff ff mov Oxfffffe94(%ebp) , teax E. 
80483cd: 01 cb add Secx, tebx 

80483cf: 03 42 10 add Ox10 (Sedx) , teax F. 
80483d2: 89 85 a0 fe ff ff mov eax, Oxf ffffea0 (tebp) G. 
80483d8: 8b 85 10 ff ff ff mov OxÍfÉfff10(%ebp) , teax H. 
80483de: 89 42 lc Mov eax, Oxlc (%edx) Í. 
80483e1: 89 9d 7c ff ff ff mov ebx, OxfffFLLL7c (%ebp) J. 
B0483e7: 8b 42 18 mov Ox18 ($edx) , teax K. 


2.2.3 有 符号 数 和 无 符号 数 之 间 的 转换 

既然 B2U,, 和 B2T, 都 是 双 射 ， 它们 就 有 定义 明确 的 逆 映 射 。 将 U2B, 定义 为 B2U,', TO T2B, 
定义 为 B27 。 这 些 函 数 给 出 了 一 个 数值 的 无 符号 或 者 二 进 制 补 码 的 位 模式 。 给 定 0<x<2 范 围 内 
的 一 个 整数 x， 函 数 U2B,(x) 会 给 出 x 的 惟一 的 w 位 无 符号 表示 。 相 似 地 ， 当 满足 -2” <x <2”, 
PRR 728,00 会 给 出 x 的 惟一 的 w 位 二 进 制 补 码 表 示 。 可 观察 到 ， 对 于 范围 0 < x < 2*- 内 的 值 ， 这 
两 个 函数 将 生成 同样 的 位 模式 一 一 最 高 位 是 0， 因此 这 个 位 是 正 权 还 是 负 权 就 没有 关系 了 。 

考虑 函数 U2T,(x) = B2T,(U28B,,(x)) ， 其 输入 是 一 个 O~2"-1 之 间 的 值 ， 得 到 一 个 -2 一 2 一 1 
之 间 的 值 ， 这 里 两 个 数 有 相同 的 位 模式 ， 除 了 参数 是 无 符号 的 ， 而 结果 是 以 二 进 制 补 码 表 示 的 。 相 反 
Hi, PRILT2U (x) = B2U,,(T2B,,(x) 生成 一 个 无 符号 数 ， 它 和 x 的 二 进 制 补 码 值 有 相同 的 位 表示 。 例 
如 ,如 图 2.10 所 示 , -12 345 的 16 位 二 进 制 补 码 表示 就 和 53 191 的 16 位 无 符号 表示 相同 ,因此 ,T2Ue(-12 
345)=53 191， 并 且 U27,.(53 191)= -12 345. 

这 两 个 函数 看 上 去 好 象 只 有 理论 价值 ， 但 实际 上 它们 有 非常 大 的 实际 意义 一 一 它们 形式 化 地 定 
义 了 C 中 有 符号 和 无 符号 值 之 间 的 强制 类 型 转换 的 结果 。 例 如 ， 设 想 在 一 台 二 进 制 补 码 机 器 上 执行 
下 列 代 码 : 

l1 int x = -1; 

2 unsigned ux = (unsigned) x; 

因为 从 图 2.9 中 我 们 可 以 看 到 -1 的 w 位 二 进 制 补 码 表 示 和 UMaxw 有 相同 的 位 表示 ,所 以 这 段 代 
人 码 将 把 ux 设置 为 UMax,, AP w 是 数据 类 型 int 中 的 位 数 。 一般 而 言 ， 从 一 个 有 符号 值 x 强制 类 型 
转换 到 无 符号 数值 (unsigned) x 就 相当 于 应 用 函数 T2U。 强 制 类 型 转换 并 没有 改变 参数 的 位 表示 ， 
只 是 改变 了 如 何 将 这 些 位 解释 为 一 个 数字 。 相 似 地 ， 从 无 符号 值 u 强制 类 型 转换 到 有 符号 值 (intju 
束 相 当 于 应 用 函数 U2T.，。 


-o ASM 2.18 
利用 你 解答 练习 题 2.16 时 填写 的 表格 ， 填 写 下 列 描述 函数 TOU, 的 表格 ; 
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为 了 更 好 地 理解 一 个 有 符号 数字 x 和 与 之 对 应 的 无 符号 数 NU, 我 们 可 以 利用 它们 有 相间 
的 位 表示 这 一 事实 来 推导 出 一 个 数字 关系 。 比 较 等 式 2.1 和 22, 我 们 可 以 发 现 对 于 位 模式 x*， 如 果 
我 们 计算 B2U,(x) - BT, M 0 到 w-2 的 位 的 加 权 和 将 互相 抵消 掉 ， 剩 下 一 个 值 : 
B2UA(#) B27,A(x)=x-1(2”-2”)=xw12”"。 这 就 得 到 一 个 关系 。B2U,(x)=x,12” + B2T (3) WE 
我 们 让 x= B2T,,(x)， 我 们 就 有 

B2U,(T2B,, (x)) = 72U OO = xa +x (2.3) 

这 个 关系 对 于 证 明 无 符号 和 二 进 制 补 码 运 算 之 间 的 关系 是 很 有 用 的 。 在 x 的 二 进 制 补 码 表示 

中 ， 位 x,_ 1 决定 了 x 是否 为 负 ， 得 到 


wW 
x+2", x<0 (2.4) 
x, x20 


T2U (x) = | 


图 21 说 明了 函数 TU 的 行为 。 就 像 它 所 说 明 的 ， 当 将 一 个 有 符号 数 映 射 为 它 相应 的 无 符号 
数 时 ， 负 数 就 被 转换 成 了 大 的 正 数 ， 而 非 负数 会 保持 不 变 。 


. ow 
+ ASH 


tae" 


RB c- 


一 0OW 1 | 


图 2.11 从 二 进 制 补 码 到 无 符号 数 的 转换 
函数 T2U 将 负数 转换 为 大 的 正 数 。 


练习 题 2.19 
请 说 明 等 式 2.4 是 如 何 应 用 到 你 在 解答 练习 题 2.18 时 生成 的 表格 中 的 各 项 的 ， 
有 反 过 来 看 ， 我 们 希望 推导 出 一 个 无 符号 数 x 和 与 之 对 应 的 有 符号 数 UT (xz) 之 间 的 关系 。 如 果 
我 们 设 x= B2U(3), RNG 
B2T,(U2B,(x)) = U2Tx) = -x,,2" +x (2.5) 
在 x 的 无 符号 表示 中 ,位 x RET x 是 否 大 于 或 者 等 于 2"-1， 得 到 
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WwW 一 | 
U2T.(x) = 和 x< (2.6) 
x-2”, x227! 
图 2.12 说 明了 这 个 行为 。 对 于 小 的 数 〈<2” )， 从 无 符号 到 有 符号 的 转换 将 保留 数字 的 原 值 。 
对 于 大 的 数 (>2” )， 数 字 将 被 转换 为 一 个 负数 值 。 


二 进 制 补 码 


2.12 ”从 无 符号 数 到 二 进 制 补 码 的 转换 
函数 U2T 把 大 于 2° '-1 的 数字 转换 为 负 值 。 


为 了 纪 绪 一 下 ， 我 们 可 以 考虑 无 符号 与 二 进 制 补 码 表示 之 间 互 相 转 换 的 结果 。 对 于 在 范围 0 
<xY<2” 之 内 的 值 而 言 ， 我 们 得 到 T2D. CD = 和 UT, 0o0 =x。 也 就 是 说 ， 在 这 个 范围 内 的 数字 
有 相同 的 无 符号 和 二 进 制 补 码 表示 。 对 于 这 个 范围 以 外 的 数值 ， 转 换 需 要 加 上 或 者 减 去 2”. Bi 
如 ， 我 们 有 T2U, (-1) = -1+ 2" = UMax 一 一 最 靠近 0 的 负数 映射 为 最 大 的 无 符号 数 。 在 另 一 个 
极端 ,我们 可 以 看 到 了 2D CTMin)=-2 +2"=2 = TMax, + 1 一 一 最 小 的 负数 映射 为 一 个 刚好 
住 二 进 制 补 码 的 正 数 范围 之 外 的 无 符号 数 。 使 用 图 2.10 的 示例 ,我 们 能 看 到 T2U16(-12 345) = 65 
563 + -12 345 = 53 191. 


224 C 中 的 有 符号 与 无 符号 数 

如 图 2.8 所 示 , C 支持 所 有 整 型 数据 类 型 的 有 符号 和 无 符号 运算 。 尽 管 C 标准 没有 指定 某 种 有 
符号 数 的 表示 ， 但 是 几乎 所 有 的 机 器 都 使 用 二 进 制 补 码 。 通 常 ， 大 多 数 数字 默认 都 是 有 符号 的 。 
例如 ， 当 声明 一 个 像 12345 或 者 0x1A2B 这 样 的 常量 时 ， 这 个 值 就 被 认为 是 有 符号 的 。 要 创建 一 个 
无 符号 常量 ， 必 须 加 上 后 缀 字符 “U” 或 者 “u”( 例 如 ，1234S8U 或 者 0x1A2Bu)。 

C 允许 无 符号 数 和 有 符号 数 之 间 的 转换 。 原则 是 基本 的 位 表示 保持 不 变 。 因此, 在 一 台 二 进 制 
补 码 机 器 上 ， 当 从 无 符号 数 转换 为 有 符号 数 时 ， 效 果 就 是 应 用 函数 U2T,,.， 而 从 有 符号 数 转换 为 无 
符号 数 时 ， 就 是 应 用 函数 T2U,,， 其 中 w 表示 数据 类 型 的 位 数 。 

显 式 的 强制 类 型 转换 将 导致 转换 的 发 生 ， 就 像 下 面 的 代码 : 


1 aint tx, ty; 
2 unsigned ux, uy; 


4 tx 
5 uy 


(int) ux; 
(unsigned) ty; 


思 外 ， 当 一 种 类 型 的 表达 式 被 赋值 给 另外 一 种 类 型 的 变量 时 ， 转 换 是 隐 式 发 生 的 ， 就 像 下 面 
的 代码 : 


l int tx, ty; 
2 unsigned ux, uy; 
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3 

4 tx = ux; /* Cast to signed */ 

5 uy = ty; /* Cast to unsigned */ 

“478 printf 来 输出 数值 时 ， 指 示 符 %d、%u Max 分 别 用 来 以 有 符号 十 进 制 、 无 符号 十 进 制 和 
十 六 进 制 格 式 来 输出 一 个 数字 。 注 意 printf 没有 使 用 任何 类 型 信息 ， 所 以 它 可 以 用 指示 符 %u 来 输 
出 类 型 int 的 数值 ， 也 可 以 用 指示 符 %d 输出 类 型 unsigned 的 数值 。 例 如 ， 考 虑 下 面 的 代码 : 

1 int x = -l; 

unsigned u = 2147483648; /* 2 to the 31st */ 


d\n", X, xX}; 
d\n", u, u}; 


当 在 一 个 32 位 机 器 上 运行 时 ， 它 的 输出 如 下 : 

x = 4294967295 = -1 

u = 2147483648 = -2147483648 

在 这 两 个 示例 中 ，printf 首先 将 这 个 字 作 为 一 个 无 符号 数 输出 ， 然 后 把 它 当 作 一 个 有 符 与 数 输 
出 。 我 们 可 以 看 看 实际 运行 中 的 转换 函数 : T2U3(-1) = UMaxy = 4 294 967 295 Al U2T3,(2°') = 2” — 
2% =— 2" = TMiny. 

由 于 C 对 同时 包含 有 符号 和 无 符号 数 的 表达 式 的 处 理 方式 ， 出 现 了 一 些 奇特 的 行为 。 当 执行 
一 个 运算 时 ， 如 果 它 的 一 个 运算 数 是 有 符号 的 而 另 一 个 是 无 符号 的 ， 那 么 C 会 隐 含 地 将 有 符号 参 
数 强 制 类 型 转换 为 无 符号 数 ， 并 假设 这 两 个 数 都 是 非 负 的 ， 来 执行 这 个 运算 。 不 像 我 们 会 看 到 的 ， 
这 种 方法 对 于 标准 的 算术 运算 来 说 并 无 多 大 差异 ， 但 是 对 于 像 < 和 > 这 样 的 关系 运算 符 来 说 ， 它 会 
守 狼 与 自觉 不 相符 的 结果 。 图 2.13 展示 了 一 些 关 系 表达 式 的 示例 以 及 它们 得 到 的 求 值 结果 ， 这 里 
假设 使 用 的 是 一 台 32 位 机 器 和 二 进 制 补 码 表 示 。 与 直觉 不 相符 的 情况 用 “*” 标 出 来 了 。 考 虑 一 
下 比较 式 -1<0U。 因 为 第 二 个 运算 数 是 无 从 号 的 ， 所 以 第 一 个 运算 数 就 会 隐 含 地 转换 为 无 符号 数 ， 
因此 表达 式 就 等 价 于 4294967295U<0U 回想 一 下 72U,(-1) = UMax,)， 这 个 答案 显然 是 错 的 。 男 
外 那些 示例 也 可 以 通过 相似 的 分 析 来 理解 。 


2 
3 
4 printft("* = $u 
5 printfi"u = $u 


0 == QU 
-1 < Q 
-] < OU 


2147483647 > -2147483547-1 
2147483647U > -2147483647-1 
2147483647 > (int) 2147483648U 
-1 > -2 


(unsigned) -1 > -2 


图 2.13 32 位 机 器 上 C 的 升级 规则 (promotion rule) 的 效果 
非 直观 的 情况 被 标注 了 “*”， 当 比较 表达 式 中 的 任 -运算 数 是 无 符号 的 时 候 ， 另 - -个 运算 数 也 被 隐 式 强制 转换 为 无 符号 。 在 
C 中 ， 为 避免 洪 出 后 题 ， 我 们 必须 把 TMin_32 写 为 -2147483647-1， 而 不 是 -2147483648。 编 译 器 处 理 -个 形 为 -X 的 表达 式 
的 方法 是 首先 读 表 达 式 X， 然 后 对 它 取 反 ， 但 是 21474836478 太 大 了 ， 不 能 表示 为 一 个 32 位 的 、 进 制 补 码 的 数 。 
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假设 在 采用 二 进 制 补 码 运算 的 32 位 机 器 上 对 这 些 表达 式 求 值 ， 按 照 图 2.13 MRS, BER, 
描述 强制 类 型 转换 和 关系 运算 的 结果 : 


表 A 式 


-2147483648 < -21474836487 
(unsigned) -2147483648 < -21474836487 BC 


-2147483648 < 21474836487 
(unsigned) -2147483648 < 21474836487 


22.5 扩展 一 个 数字 的 位 表示 

一 个 和 常见 的 运算 是 在 不 同 字 长 的 整数 之 间 转 换 ， 同 时 又 保持 数值 不 变 。 当 然 ， 当 目标 数据 类 
型 太 小 了 ， 以 至 于 不 能 表示 想 机 的 值 时 ， 这 可 能 根本 就 是 不 可 能 的 。 然 而 ， 从 一 个 较 小 的 数据 类 
型 转换 到 一 个 较 大 的 类 型 ， 应 该 总 是 可 能 的 。 要 将 一 个 无 符号 数 转换 为 一 个 更 大 的 数据 类 型 ， 我 
们 只 要 简单 地 在 表示 的 开头 添加 0. RPS HRM ASL A (zero extension)。 要 将 一 个 二 进 制 补 
码 数 字 转 换 为 一 个 更 大 的 数据 类 型 ， 规 则 是 执行 一 个 符号 扩展 (sign extension)， 在 表示 中 添加 最 
高 有 效 位 的 值 。 因 此 ,如 果 我 们 原始 值 的 位 表示 为 [W152，,… Xo] MAP RAW RAR AL, 
Xy-1» XTw-is Xw 2 ts Xole 


例如 ， 考 虑 下 面 的 代码 : 


1 short sx = val; /* -12345 */ 

2 unsigned short usx = sx; /* 53191 */ 

3 int x = sx; /* -12345 */ 

4 unsigned ux = usx; /* 53191 */ 

5 

6 printf ("sx = $d:\t", sx); 

7 show_bytes((byte_pointer) &sx, sizeof (short) ) ; 
8 printf("usx = %u:\t", usx}; 

9 show_bytes((byte_pointer) &usx, sizeof (unsigned short)); 
10 printf ("x = $d:\t", x); 

11 show_bytes((byte_pointer) &x, sizeof(int)); 


| 
D 


printf ("ux = $u:\t", ux); 
13 show_bytes((byte_pointer) &ux, sizeof (unsigned}}.; 


在 使 用 二 进 制 补 码 表示 的 32 位 大 端 法 机 器 上 运行 这 段 代码 时 ， 将 会 打印 出 如 下 输出 ; 


sx = -12345: cf c7 
usx = 53191: cf c7 
x = -12345: ff ff cf c7 
ux = 53191: 00 00 cf c7 
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我 们 看 到 ， 尽 管 -12 345 的 二 进 制 补 码 表 示 和 53 191 的 无 符号 表示 在 16 位 字 长 时 是 相同 的 ， 
但 是 在 32 位 字 长 时 却 是 不 同 的 。 特 别 地 ，-12 345 的 十 六 进 制 表示 为 0xXFFFFCFC7， 而 53 191 的 
十 六 进 制 表示 为 0x0000CFC7。 前 者 使 用 的 是 符号 扩展 一 一 16 个 最 高 有 效 位 1， 表 示 为 十 六 进 制 束 
是 0xFFFF， 被 加 作 开 头 的 位 。 后 者 使 用 16 个 0 来 扩展 ， 表 示 为 十 六 进 制 就 是 0x0000。 

我 们 如 何 证 明 符 号 扩展 工作 得 正确 呢 ? 我 们 想 要 证 明 的 是 BZT, (DT 
xo) = B2T,([xw_1，xw_2;“…，x0])， 这 里 ， 在 左手 边 的 表达 式 中 ， 我 们 增加 了 个 位 x 的 副本 。 
证 明 是 对 进行 归纳 。 也 就 是 说 ， 如 果 我 们 能 够 证 明 符 号 扩展 一 位 保持 了 数值 不 变 ,那么 符号 扩展 
任意 位 都 能 保持 这 种 属性 。 因 此 ， 证 明 的 任务 就 变 为 了 : 


B2T,, ,1([x,_ 1, vers Xw-1 Xw-1? Xw-2? ery xol) 一 B2T,([xXy-1 Xy23 ms xol) 


用 等 式 2.2 展开 左手 边 的 表达 式 ， 会 得 到 ， 


w-i 
B2T 4% y-p Ayw-p Xw- Xo) 一 -ap + D2 
i 二 人 0 


w-2 
_ _ wW w~ 1 i 
= -X12 +x,_,2 +9 x2 
i=0 


w-2 . 
= -x (2” 一 2% 十 Sx? 
i=0 


= B2T ([xX,_p Xy-23 Xol) 
我 们 使 用 的 关键 属性 是 -2* + 2" = -2 。 因 此 , 加 上 一 个 权 值 为 -2* FAR PB A-2] 
的 位 转换 为 一 个 权 值 为 2” 的 位 ， 两 项 运算 的 综合 效果 就 会 保持 原始 的 数值 。 
值得 一 提 的 是 ， 从 一 个 数据 大 小 到 另 一 个 数据 大 小 ， 以 及 无 符号 和 有 符号 数字 之 间 的 转换 的 
相对 顺序 能 够 影 啊 一 个 程序 的 行为 。 考 虑 我 们 前 面 那个 例子 的 如 下 额外 代码 : 


unsigned uy = x; /* Mystery! */ 


1 

2 

3 printft("uy = $u:\t", uy); 

4 show_bytes((byte_pointer) &uy, sizeof (unsigned) ); 
这 部 分 代码 产生 如 下 输出 : 

uy = 4294954951: ff ff cf c7 

这 表明 表达 式 : 

(unsigned) (int) sx /* 4294954951 */ 

和 

(unsigned) (unsigned short) sx /* 53191 */ 


产生 了 不 同 的 数值 ， 即 使 原始 的 和 最 后 的 数据 类 型 是 相同 的 。 在 前 一 个 表达 式 中 ， 我 们 首先 将 16 
位 的 short 符号 扩展 为 32 位 的 int， 而 在 后 一 个 表达 式 中 执行 的 则 是 零 扩 展 。 
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% 3) 2.21 
考虑 下 面 的 C BK: 
int funi(unsigned word) 
{ 
return (int) ((word << 24) >> 24); 
} 
int fun2(unsigned word) 


{ 


return ((int) word << 24) >> 24; 


} 


假设 在 一 个 使 用 二 进 制 补 码 运算 的 32 位 字 长 的 机 器 上 执行 这 些 函 数 . 还 假设 有 符号 数值 的 右 移 
是 昔 本 右 移 ， 而 无 符号 数值 的 右 移 是 逻辑 右 移 。 
A. 填 与 下 表 ， 说 明 这 些 函 数 对 几 个 示例 参数 的 结果 : 


B. 用 语言 来 描述 这 些 函 数 执行 的 有 用 的 计算 。 


2.2.6 截断 数字 

假设 不 用 额外 的 位 来 扩展 一 个 数值 ， 我 们 会 减少 表示 一 个 数字 的 位 数 。 例 如 在 下 面 的 代码 中 
ALA TIX AT 

1 aint x = 53191; 

2 short sx = (short) x; /* -12345 */ 

3 int Y = SX; /* -12345 */ 


E ARAR 32 ile bh, “ABUT x 强制 类 型 转换 为 short 时 ， 我 们 就 将 32 位 的 int 截断 
为 了 16 位 的 short int。 就 像 我 们 前 面 所 看 到 的 ， 这 个 16 位 的 模式 就 是 -12 345 的 二 进 制 补 码 表示 。 
当 我 们 把 它 强制 类 型 转换 回 int 时 ， 符 号 扩展 把 高 16 位 设置 为 1， 从 而 生成 -12 345 的 32 位 二 进 制 
补 码 表示 。 

当 将 一 个 w 位 的 数 X=[X wits Twas Xo] LEK A — A kk 位 数字 时 ， 我 们 会 丢弃 高 wk 位 ， 得 到 
ARE an xz x0o]。 截 断 一 个 数字 可 能 会 改变 它 的 值 一 一 溢出 的 一 种 形式 。 我 们 现在 来 
研究 一 下 什么 数值 将 产生 这 种 情况 。 对 于 一 个 无 符号 数字 x， 截 断 它 到 大 位 的 结果 就 相当 于 计算 x 
mod 2.。 通 过 应 用 模 运 算 到 等 式 2.1 就 可 以 看 到 : 
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w I 
B2U (Lx, %y-15° -*,Xg |) mod 2* = p | mod 2* 
i=O0 


k-l 
= 252! [moaz 
i=0 
al ne 
= > x2 
:=O 


= B2U ([ x, .X4-1.°°-s Xo) 
在 这 段 推导 中 ， 我 们 利用 了 属性 : 对 于 任何 2k, 2' mod 2‘ =0 AY 42's S12 =2'-1<2 


对 于 个 二 进 制 补 码 数 字 Xs 相似 的 推理 表明 B2T,, AESA Xw-1>°°°, Xol) mod 2" = B2U,[x,, Ahly 
Xo] 也 就 是 ， x mod Z 能 够 被 一 个 位 级 表示 为 [x 1,…， x0] 的 无 符号 数 表示 。 个 过 ， -Pme 我 们 
将 截断 的 数字 视 为 有 符号 的 。 这 将 得 到 数值 U2T,(x mod 2%). 
总 而 言 之 ， 截 断 的 结果 如 下 所 示 : 
B2U, [Xr Xi, xo] = B2U, (Deus xD， mod 2* (2.7) 
B27, (xk. AD Xo) = U2T, (B2T, (Dive x 1,°*, Xl) mod 29 (2.8) 


练习 题 2.22 
假设 我 们 将 一 个 四 位 数值 (用 十 六 进 制 数字 0~ 下 表示 ) 截断 到 一 个 三 位 数值 ( 用 十 六 进 制 数 
字 0~ 7 表示 )。 填 写 下 表 ， 根据 那些 位 模式 的 无 符号 和 二 进 制 补 码 表示 ， 说 明 这 种 截断 对 某 些 情况 


二 进 制 补 码 


解释 等 式 2.7 和 2.8 是 如 何 应 用 到 这 些 示例 上 的 . 


227 ”关于 有 符号 数 与 无 符号 数 的 建议 

就 像 我 们 看 到 的 那样 ， 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 导致 了 其 些 与 Fa ‘oe AN AB FF AY 
行为 。 而 这 些 与 直觉 不 相符 的 特性 经 常 导 致 程序 错误 ， 并 且 包 含 隐 式 强 制 类 型 转换 的 细微 差别 的 
销 误 很 难 被 发 现 。 因 为 这 种 强制 类 型 转换 是 看 不 到 的 ， 我 们 经 常 忽视 了 它 的 影响 。 


练习 题 2.23 
ARP AR, 这 段 代码 试图 计算 数组 a 中 所 有 元 素 的 和 ， 其 中 元 素 的 数量 由 参数 length 给 出 ; 
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1 /* WARNING: This is buggy code */ 

2 float sum elements (float af], unsigned length) 
3 { 

int 1; 

float result = 0; 

for (i = 0; i <= length-1; 14+) 


result += ali]; 
return result; 


e go o wu nN oO B 


0 } 

当 运 行 时 参数 length 等 于 堆 ， 这 段 代码 应 该 返回 00. 但 实际 上 ， 代 码 会 遇 到 存储 器 〈《memory ) 
错误 。 请 解释 为 什么 会 发 生 这 样 的 情况 ， 并 且说 明 该 如 何 修改 代码 ， 

避免 这 类 错误 的 一 种 方法 就 是 绝 不 使 用 无 符号 数 。 实 际 上 ， 除 了 C 以 外 很 少 有 语言 支持 无 符 
号 整数 。 很 明显 ， 这 些 其 他 语言 的 设计 者 认为 它们 的 朵 烦 要 比 益 处 多 得 多 。 比 如 ，Java RRA 
符号 整数 ， 并 且 要 求 以 二 进 制 补 码 运算 来 实现 。 正 常 的 右 移 运算 符 >> 被 定义 为 执行 算术 右 移 。 特 
殊 的 运算 符 >>> 被 指定 为 执行 逻辑 右 移 。 

当 我 们 想 要 把 字 仅 仅 看 做 是 位 的 集合 而 没有 任何 数字 意义 时 ， 无 符号 数值 是 非常 有 用 的 。 例 
如 ， 往 一 个 字 中 放 入 描述 各 种 布尔 条 件 的 标记 (flag) 时 ， 就 是 这 样 。 地 址 自然 是 无 符号 的 ， 所 以 
系统 程序 员 发 现 无 符号 类 型 是 很 有 帮助 的 。 当 实现 模 运算 和 多 精度 运算 的 数学 包 时 ， 数 字 是 由 字 
的 数组 来 表示 的 ， 无 符号 值 也 会 非常 有 用 。 


2.3 整数 运算 
许多 刚 入 门 的 程序 员 非 常 惊奇 地 发 现 ， 两 个 正 数 相 加 会 得 出 一 个 负数 ， 而 且 比较 表达 式 x<y 


和 比较 表达 式 x-y<0 会 产生 不 同 的 结果 。 这 些 属性 是 计算 机 运算 的 有 限 性 造成 的 。 理解 计算 机 运算 
的 细微 之 处 能 够 帮助 程序 员 编 号 果 可 徘 的 代码 。 


2.3.1 无 行 号 加 法 

考虑 两 个 非 负 整数 x 和 y， 满 足 0 <x, y < 2”-1。 每 个 数 都 能 表示 为 w 位 无 符号 数字 。 然 而 ， 
如 果 我 们 计算 它们 的 和 , 我 们 就 有 一 个 可 能 的 范围 0<x+y<2”-2。 表示 这 个 和 可 能 需要 wl 位 。 
例如 ， 图 2.14 展示 了 当 x My 有 四 位 表示 时 ， 函 数 x+ y 的 坐标 图 。 参数 〈 显 示 在 水 平 轴 上 ) RE 
范围 为 0~1$， 但 是 和 的 取 值 范围 为 0 一 30。 函 数 的 形状 是 一 个 有 坡度 的 平面 。 如 果 我 们 保持 和 为 
一 个 wel 位 的 数字 ， 并 且 把 它 加 上 另外 一 个 数值 ， 我 们 可 能 需要 w+2 个 位 ， 以 此 类 推 。 这 种 持续 
的 “ 字 长 膨胀 ”意味 着 ， 要 想 完 整地 表示 算术 运算 的 结果 ， 我 们 不 能 对 字 长 做 任何 限制 。 一 些 编 
FSS, BIG Lisp， 实 际 上 就 支持 无 限 精度 的 运算 ， 人 允许 任意 的 (当然 ， 要 在 机 器 的 存储 器 限制 
ZA) 整数 运算 。 更 常见 的 是 ， 编 程 语言 支持 固定 精度 的 运算 ， 因 此 像 “ 加 法 ”和 “乘法 ”这 样 
的 运算 不 同 于 它们 在 整数 上 的 相应 运算 。 

无 符号 运算 可 以 被 视 为 一 种 形式 的 模 运算 。 无 符号 加 法 等 价 于 计算 模 2” 的 和 。 可 以 通过 简单 
WEF x+y 的 w+1l 位 表示 的 高 位 ， 来 计算 这 个 数值 。 比 如 ， 考 虑 一 个 四 位 数字 表示 ， 好 9 和 y=12 
的 位 表示 分 别 为 [1001] 和 [1100]。 它们 的 和 是 21, 五 位 的 表示 为 [10101]。 但 是 如 果 我 们 丢弃 最 高 位 ， 
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我 们 就 得 到 [0101]， 也 就 是 说 ， 十 进 制 值 的 $。 这 就 和 值 21 mod 16=5 一致。 
整数 加 法 


图 “.14 整数 加 法 
对 于 一 个 四 位 的 字 长 ， 其 和 可 能 需要 五 位 。 


X + y 
Qwtt 


OM , 


0 + 
A215 整数 加 法 和 无 符号 加 法 间 的 关系 
当 x+y 大 于 2*-1 时 ， 其 和 将 溢出 。 


一 般 而 言 ， 我 们 可 以 看 到 ， 如 果 x+y< 2”， 和 的 w 位 表示 中 的 最 高 位 会 等 于 0， 因此 丢弃 
它 不 会 改变 这 个 数值 。 另 一 方面 ， 如 果 2"<x+y< 2*1， 和 的 w+1 位 表示 中 的 最 高 位 会 等 于 1， 
此 丢弃 它 就 相当 于 从 和 中 减 去 了 2". 图 2.15 说 明了 这 两 种 情况 。 这 会 得 到 一 个 范围 0<x+y- 2”< 
2” -2*=2* 中 的 值 ,刚好 等 于 x 与 y 的 和 ,然后 模 2 的 结果 。 让 我 们 来 定义 参数 x Ay 的 运算 +u ， 
这 里 0<xy<2"*， 如 下 : 


“Ss x+y, x+y<2” 
(2.9) 


x+y—2”, 2” Sxty<2™! 
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RIEU te dE C PET PAS v 位 无 符号 数值 加 法 时 我 们 得 到 的 结果 。 

次 一 个 算术 运算 溢出 了 ， 是 指 完整 的 整数 结果 不 能 放 到 数据 类 型 的 字 长 限制 中 去 。 如 等 式 2.9 
所 未 ， 当 两 个 运算 数 的 和 为 2" 或 者 更 大 时 ， 就 发 生 了 溢出 。 图 2.16 展示 了 字 长 为 4 的 无 符号 加 法 
冰 数 的 坐标 图 。 这 个 和 是 按 模 2=16 填 算 的 。 当 x+y<16 时 ， 没 有 溢出 ， 并 且 x+ y 就 是 xX+y。 这 对 
应 于 图 中 标记 为 “正常 ”的 斜面 。 当 x+y> 16 时 ， 加 法 溢出 ， 结 果 相 当 于 从 和 中 减 去 16。 这 对 应 
于 图 中 标记 为 “ 洲 出 ”的 斜面 。 

SAT C 程序 时 ， 不 会 将 溢出 作为 错误 而 发 信号 。 不 过 有 的 时 候 ， 我 们 可 能 希望 判定 是 否 发 
生 了 滋 出 。 比 如 ,假设 我 们 计算 *=x+wy， 并 且 我 们 想 要 判定 是 否 等 于 x+y。 我 们 声称 当 且 仅 当 
sxx 《或 者 等 价 地 s<y) 时 ， 发 生 了 溢出 。 要 弄 明白 这 一 点 ， 请 注意 x+y>x， 因 此 如 果 s* 没有 溢出 ， 
我 们 能 够 肯定 之 x。 另 一 方面 ， 如 果 * 确实 溢出 了 ， 我 们 就 有 ss= x+y- 2"。 假 设 yY< 2"， 我 们 就 有 
y<2 <0, 内 此 ss=x+y-2”<x。 在 我 们 前 面 的 示例 中 ， 我 们 看 到 9+"12 =5。 既 然 S<9， 我 们 就 
可 以 看 出 发 生 了 溢出 。 


无 符号 加 法 〈 四 位 字 长 ) 


Ei 4 A 
be hw 


Y 
n | 
- | ¥ ¥ y i 
É —_ ¥ - y ' 
ä A. 
YYY vIn: 
AAA 
_ 和 NN 
N l a, AAAA "e 
= SAAN | 
NEMES TINN 
(a) 
o 
‘ 


A216 AAS MH 
使 用 四 位 字 长 ， 加 法 是 模 16 的 。 


模 数 加 法 形成 了 一 种 数学 结构 , 称 为 阿 贝 尔 群 (Abelian group), 这 是 以 丹麦 数学 家 Niel Henrik 
Abel (1802 一 1829) 的 名 字 命名 的 。 也 就 说 ， 它 是 可 交换 的 〈 这 就 是 为 什么 叫 “Abelian” 的 地 方 ) 
和 可 结合 的 。 它 有 一 个 单位 元 0， 并 且 每 个 元 素 有 一 个 加 法 逆 元 。 让 我 们 考虑 这 样 一 种 情况 : w 位 
的 无 符号 数 的 集合 ， 执 行 加 法 运算 +4 。 对 于 每 个 值 x， 必然 有 茶 个 值 -wx 满足 -4 x+ux=0。 当 
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x=0 时 ， 加 法 逆 元 显然 是 0。 对 于 x> 0， 考 虑 值 2" - x。 我 们 观察 到 这 个 数字 在 0< 2x <2" 范围 


之 内 ， 并 且 (x + 290mod2"=2”" mod 2” =0。 因 此 ， 它 就 是 x 在 +% 下 的 逆 元 。 这 两 种 情况 就 导出 
了 对 于 0<x< 2" 的 等 式 : 


x, x=0 
y= | (2.10) 


练习 题 2.24 


我 们 能 用 一 个 十 六 进 制 数字 来 表示 长 度 w=4 的 位 模式 。 对 于 这 些 数字 的 无 符号 解释 ， 使 用 等 式 
2.10 填写 下 表 ， 给 出 所 示 数 字 的 无 符号 加 法 北 元 的 位 表示 〈 用 十 关 进 制 形 式 ) 


ea a Ce 


3 | ff 
EL | | | 
FT | | o 


2.3.2 二进制 补 码 加 法 

对 于 二 进 制 补 码 加 法 也 有 类 似 的 问题 。 给 定 在 范围 -2” < x, ys "12h 的 整数 值 x 和 y E 
们 的 和 就 在 范围 -2” <x+y<2"-2 之 内 ， 可 能 需要 w+1 位 来 表示 。 就 像 以 前 一 样 ， 我 们 通过 将 表示 
截断 到 w 位 ， 来 避免 数据 大 小 的 扩张 。 然 而 ， 结 果 在 数学 上 却 不 像 模 数 加 法 那样 。 

两 个 数 的 w 位 二 进 制 补 码 之 和 与 无 符号 之 和 有 完全 相同 的 位 级 表示 。 实 际 上 ， 大 多 数 计算 机 使 
用 同样 的 机 器 指令 来 执行 无 符号 或 者 有 符号 加 法 。 因 此 , 我 们 能 够 定义 字 长 为 w 的 二 进 制 补 码 加 法 ， 
企 运 算数 x 和 y 上 表示 为 的 +' ， 满 足 -2”' <x, y<2”1: 


x+y y = U2T,(T2U,(x) +4, T2U,(y)) (2.11) 
根据 等 式 2.3， 我 们 可 以 把 7T2U,(%) 写 成 x 12*+x， 把 T2U,()) 写 成 yw12 + y。 使 用 属性 ， 即 + 
是 模 2* 的 加 法 ， 以 及 模 数 加 法 的 属性 ， 我 们 就 能 得 到 : 
x+y y = U2T,(T2U,,(x)+" T2U,(y)) 

= U2T,[(-x,42” +x+-y,,,2” +y)mod2”] 
U2T, (x+y) mod2”} 
消除 了 xt_12” 和 y,_12” 这 两 项 ， 因 为 它们 模 2” 等 于 0。 
为 了 更 好 地 理解 这 个 数量 ， 让 我 们 定义 z 为 整数 和 z=xty, Azzz mod 2, Mz A 


z =U2T (2) 。 数 值 z” SF xt y。 我 们 把 分 析 分 解 成 四 种 情况 ， 如 图 2.17 所 示 。 
1. -2"<z<-2” 。 然 后 ， 我 们 将 有 z= z+2*。 这 就 得 出 0<z <2 4220" 检查 等 式 2.6， 我 
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们 看 到 z 在 满足 z =z 的 范围 之 内 。 这 种 情况 被 称 为 负 滋 出 (negative overflow)。 我 们 将 两 个 负数 x 
Aly 相 加 (这 是 我 们 能 得 到 z < -2” 的 惟一 方式 )， 得 到 一 个 非 负 的 结果 z=x+ y+2”。 

2.-2”<z<0。 那么 ， 我 们 又 将 有 z = z+2"， 得 到 -2 +2"=2”1I<z<2"。 检 查 等 式 2.6， 我 们 看 
到 z 在 满足 z=z -2 的 范围 之 内 ， 因 此 z=z -2” =z+2"-2"=z。 也 就 是 说 ， 我 们 的 二 进 制 补 码 和 好 
ST BAA X + yo 

3.0<z<2”。 那 么 ， 我 们 将 有 z= z， 得 到 0<z< 2“1， 因 此 z=z= >z。 二 进 制 补 码 和 zz” 又 等 
于 整数 和 x+ yo 

4.2” <z<2"。 那 么 , RINKA z =z 得 到 2“'<z < 2。 但 是 在 这 个 范围 内 , RING “= 27-2", 
得 到 z= x+ 六 2"。 这 种 情况 被 称 为 正 洪 出 〈positive overflow). RATHER x Aly 相 加 (也 是 我 们 
能 得 到 z> 2” 的 惟一 方式 )， 得 到 一 个 负数 结果 2”=x+y-2”。 


x+y 
+2" 9 
情况 4 
+2w-—1 
情况 2 
0 
情况 3 
— pw 
情况 1 


A217 整数 和 二 进 制 补 码 加 法 之 间 的 关系 
当 x+y 小 于 -2” 时， 产生 负 溢出 。 当 它 大 于 OGL, FEER. 
通过 前 面 的 分 析 ， 我 们 可 以 给 出 当 对 在 范围 -2” <x ,yc<2”-1 之 内 的 x 和 y 实 施 运 算 +! 时 ， 
我 们 有 下 面 这 样 的 式 子 : 


2 正 溢出 
x+, y = x+y, 一 2”<x+y<2”! ER (2.12 ) 
2 人 负 洲 出 


作为 说 明 ， 图 2.18 展示 了 一 些 四 位 二 进 制 补 码 加 法 的 示例 。 每 个 示例 的 情况 都 被 标号 为 对 应 
于 等 式 2.12 的 推导 过 程 中 的 情况 。 注 意 2 = 16， 因 此 负 溢 出 得 到 的 结果 比 整 数 和 大 16， 而 正 溢出 
得 到 的 结果 比 之 小 16。 我 们 包括 了 运算 数 和 结果 的 位 级 表示 。 我 们 可 以 观察 到 ， 能 够 通过 对 运算 
数 执行 二 进 制 加 法 并 将 结果 截断 到 四 位 ， 从 而 得 到 结果 。 

图 2.19 阐述 了 字 长 w =4 的 二 进 制 补 码 加 法 。 运 算数 的 范围 为 -8 一 7 之 间 。 当 x+y< -8 时 ， 
二 进 制 补 码 加 法 就 会 负 溢 出 , 导致 和 增加 了 16。 当 -8 <x+y<8 时 , 加 法 就 产生 x+y。 当 x+y>8， 
加 法 就 会 正 溢出 ， 使 得 和 减少 了 16。 这 三 种 情况 中 的 每 一 种 都 形成 了 图 中 的 一 个 斜面 。 
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FA 2.12 也 让 我 们 认 出 了 哪些 情况 下 会 发 生 溢出 。 当 x 和 yy 都 是 负数 ， 但 是 x+' y>0 时 ,我 
们 就 会 得 到 负 滋 出 。 —_— 但 是 x+vy<0 时 ， 我 们 会 得 到 正 溢出 。 


图 2.18 二进制 补 码 加 法 示例 
可 以 通过 执行 运算 数 的 二 进 制 加 法 并 将 结果 截断 到 四 位 ， 来 获得 四 位 二 进 制 补 码 和 的 位 级 表示 。 


二 进 制 补 码 加 法 (四 位 字 长 ) 


图 2.19 ”二进制 补 码 加 法 
在 字 长 为 四 位 的 情况 下 ， 当 x+y< -8 时 ， 加 法 会 产生 负 溢出 ， 而 当 x+y>8 时， 会 产生 正 溢出 。 


练习 题 2.25 


按照 图 2.18 的 风格 填写 下 表 . 请 给 出 五 位 参数 的 整数 值 、 它们 的 整数 和 二 进 制 补 码 和 的 数值 、 
二 进 制 补 码 和 的 位 级 表示 ， 以 及 根据 等 式 2.12 推导 的 情况 . 
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| 
EE | | 
ml | A 
manml | | 
Toma em | | 
wm | | 


2.3.3 二进制 补 码 的 非 

我 们 可 以 看 到 范围 -2” < x < 2” 中 的 每 个 数字 x MA + 下 的 加 法 逆 元 ; 首先 ,对 于 zx 关 -2” ， 
我 们 可 以 看 到 它 的 加 法 逆 元 就 是 -x。 也 就 是 ， 我 们 有 -2” < -x < 2” 和 -xz+vx=-xY+z=0。 另 一 方 
面 ， 对 于 x= -2” = TMin,，-x = 2” 不 能 被 表示 为 一 个 w 位 的 数 。 我 们 声明 ， 这 个 特殊 值 本 身 就 是 
CE +, 下 的 加 法 赣 元 。-2 +t -2” 的 值 由 等 式 2.12 的 第 三 种 情况 给 出 ， 因 为 -2” 4-2" = -2”。 
这 得 到 -2”“ + -2” = -2" + 2"= 0。 从 这 个 分 析 中 ， 我 们 可 以 定义 对 于 范围 -2 <x < 2” AN x, 
二 进 制 补 码 的 非 运算 (negation operation) MF: 


-1 -1 
， -2 x=-2" 
=X = 


-\ 
— X, x>-2” 


(2.13) 


练习 题 2.26 


我 们 可 以 用 一 个 十 六 进 制 数 字 来 表示 长 度 w=4 的 位 模式 .对 于 这 些 数字 的 二 进 制 补 码 的 解释 ， 
填写 下 表 ， 确 定 所 示 数 字 的 加 法 逆 元 ， 


对 于 二 进 制 补 码 和 无 符号 (练习 题 2.24) 非 (negation) 产生 的 位 模式 ， 你 观察 到 什么 ? 


一 种 有 名 的 用 来 执行 位 级 二 进 制 补 码 的 非 (negation) 的 技术 是 ， 对 每 个 位 取 反 (或 取 补 )， 然 
后 将 结果 加 1。 在 C 中 ,这 可 以 写成 x+1。 为 了 验证 这 种 技术 的 正确 性 ， 可 以 观察 ， 对 于 每 个 位 z， 
BATA; = 1 一 x。 设 区 是 一 个 长 度 为 w 的 位 向 量 ，x= BRT (2) 是 它 表 示 的 二 进 制 补 码 数 。 根 据 等 
式 2.2， 取 友 了 的 位 向 量 -让 有 如 下 数值 ; 
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B2T ( x) = -apt F 0-2 
i=0 
= - 2” 十 $y | - - x2” 1+ yx | 
i=0 i=0 
= [-2” +2"! -1]- B27, (x) 
= -1-x 

上 述 推导 中 ， 关 键 的 简化 是 ”2 =2”! -1 。 只 要 将 "加 1， 我 们 就 能 得 到 -x T. 

要 将 位 级 表示 为 这 = [x wi Xe, MOAB x 加 1, 将 运算 incr 定义 为 : 设 大 为 最 右边 的 0 的 位 置 ， 
ORE eA AIEEE Rs Nua, 0, bot, 1]。 然 后 , 我们 将 incr aE NA Lax ,x2 Mears L, 
0,…, 0]。 对 于 x 的 位 级 表示 为 [1, 1…, 1] 的 特殊 情况 ， 将 incr x) XAO., 0]。 为 了 说 明 incr( x ) 
得 到 的 是 x+,,1 的 位 级 表示 ， 考 虑 下 面 的 情况 : 

1. 4% = [1 1,…, 1 时 ， 我 们 有 xz= -1。 被 增加 的 值 incr( 六 =[0，…，0] 有 数值 0。 

2. 4 k=w-1Ħf, B z=[0, 1,…, 1] 时， 我们 有 x= TMax,,。 被 增加 的 值 incr( 动 =[1,0…,0] 有 数值 
TMinw。 从 等 式 2.12， 我 们 可 以 看 到 TMax, +, 1 是正 溢 出 的 情况 之 一 ， 得 到 TMin,,. 

3, 当 k<w-l WN, x4 Max, Axee-1 时 ， 我 们 可 以 看 出 incra) KIIR k+ 1 位 有 数值 2 ， 


k-i 
T x BHE k+ 1 位 的 数值 为 >z =2* -1。 它 们 的 高 w-k+ 1 位 有 相同 的 数值 。 因 此 ，incr( 忆 有 数值 
ix<O 


x+1o XJF, XF xe TMaxw， 对 x 加 1 不 会 导致 溢出 ， 因 此 x+,,1 也 等 于 x+1。 
正如 说 明 的 那样 ， 图 2.20 展示 了 取 反 (或 取 补 ) 和 加 1 是 如 何 影 响 几 个 站 位 向 量 的 数值 的 。 


[0101] [1010] [1011] - 
[0111) [1000] [1001} 


[1100] [0011) [0100] 
[0000] [1111] [0000] 
[1000] [01i11} [1000] 


FA 2.20 取 反 (或 取 补 ) 和 增加 四 位 数字 的 示例 

效果 就 是 计算 二 的 值 的 非 。 
2.3.4 无 符号 乘法 

WH O < x, ys 2-1 内 的 整数 x 和 y 可 以 被 表示 为 w 位 的 无 符号 数字 ， 但 是 它们 的 乘积 x . y 的 
取 值 范围 为 0 一 02-1) = 2°"-2"41 之 间 。 这 可 能 需要 2w 位 来 表示 。 不 过 ，C 中 的 无 符号 乘法 被 定 
义 为 产生 2w 位 的 整数 乘积 的 低 w 位 表示 的 值 。 根 据 等 式 2.7， 我 们 可 以 看 出 这 等 价 于 计算 模 2* 的 
Rik. TAC, w 位 无 符号 乘法 运算 Oo 的 效果 为 

x *) y= (x-y)mod 2” (2.14) 
大 家 都 知道 模 运 算 形 成 了 环 。 因 此 我 们 可 以 推出 w 位 数字 上 的 无 符号 运算 形成 了 环 ({0,…,2”-1)， 
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u u u 
Hyo wyo we D, 1). 


2.3.5 二进制 补 码 乘法 

范围 -2"-: < x, y<2”-1 内 的 整数 x My 可 以 被 表示 为 w 位 的 二 进 制 补 码 数字 ， 但 是 它们 的 乘 
积 x :y 的 取 值 范围 为 -2* . (-2” -1 = -2 2 ~2” -2” = -2 之 间 。 要 想 用 二 进 制 补 码 来 
表示 这 个 乘积 ,可 能 需要 2w 位 大 多 数 情况 下 只 需要 2w-1 位 ,但 是 特殊 情况 2” “需要 2w 位 ( 包 
括 一 个 符号 位 0)。 然 而 ，C 中 的 有 符号 乘法 是 通过 将 2w 位 的 乘积 截断 为 w 位 来 实现 的 。 根 据 等 式 
2.8, w 位 的 二 进 制 补 码 乘法 运算 *;, 的 效果 为 : 


x * y= U2T,((x - y) mod 2”) (2.15) 
我 们 认为 对 于 无 符号 和 二 进 制 补 码 乘 法 来 说 ， 乘 法 运算 的 位 级 表示 都 是 一 样 的 。 也 就 是 ， 给 定 
KEA w 的 位 向 量 + 和 3》， 无 符号 乘积 BU, BU, 的 位 级 表示 与 二 进 制 补 码 乘积 


BIT, (%)*w BT, (5 的 位 级 表示 相同 。 这 表明 机 器 可 以 用 一 种 滋 法 指令 来 进行 有 符号 和 无 符号 整数 的 乘 
法 。 


为 了 看 消 这 一 点 ， 设 x = B27T,(xX) 和 y = B27T,,(3) 是 这 些 位 模式 表示 的 二 进 制 补 码 值 ， 而 
x’ = B2U ,(X) 和 y = B2U ,, (9) 是 这 些 位 模式 表示 的 无 符号 值 。 根据 等 式 2.3, 我 们 有 x = xxyy?” 
Aly = y+ yw-12”。 计 算 这 些 值 的 模 2” 乘积 得 到 以 下 结果 : 
(x's y)mod 2” = ((x+x%,-)2") - (yt y,-12")] mod 2” 
= [x y+ (XY + Vy)” + Xy-p¥y12°” ] mod 2” 
= (x-y) mod 2” 
因此 ,x.y Aly y 的 低 w 位 是 相同 的 。 
正如 说 明 的 那样 ， 图 2.21 展示 了 不 同 的 三 位 数字 乘法 的 结果 。 对 于 每 对 位 级 运算 数 ， 我 们 既 执 


行 无 符号 乘法 ， 也 执行 有 符号 乘法 。 注 意 ， 无 符号 已 截断 乘积 总 是 等 于 x . y mod 8， 而 且 两 个 已 截 
类 乘积 的 位 级 表示 是 相同 的 。 


ERS 5 [101] 3 [011] 15 [001111] 7 [111] 

二 进 制 补 码 -3 [1011 3 [011] -9 [110111] -1 111] 
无 符号 4 [100] 7 [111] 28 [011100] 4 [1001 

二 进 制 补 码 -4 [100] -1 [111] 4 [000100] -4 [100] 
无 符 与 3 [011] 3 (O11) 9 [001001] | [001] 
二 进 制 补 码 3 [011] 3 [011] 9 [001001] ] [001] 


图 2.21 三 位 无 符号 和 二 进 制 补 码 乘法 示例 
虽然 完整 的 滋 积 的 位 级 表示 可 能 会 不 同 ， 但 是 已 截断 乘积 的 位 级 表示 是 相同 的 ， 
练习 题 2.27 
填写 下 表 ， 说 明 不 同 的 三 位 数字 来 法 的 结果 ， 按 照 图 2.21 的 风格 ， 


(2.16) 
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无 符号 [110] [010] 
二 进 制 补 码 [110] [010] 


无 符号 [001] [111] 
二 进 制 补 人 码 [001] [1111 


无 符号 
HAME 


我 们 可 以 看 出 ,，w 位 数字 上 的 无 符号 运算 和 二 进 制 补 码 运算 是 同 构 的 一 一 运算 + o Fy 和 
+h. io l 有 相同 的 位 级 效果 。 据 此 , 我 们 可 以 推断 出 二 进 制 补 码 运算 形成 了 环 ({-2”,…;,2”-1)， 


t 
+! ,| saw > 0, Ll}. 


2.3.6 FEL 2 he | 

在 大 多 数 机 器 上 ,整数 乘法 指令 相当 地 慢 ， 需 要 12 或 者 更 多 的 时 钟 周期 ， 然 而 其 他 整数 运 
算 一 一 例如 加 法 、 减 法 、 位 级 运算 和 移 位 一 一 只 需要 1 个 时 钟 周期 。 因 此 ， 编 译 器 使 用 的 一 项 重要 
的 优化 就 是 试 着 用 移 位 和 加 法 运算 的 组 合 来 代替 乘 以 常数 因子 的 乘法 。 

Bx 为 位 模式 [x 1, ya xo] 表 示 的 无 符号 整数 。 那 么 , 对 于 任何 k>0, 我 们 都 认为 x2* 的 位 级 
表示 是 由 [zw Xt Xo, 0,…, 0] 给 出 的 ， 这 里 右边 增加 了 个 0。 这 个 属性 可 以 通过 等 式 2.1 推导 出 
来 : 


wl 
NC = E2 
i=0 


= Dy d . ok 
= x2* 

对 于 上 >wWw， 我 们 可 以 将 移 位 了 的 位 问 量 截断 到 长 度 w, Ewki xwx.2,…, xo, 007°, 0]。 根 据 等 
式 2.7， 这 个 位 向 量 的 数值 为 x2* mod?” =x! 24 。 因 此 ， 对 于 无 符号 变量 x，C 表达 式 x<<k 等 价 
F x * pwr2k， 这 里 pwr2k 等 于 2。 特别 地 ， 我 们 可 以 用 1U<<k 来 计算 pwr2k。 

通过 类 似 的 推理 ， 我 们 可 以 给 出 ， 对 于 一 个 位 模式 为 [kx xwzxo] 的 二 进 制 补 码 数 x, ARG 
围 0<k< wm 内 任意 的 上 ， 位 模式 [cei Sweats Xo 0…,0] 就 是 xxt 2* 的 二 进 制 补 码 表示 。 因 此 ， 对 
于 有 符号 变量 x，C 表达 式 x<<k 等 价 于 x*pwr2k， 这 里 pwr2k 等 于 2". 

注意 ， 无 论 是 无 符号 运算 还 是 二 进 制 补 码 运算 ， 乘 以 2 的 项 都 可 能 会 导致 游 出 。 我 们 的 结果 表 
明 ， 即 使 溢出 的 时 候 ， 我 们 通过 移 位 得 到 的 结果 也 是 一 样 的 。 


练习 题 2.28 


就 像 我 们 将 在 第 3 章 中 看 到 的 那样 ，Intel 兼容 的 处 理 器 上 的 leal 指令 能 够 执行 a<<k+b 形式 的 
计算 ， 这 里 K 或 者 等 于 0、1 或 2， 而 口 等 于 0， 或 者 等 于 某 个 程序 值 。 编 译 器 常常 用 这 条 指令 来 执 
行 常 数 因子 乘法 。 例如， 我 们 可 以 用 ac<<1:+a 来 计算 3*a, 
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用 这 条 指令 可 以 计算 a 的 哪些 倍数 ? 


2.3.7 RRA 2 We 

在 大 多 数 机 器 上 ， 整数 除法 要 比 整数 乘法 更 慢 一 一 需要 30 或 者 更 多 的 时 钟 周 期 。 除 以 2 Et 
可 以 用 移 位 运算 来 实现 ， 只 不 过 我 们 用 的 是 右 移 ， 而 不 是 左 移 。 对 于 无 符号 和 和 二进制 补 码 数 ， 分 别 
使 用 逻辑 移 位 和 算术 移 位 来 达到 目的 ， 

整数 除法 总 是 舍 入 到 0 的 。 对 于 x > 0 和 y >0， 结 果 会 是 [x/yj， 这 里 对 于 任何 实数 a, Laje y 
为 惟一 的 整数 a ， 使 得 a < a<a + 1. PIM, L3.14]=3, |-3.14)=-4 La] =3. 

考虑 在 一 个 无 符号 数 上 执行 逻辑 右 移 的 效果 。 设 x 为 位 模式 [xw, woe, xo] 表 示 的 无 符号 整数 ， 
而 k 的 取 值 范围 为 0<k<wo 设 x 为 w -大 位 表示 [x Xan" «esl AF ME i OAR MRA [Ke 


xol MAS BM. 我 们 有 * =l) 证 明 如 下 : 根据 等 式 2.1, 我 们 有 a Y= 2 


和 x”= > onz 。 因 此 ， 我 们 可 以 把 x 写 为 zx= 2 +x, TRB OSx’s= P02! =2 -1, Bi 
osx <2, cena. “2 \=0. Ak, Lxf2*|=| x+y’ /2 =x | x /=x 

可 以 观察 到 ， 对 位 向 量 [x, 1, x,，,…, BAB MABE 

[OQ ， 0, Xw-ls XTX, Xe] 

XAMRA REx. ERE. E-TOC RW 2. Ak, + 
无 符号 变量 x, CRER x>>k 等 价 于 x/pwr2k， 这 里 pwr2k 等 价 于 2*。 

现在 考虑 对 一 个 二 进 制 补 码 数 进行 算术 右 移 的 结果 .。 设 x 为 位 模式 [x 1, x2,…, xo] 表 不 的 二 进 制 
补 码 整数 , 而 大 的 取 值 范围 为 0<K<wmw。 设 地 为 W 天 位 局 表示 的 二 进 制 补 码 数 ， 而 A 
IR k BZD, 如] 表示 的 无 符号 数 。 通 过 对 无 符号 情况 的 类 似 分 析 , 我 们 有 x=2:x4x ,而 0<x<2， 
得 到 x = Lz2 |。 此 外 ， 我 们 可 以 观察 到 ， 算 术 右 移 位 向 量 Lr。 ,xx x0] 位 ， 得 到 位 向 量 

bo] 

它 刚好 束 是 将 De Meret, eA wk OEE ST RE w 位 。 因 此 ， 这 个 移 位 了 的 位 向 量 就 是 | x/yJ 
的 二 进 制 补 码 表示 。 

对 于 zz>z0， 我 们 的 分 析 表 明 这 个 移 位 的 结果 就 是 所 期 望 的 值 。 不 过 ， 对 于 x<0 和 >0， 整 数 
除法 的 结果 应 该 是 |x/y |， 这 里 ， 对 于 任何 实数 a, 「al 被 定义 为 使 得 a -1 < a <a’ 的 惟一 整数 a'。 也 就 
是 说 ， 整 数 除法 应 该 将 为 负 的 结果 向 上 朝 零 舍 入 。 例 如 ，C 表达 式 -5/2 得 到 -2。 因 此 ， 当 有 舍 入 发 
生 时 ， 将 一 个 负数 右 移 上 位 不 等 价 于 把 它 除 以 2%。 例 如 ，-5 的 四 位 表示 为 [1011]。 如 果 我 们 将 它 算 
术 右 移 一 位 ， 我 们 得 到 {1101]， 这 是 -3 的 二 进 制 补 码 表 示 。 

我 们 可 以 通过 在 移 位 之 前 “ 偏 置 (biasing)” 这 个 值 ， 修 正 这 种 不 合适 的 含 入 。 这 种 技术 利用 的 
是 这 样 一 个 属性 :对 于 整数 x 和 有 y> 0 的 [x/y1=【(x + y_1)/yj。 因 此 ， 对 于 x < 0， 如 果 我 们 在 
右 移 之 前 ， 先 将 x 加 上 2-1， 那 么 我 们 就 会 得 到 正确 舍 入 的 结果 了 。 这 个 分 析 表 明 对 于 使 用 算术 三 
移 的 二 进 制 补 码 机 器 ，C 表达 式 


(x<0 ? (x + (1<<K) - 1) : x) >> k 


等 价 于 x/pwr2k, 这 里 pwr2k 等 于 2。 例如 , -5 除 以 2, 我 们 先 加 上 偏 置 数 2-1= 1, 得 到 位 模式 [1100]。 
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将 这 个 值 算术 右 移 1 位 得 到 位 模式 [1110]， 这 是 -2 的 二 进 制 补 码 表示 。 


练习 题 2.29 
在 下 面 的 代码 中 ， 我 们 省 略 了 常数 M 和 NN 的 定义 : 


#define M /* Mystery number 1 */ 

#define N /* Mystery number 2 */ 

int arith(int x, int y) 

{ 
int result = 0; 
result = x*M + y/N; /* M and N are mystery numbers. */ 
return result; 


} 
我 们 以 某 个 M 和 N 的 值 编译 这 段 代 码 。 编 译 器 用 我 们 讨论 过 的 方法 优化 乘法 和 除法 。 下 面 是 
将 产生 出 的 机 器 代码 翻译 回 C 语言 的 结果 : 


/* Translation of assembly code for arith */ 
int optarith(int x, int y) 
{ 

int t = X: 

xX <<= Å; 

x -z= t; 

if (y < 0) y += 3; 

y >>= 2; /* Arithmetic shift */ 

return x+y; 


} 
M 和 NN 的 值 为 多 少 ? 


练习 是 2.30 7 
假设 我 们 在 对 有 符号 值 使 用 二 进 制 补 码 运算 的 32 位 机 器 上 运行 代码 ,对 于 有 符号 值 使 用 的 是 算 
木 右 移 ， 而 对 于 无 符号 值 使 用 的 是 还 辑 右 移 。 变 量 的 声明 和 初始 化 如 下 : 


int x = foo();: /* Arbitrary value */ 
int y = bar(); /* Arbitrary value */ 


unsigned ux = x; 

unsigned uy = y; 

对 于 下 面 每 个 C 表 达 式 ,或 者 证 明 对 于 所 有 的 x 和 y 值 ， 它 都 为 真 (等 于 1), 或 者 给 出 使 得 它 
AR (等 于 0) 的 x 和 yy 的 值 : 

A. (x >= 0) 11 {{2*x) < D) 

B. (xX & 7) f= 7 || (x<<30 < 0) 

C. (x * x) >= 0 

D. x < O || -x «<= 0 

E 


. X> Ol) -x >= 0 
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F. x*y == ux*uy 
G. .X*y + uy*ux == -y 


24 浮 点 


浮 点 表示 对 形 如 V=x*2 的 有 理 数 进 行 编 码 。 它 对 执行 含有 非常 大 的 数字 (1VI>>0)、 非 常 接近 
于 0 (Vl<<1) 的 数字 ， 以 及 更 普遍 地 作为 实数 运算 的 近似 值 的 计算 ， 是 很 有 用 的 。 

直到 20 世纪 80 年 代 ， 每 个 计算 机 制造 商都 设计 了 和 上 自己 的 表示 浮 点 数 的 规则 ， 以 及 对 浮 点 数 
执行 运算 的 细节 。 男 外 ， 他 们 常常 不 会 太 多 地 关注 运算 的 精确 性 ， 而 把 实现 的 速度 和 简便 性 看 得 
比 数字 精确 性 更 重要 。 

大 约 在 1985 年 ， 这 些 情 况 随 着 IEEE 标准 754 的 推出 而 改变 了 ， 这 是 一 个 仔细 制订 的 表示 
浮 点 数 及 其 运算 的 标准 .这 项 工作 是 从 1976 年 Intel 发 起 8087 的 设计 开始 的 ,8087 是 一 种 为 8086 
处 理 器 提供 浮 点 支持 的 芯片 。 他 们 雇佣 了 William Kahan， 加 州 大 学 伯克利 分 校 的 一 位 教授 ， 作 
为 帮助 设计 未 来 处 理 器 浮 点 标准 的 顾问 。 他们 支持 Kahan 加 入 一 个 IEEE 资助 的 制订 工业 标准 的 
委员 会 。 这 个 委员 会 最 终 采 纳 了 一 个 非常 接近 于 Kahan 为 Intel 设计 的 标准 。 有 目前 ， 实 际 上 所 有 
的 计算 机 都 支持 这 个 后 来 被 称 为 IEEE 浮 点 的 标准 。 这 大 大 改善 了 科学 应 用 程序 在 不 同 机 器 上 的 
可 移植 性 。 
Sit: EEE (电气 和 电子 工程 师 协会 ) 

电气 和 电子 工程 师 协会 (IEEE 一 一 读 做 “I-Triple-E”) 是 一 个 包括 所 有 电子 和 计算 机 技术 的 专业 
团体 。 它 出 版 刊物 、 举 办 会 议 ， 并 且 建 立 协会 团体 来 定义 标准 ， 内 容 涉及 从 电力 传输 到 软件 工程 。 


FARTS, BATA SI IEEE 浮 点 格式 中 数字 是 如 何 被 表示 的 。 我 们 还 将 探讨 会 入 (rounding ) 
的 问题 ， 当 一 个 数字 不 能 被 准确 地 表示 为 这 种 格式 ， 因 此 必须 被 向 上 调整 或 者 向 下 调整 时 ， 就 会 
出 现 舍 入 。 然 后， 我 们 将 探讨 加 法 、 乘 法 和 关系 运算 符 的 数学 属性 。 许 多 程序 员 认 为 浮 点 最 没 意 
思 ， 而 且 最 深奥 难 懂 。 我 们 将 看 到 ， 因 为 IEEE 格式 是 定义 在 一 组 小 而 一 致 的 原则 上 的 ， 所 以 它 实 
际 上 是 相当 优雅 和 容易 理解 的 。 


2.4.1 二 进 制 小 数 

理解 六 后 数 的 第 一 步 是 考虑 含有 小 数值 的 二 进 制 数字 。 首 先 ， 让 我 们 来 看 看 更 熟悉 的 十 进 制 
表示 法 。 十 进 制 表示 法 使 用 这 样 形式 的 表示 ， Cord ido.d dd p» 其 中 每 个 十 进 制 数 d; 的 取 
值 范 围 在 0~9 之 间 。 这 个 表达 式 描述 的 数 d 定义 如 下 : 


d = S10! xd, 
数字 的 权 被 定义 为 和 十 进 制 小 数 点 符号 “.” 相 关 ， 这 意味 着 点 左边 的 数字 的 权 是 10 HE, 


得 到 整数 但 ， 而 点 右边 的 数字 的 权 是 10 HAR, BBM. 。 例 如 ，12.34io ERKE 


1x10+2x100+3x101 +4x107 -2# o 


类 似 地 ， 考虑 一 个 形 如 bmbm-1°**bibo.b-ib.2°*°b., 的 表示 法 ， 其 中 每 个 二 进 制 数字 ， 或 者 称 为 位 ， 
bi; 的 取 值 范围 是 在 0 一 1 之 间 。 这 种 表示 方法 表示 的 数 b 定义 如 下 : 
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b = S12! xb, (2.17) 
符号 “.” 现 在 变 为 了 二 进 制 的 点 ， 点 左边 的 位 的 权 是 2 MER, ABH 2 MA. in, 
LOL 1p RABE x? +0x2! 41x29 +1x21+1x2?=440+1+ 了 + 了 =57。 
从 等 式 2.17 中 可 以 很 容易 地 看 出 ， 问 左 移动 二 进 制 小 数 点 一 位 相当 于 这 个 数 被 2 除 。 例 如 ， 
1 1 


10L11; 表 示 数 5 ， 而 10.111, SAME 2+ 0+ 广 + 二 + 二 = 2 。 类 似 地 ， 向 右 移动 二 进 制 小 数 点 一 位 相 


当 于 将 该 数 乘 2。 例 如 1011.1, 表示 数 8+0+2+1+5=11 。 


注意 形 如 0.11…1 的 数 表示 的 是 刚好 小 于 1 的 数 。 例 如 ， OM ARS 我 们 将 用 简单 的 表 
达 法 1.0-e 来 表示 这 样 的 数值 。 

假定 我 们 仅 考虑 有 限 长 度 的 编码 ， 那 么 十 进 制 符号 是 不 能 准确 地 表达 像 = 和 二 这 样 的 数 的 。 类 
似 地 ， 小 数 的 二 进 制 表示 法 只 能 表示 那些 能 够 被 写成 x x 2 的 数 。 其 他 的 值 只 能 够 被 近似 地 表示 。 
例如 ， 虽 然 加 长 二 进 制 表示 能 够 提高 近似 表示 数 二 的 精度 ， 但 是 我 们 并 不 能 把 它 准确 地 表示 为 一 个 
二 进 制 数 ， 


a [a | a 
om fe | te 


2 
3 
soot, 118%. 
6 
0.00110, 0.187510 
13 
0.001101 0.203125, 
26 
0.0011010, 0.203125 
0.00110011 2! | 919921875 
。 2 156 . 10 
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练习 题 2.31 
填写 下 表 中 的 缺失 的 信息 : 


“小 数值 | 二进制 表 示 十 进 制 表示 


3 
8 


23 

16 

~ foo S 
i 


“练习 类 2.32 

洋 点 运算 的 不 精确 性 能 够 产生 灾难 性 的 后 果 。1991 年 2 月 25 日 ， 在 海湾 战争 期 间 ， 沙 特 阿拉 
伯 的 达 摩 地 区 设置 的 美国 爱国 者 导弹 ， 拦 截 伊 拉克 的 飞毛腿 导弹 失败 。 飞 毛 腿 导 弹 击 中 了 美国 的 一 
个 兵营 ,造成 28 名 士兵 死亡 。 美 国 总 审计 局 (GAO) 对 失败 原因 做 了 详细 的 分 析 [52]， 并 且 确 定 潜 
在 的 原因 在 于 一 个 数字 计算 不 精确 。 在 这 个 练习 中 ， 你 将 重 现 总 审计 局 分 析 的 一 部 分 。 

爱国 者 导弹 系统 中 含有 一 个 内 置 的 时 钟 ， 实 现 为 一 个 计数 器 ， 每 0.1 HHA 1。 为 了 以 秒 为 单 


位 来 确定 时 间 ， 程序 将 用 一 个 24 位 的 近似 于 土 的 二 进 制 小 数值 来 来 以 这 个 计数 器 的 值 . 特别 地 ，- 


10 
的 二 进 制 表达 式 是 无 穷 序 列 
0.000110011[0011]…: 
其 中 ， 方 括号 里 的 部 分 是 无 限 重 复 的 。 计 算 机 只 用 这 个 序列 的 开头 位 和 二 进 制 小 数 点 右边 的 头 
23 位 来 近似 地 表示 0.1。 我 们 称 这 个 数 为 x。 
A.x-0.1 的 二 进 制 表 示 是 什么 ? 
B. x-0.1 的 近似 的 十 进 制 值 是 多 少 ? 
C. 当 系 统 初始 启动 时 ， 时 钟 从 0 开始 ， 并 且 一 直 保 持 计数 ,在 这 个 例子 中 ， 系 统 已 经 运行 了 大 
约 100 个 小 时 。 程 序 计算 的 时 间 和 实际 的 时 间 之 差 为 多 少 ? 
D. 系统 根据 一 枚 来 袭 的 的 导弹 的 速率 和 它 最 后 被 雷达 侦 测 到 的 时 间 ， 来 预测 它 将 在 哪里 出 现 . 
假定 飞毛腿 的 速率 大 约 是 2000 米 每 秒 ， 对 它 的 预测 偏差 了 多 少 ? 
正 第 地 ， 一 个 通过 一 次 读 取 时 钟 得 到 的 绝对 时 间 中 的 轻微 错误 不 会 影响 跟踪 的 计算 。 反 而 ， 它 
应 访 依 赖 于 两 次 连续 的 读 取 的 之 间 的 相对 时 间 。 问 题 是 爱国 者 导弹 的 软件 已 经 升级 成 使 用 更 精确 的 
函数 来 读 取 时 间 ， 但 是 不 是 所 有 的 函 孝 调 用 都 用 新 的 代码 替换 了 。 结 果 就 是 ， 跟 踪 软 件 使 用 了 一 次 
读 取 的 是 精确 的 时 间 ， 但 其 他 软件 读 取 的 是 不 精确 的 时 间 [71]， 
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24.2 IEEE 浮 点 表示 

像 前 一 节 中 谈 到 的 位 置 表 示 法 不 能 很 有 效 地 表示 非常 大 的 数字 。 例如 , 表达 式 5 x 2” 的 表示 是 
HH 101 后 面 跟随 100 个 零 的 位 模式 组 成 的 。 相反 地 ,我们 希望 通过 给 定 x My 的 值 , 来 表示 形 如 xx 
2 的 数 。 

IEEE 浮 点 标准 用 V=(-1) x M x2: 的 形式 来 表示 一 个 数 : 

。 符号 (sign) s 决定 数 是 负数 (s=1) 还 是 正 数 〈s=0)， 而 对 于 数值 0 的 符号 位 解释 作为 特殊 

情况 处 理 。 

。 有 效 数 (significand) M 是 一 个 二 进 制 小 数 ,， 它 的 范围 在 1 一 2-e 之 间 ， 或 者 在 0 一 1-e 之 间 。 

e 指数 (exponent) E 是 2 MR CORE RED, CREA ENF ARID. 

浮 点 数 的 位 表示 被 划分 为 三 个 域 ， 以 编码 这 些 值 ， 

。 一 个 单独 的 符号 位 s 直接 编码 符号 so 

。 大 位 的 指数 域 exp = eri’ teie 编码 指数 E. 

。 nn 位 小 数 域 frac = 大 万 编码 有 效 数 M， 但 是 被 编码 的 值 也 依赖 于 指数 域 的 值 是 否 等 于 零 。 

在 单 精 度 浮 点 格式 〈C 语言 中 的 float) F, s, exp 和 frac 域 分 别 为 1 位、 好 8 位 和 n=23 位 ， 产 
生 一 个 32 位 的 表示 。 在 双 精 度 浮 点 格式 (C 语言 中 的 double) 中 , s, exp 和 frac 域 分 别 为 1 fie. k=11 
位 和 n=52 位 ， 产 生 一 个 64 位 的 表示 。 

给 定位 表示 ， 根 据 exp 的 值 ， 被 编码 的 值 可 以 分 成 三 种 不 同 的 情况 。 

规格 化 值 

这 是 最 署 通 的 情况 。 当 exp 的 位 模式 既 不 是 全 为 0( 数 值 0), 也 不 是 全 为 1( 单 精度 数值 为 255， 
双 精 度数 值 为 2047) 时 ， 就 都 属于 这 类 情况 。 在 这 种 情况 中 ， 指 数 域 解释 为 表示 偏 置 (biased) 形 
式 的 有 符号 整数 。 也 就 是 说 ， 指 数 的 值 是 已 = e-Bias, HP e 是 无 符号 数 ， 其 位 表示 为 epee 
而 Bias 是 一 个 等 于 2”--1( 单 精度 是 127， 双 精度 是 1023) 的 偏 置 值 。 由 此 产生 了 指数 的 取 值 范围 ， 
对 于 单 精 度 是 -126 一 +127， 而 对 于 双 精 度 是 -1022 一 +1023。 

小 数 域 frac 解释 为 描述 小 数值 f， 其 中 0<f< 1， 其 二 进 制 表示 为 0.f.1…fih， 也 就 是 二 进 制 小 
数 点 在 最 高 有 效 位 的 左边 。 有 效 数 定义 为 M = 1 + f。 有 时 ， 这 种 方式 也 叫做 隐 含 的 以 1 为 开头 的 

(implied leading 1) 表示 ， 因 为 我 们 可 以 把 M 看 成 一 个 二 进 制 表达 式 为 fifo has. BR 

我 们 总 是 能 够 调整 指数 E， 使 得 有 效 数 M 在 范围 1 < M< 2 之 中 (假设 没有 滋 出 )， 那 么 这 种 表示 方 
法 是 一 种 免费 获得 一 个 额外 精度 位 的 技巧 。 既 然 第 一 位 总 是 等 于 1， 那 么 我 们 就 不 需要 显 式 地 来 表 
示 它 了 。 

非 规格 化 值 

当 指 数 域 为 全 0 时 ， 所 表示 的 数 就 是 非 规格 化 形式 的 。 在 这 种 情况 下 ， 指 数值 是 已 = 1- Bias, 
而 有 效 数 的 值 是 站 =f， 也 就 是 小 数 域 的 值 ， 不 包含 隐 舍 的 开头 的 1。 


劳 注 ， 为 什么 对 于 非 规 格 化 值 要 这 样 设置 偏 置 值 ? 


使 指数 值 为 1-Bias 而 不 是 简单 的 ~Bias 似乎 是 违反 直觉 的 。 我们 将 很 快 看 到 ， 这 种 方式 提供 了 
一 种 从 非 规格 化 值 平 滑 转 换 到 规格 化 值 的 方法 。 


非 规格 化 数 有 两 个 目的 。 首 先 ， 它 们 提供 了 一 种 表示 数值 0 的 方法 ， 因 为 使 用 规格 化 数 ， 我 们 
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必须 总 是 使 M > 1， 因 此 我 们 就 不 能 表示 0。 实 际 上 ，+0.0 的 浮 点 表示 的 位 模式 为 全 0: 符号 位 是 0， 
指数 域 全 为 0 (表明 是 一 个 非 规 格 化 值 )， 而 小 数 域 也 全 为 0， 这 就 得 到 MM=f=0。 令 人 奇怪 的 十 ， 
当 符号 位 为 1， 但 是 其 他 域 全 为 0 时 ， 我 们 得 到 值 -0.0. 根据 IEEE 的 浮 点 格式 ， 值 +0.0 和 -0.0 TER 
些 方面 被 认为 是 不 同 的 ， 而 在 其 他 方面 是 相同 的 。 

非 规格 化 数 的 另外 一 个 功能 是 用 来 表示 那些 非常 接近 于 0.0 的 数 。 它 们 提供 了 一 种 属性 ， 称 为 
逐渐 溢出 〈gradual underflow)， 其 中 ， 可 能 的 数值 分 布 艾 匀 地 接近 于 0.0. 

特殊 数值 

最 后 一 类 数值 是 当 指 数 域 全 为 1 的 时 候 出 现 的 。 当 小 数 域 全 为 0 时 ,得 到 的 值 表 示 无 男 ,， 当 s= 
0 时 是 +o%， 或 者 当 s= 1 时 是 -ww。 当 我 们 把 两 个 非常 大 的 数 相 乘 ， 或 者 我 们 除 零 时 ， 无 穷 能 够 表 趟 
溢出 的 结果 。 当 小 数 域 为 非 零 时 ， 结 果 值 被 称 为 “NaN”， 就 是 “不 是 一 个 数 《Not a Number)” W 
缩写 。 一 些 运 算 的 结果 不 能 是 实数 或 无 穷 ， 就 会 返回 这 样 的 NaN 值 ， 比 如 当 计 算 V-! 或 -ce 时。 在 
某 些 应 用 中 ， 用 来 表示 未 初始 化 的 数据 ， 它 们 也 很 有 用 处 。 


2.4.3 数值 示例 

图 2.22 展示 了 一 组 数值 ， 它 们 可 以 用 假定 的 6 位 格式 来 表示 ， 有 k= 3 的 指数 位 和 n=2 的 有 效 
数位 。 偏 置 量 是 2”-1 = 3。 图 中 的 A 部 分 显示 了 所 有 可 表示 的 值 (除了 NaN )。 两 个 无 穷 值 在 两 个 
末端 。 规 格 化 数 具 有 的 最 大 数量 级 是 +14。 非 规格 化 数 聚 集 在 0 的 附近 。 在 图 的 B 部 分 中 ， 我 们 只 
展示 了 介 于 -1.0 和 +1.0 之 间 的 数值 ， 这 样 这 部 分 就 能 够 看 得 更 加 清楚 了。 两 个 零 是 特殊 的 非 规格 化 
数 。 可 以 观察 到 ， 那 些 可 表示 的 数 并 不 是 均匀 分 布 的 一 一 它们 在 越 靠近 原点 处 越 稠密 。 


图 2.22 6 位 浮 点 格式 可 表示 的 值 
Ak=3 的 指数 位 和 n= 2 的 有 效 数 位 。 偏 置 量 是 3， 


图 2.23 展示 了 假定 的 8 位 浮 点 格式 的 示例 ， 其 中 有 大 = 4 的 指数 位 和 n=3 的 小 数位 。 偏 置 量 
是 24L_1-7。 图 被 分 成 了 三 个 区 域 ， 来 描述 三 类 数字 。 从 0 开始 ， 最 靠近 0 的 是 非 规格 化 数 。 这 
种 格式 的 非 规格 化 数 的 E=1-7--6, 得 到 2E = 二 DBE RELATE LIE Oe 从 而 得 到 数 V 


7 7 


的 范围 是 0~ 一 — o 
8x64 512 


BF 
BE 
ker 
淋 
sji 
m 
m 
= 
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Q 0000 aad 


am 


最 小 的 非 规 格 化 数 0 0000 001 


oo lw wm ol] 
ol PIM 1 一 


0 6 
8 8 
7 7 
最 大 的 非 规格 化 数 一 一 
8 8 
8 8 
最 小 的 规格 化 数 0 0001 000 1 -6 0 一 -~ 
8 512 
0 0001 001 I 6 1 9 9 
8 8 512 
0 0110 110 6 | 6 14 14 
8 8 16 
0 0110 111 6 4 T 14 15 
8 8 16 
8 
1 0 0111 000 7 0 0 8 | 
8 
0 0111 001 7 0 1 9 9 
8 8 8 
0 0111 010 7 0 2 10 10 
8 8 8 
0 1110 110 14 7 2 wand 
8 8 
T 15 
最 大 的 规格 化 数 0 1110 111 14 7 一 一 240 
8 8 
EFK 9 1111 090 — — — — 100 


2.23 8 位 浮 点 格式 的 非 负 值 示例 
有 上 =4 的 指数 位 的 和 n= 3 的 有 效 数位 。 偏 置 量 是 7。 
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这 种 形式 的 最 小 规格 化 数 同样 有 巨 =1-7=-6， 并 且 小 数 取 值 范围 也 为 0.<… 二 。 然 而， 有 效 数 


之 间 。 


. 7 15 
范围 1+0=1~1+ 一 = 一 之 间 ， 得 出 数 V 在 范 
在 范围 sa J, AEA VE H S19 


可 以 观察 到 最 大 非 规格 化 数 — 和 最 小 规格 化 数 L 之 间 的 平滑 转变 ,这 种 平滑 性 归功 于 我 们 


对 非 规 格 化 数 E 的 定义 。 通 过 将 EE 定义 为 1-Bias， 而 不 是 _Bias， 这 样 我 们 可 以 补偿 非 规格 化 数 的 
有 效 数 没有 隐 含 的 开头 的 1. 

当 我 们 增 大 指数 时 ， 我 们 成 功 地 得 到 更 大 的 规格 化 值 ， 经 过 1.0， 然 后 得 到 最 大 的 规格 化 数 。 
这 个 数 具 有 指数 巨 = 7, 得 到 一 个 权 2 = 128. 小 数 等 于 二 得 到 有 效 数 M -5 ,因此 ,数值 是 站 = 240. 
超出 这 个 值 就 会 溢出 到 +oo。 

这 个 表达 式 具有 一 个 有 趣 属 性 ， 假 如 我 们 将 图 2.23 中 的 值 的 位 表达 式 解释 为 无 符号 整数 ， 它 
们 就 是 按 升序 排列 的 ， 就 像 它 们 表示 的 浮 点 数 一 样 。 这 不 是 偶然 的 一 IEEE 格式 如 此 设计 就 是 为 
了 浮 点 数 能 够 使 用 整数 排序 函数 来 进行 排序 。 当 处 理 负 数 时 ， 有 一 个 小 的 难点 ， 因 为 它们 有 开头 


的 1， 并 旦 它们 是 按照 降序 出 现 的 ， 但 是 不 需要 浮 点 运算 来 进行 比较 也 能 解决 这 个 问题 (参见 练 
习题 2.56)。 


练习 是 2.33 

假设 一 个 基于 IEEE 浮 点 格式 的 5 位 浮 点 表示 ， 有 1 个 符号 位 、2 个 指数 位 (大 =2) 和 两 个 小 数 
位 (n=2). 指数 偏 置 量 是 2”'-1 = 1， 

下 表 中 列举 了 这 个 5 位 浮 点 表示 的 全 部 非 负 取 值 范围 . 使 用 下 面 的 条 件 , 填写 表格 中 的 空白 项 : 

e: 假定 指数 域 是 一 个 无 符号 整数 所 表示 的 值 。 

E: Vea BZ O45 RAE. 

f: 小 数值 。 

M: 有 效 数 的 值 、 

V: 被 表示 的 数字 值 。 

用 形 如 于 的 小 数 表示 六 M 和 V 的 值 ， 被 “一 一 ”标注 的 条 目 不 用 填 ， 
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图 2.24 展示 了 一 些 重要 的 单 精 度 和 双 精 度 浮 点 数 的 表示 和 数字 值 根 据 图 2.23 中 展示 的 8 位 格 
式 ， 我 们 能 够 看 出 有 大 位 指数 和 严 位 小 数 的 祥 点 表示 的 一 般 属性 : 


最 小 非 规格 化 数 e e 277x271% 4.9x 10774 


最 大 非 规格 化 数 … e (1-eX2 1.2X103 (i-eyx2 © | 22x10% 
最 小 规格 化 数 vee 和 1x271% 1.2x 10° 1x 2°10 2.2x 10° 
l vee ve 1x 2° 1.0 1x2° 1.0 

最 大 规格 化 数 re 7 (2-2) X27 34x 10" (2~)« 213 1.8X 10 


图 2.24 FERS RRR 

© 值 +0.0 总 有 一 个 全 为 0 的 位 表示 。 

。 NBE (positive) 非 规 格 化 值 有 一 个 位 表示 ， 是 由 最 低 有 效 位 为 1 而 其 他 所 有 位 为 0 构 
成 的 。 它 具有 小 数 (MASA) 值 M =f= 2” 和 一 个 指数 值 巨 = -2 +2。 因 此 它 的 数字 值 
Eys, 

。 最 大 的 非 规 格 化 值 的 位 模式 是 由 全 为 0 的 指数 域 和 全 为 1 的 小 数 域 组 成 的 。 它 有 小 数 《〈 和 和 
有 效 数 ) 值 M = f= 1-2"( 我 们 写成 1-e) 和 指数 值 E= -2 +2。 因 此 ,数值 Y =(1-2"") x2? Y, 
这 仅 比 最 小 的 规格 化 值 小 一 点 。 

。 最 小 的 正 (positive) 规格 化 值 的 位 模式 的 指数 域 的 最 低 有 效 位 为 1， 其 他 位 全 为 0。 它 的 有 
效 数 值 M = 1， 而 指数 值 已 = -2 +2。 因 此 ， 数 值 y = 2 了 。 

。 {E 1.0 的 位 表示 的 指数 域 除 了 最 高 有 效 位 等 于 1 以 外 ， 其 他 位 都 等 于 0。 它 的 有 效 数值 是 
M=1， 而 它 的 指数 值 是 E= 0。 

© 最 大 的 规格 化 值 的 位 表示 的 和 付 号 位 为 0， 指数 的 最 低 有 效 位 等 于 0， 其 他 位 等 于 1。 它 的 小 


SUB f=1-2", ABR M =2-2”( 我 们 写作 2-e)。 指 数值 E= 2“!-1， 得 到 数值 V= (2-2") 
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x= (1-27) x 

对 理解 浮 点 表示 很 有 用 的 一 个 练习 是 把 样本 整数 值 转换 成 浮 点 形式 。 例 如 ， 在 图 2.10 中 我 们 看 
#12345 具有 二 进 制 表 示 [11000000111001]。 通 过 向 二 进 制 小 数 点 右边 移动 13 位 ， 我 们 创建 这 个 数 
的 一 个 规格 化 表示 ， 得 到 12345 = 1.1000000111001, x 2 - 。 为 了 用 IEEE 单 精 度 形式 来 编码 ， 我 们 丢 
FFA 1, 并 且 在 末尾 增加 10 个 0, 来 构造 小 数 域 , 得 到 二 进 制 表 示 [10000001110010000000000]。 
为 了 构造 指数 域 , 我 们 增加 偏 置 量 127 到 13, 得 到 140， 其 二 进 制 表示 为 [10001100]。 加 上 符号 位 0， 
我 们 就 得 到 二 进 制 的 浮 点 表示 [010001100100000011100100000000001]。 回 想 一 下 2.1.4 节 ， 我 们 观察 
到 整数 值 12345 (0x3039) 和 单 精 度 浮 点 值 1234$.0 (0x4640E400) 在 位 级 表示 上 有 下 列 关 系 : 


0 0 0 0 3 0 3 9 
0900000000000000000110000001110C1 


KAKKKKKEKKAKKAKKK 


4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


现在 我 们 可 以 看 到 ， 相 关 的 区 域 对 应 于 整数 的 低位 ， 刚 好 在 最 高 的 等 于 1 的 位 之 前 停止 (这 个 
frase Bae RFT ARI OZ 1)， 和 浮 点 表示 的 小 数 部 分 的 高 位 是 相 匹 配 的 。 


练习 题 2.34 


正如 在 练习 题 2.6 中 提 到 的 ， 整 数 3490593 的 十 六 进 制 表示 为 0x354321， 而 单 精 度 浮 点 数 
3490593.0 的 十 六 进 制 表示 为 0x4A550C84。 推 吐出 这 个 浮 点 表示 ， 并 解释 整数 和 浮 点 数 表 示 的 位 之 
间 的 关系 。 


练习 题 2.35 

A. 假定 一 个 上 位 指数 和 nn 位 小 数 的 浮 点 格式 , 给 出 不 能 准确 描述 的 最 小 正 整 数 的 公式 ( 因为 要 
想 准确 表示 它 需 要 n+1 位 小 数 )。 

B、 对 于 单 精 度 格式 (k=8，n=23)， 这 个 整数 的 数字 值 是 多 少 ? 


2.44 ZA 

因为 表示 方法 限制 了 浮 点 数 的 范围 和 精度 ， 所 以 浮 点 运算 只 能 近似 地 表示 实数 运算 。 因 此 ， 对 
于 值 x， 我 们 一 般 想 有 一 种 系统 的 方法 ， 能 够 找到 “最 接近 的 ”匹配 值 x ， 它 可 以 用 期 望 的 浮 点 形 
HARA HK. IRSA (rounding) 运算 的 任务 。 关 键 问题 是 定义 在 两 个 可 能 值 中 间 的 数值 的 使 
入 方 同 。 例 如 ， 如 果 我 有 1.50 美元 ， 想 把 它 舍 入 到 最 接近 的 美元 数 ， 结 果 应 该 是 选择 1 美元 还 是 2 
KING? 一 种 可 选择 的 方法 是 维持 实际 数字 的 下 界 和 上 界 。 例如, 我 们 可 以 确定 可 表示 的 值 x 和 x*， 
使 得 x 的 值 位 于 它们 之 间 ， x < x < x*。IEEE 浮 点 格式 定义 了 四 种 不 同 的 售 入 方式 。 默 认 的 方法 是 
找到 最 接近 的 匹配 ， 而 其 他 三 种 可 用 于 计算 上 界 和 下 界 。 

图 2.25 举例 说 明了 四 种 舍 入 方式 ， 将 一 个 金额 数 合 入 到 最 接近 的 整数 上 。 向 偶数 合 入 
(round-to-even )， 也 被 称 为 同 最 接近 的 值 舍 入 (round-to-nearest)， 是 默认 的 方式 。 它 试图 找到 一 个 
最 接近 的 匹配 值 。 因 此 ， 它 将 1.40 美元 舍 入 成 1 美元 ， 而 将 1.60 美元 舍 入 成 2 美元 ， 因 为 它们 是 
最 接近 的 整数 美元 值 。 惟 一 的 设计 决策 是 对 位 于 两 个 可 能 结果 中 间 的 数值 的 舍 入 。 向 偶数 会 入 方式 
采用 的 方法 是 : 它 将 数字 向 上 或 者 向 下 舍 入 ， 使 得 结果 的 最 低 有 效 数字 是 偶数 。 因 此 ， 这 种 方法 将 
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1.5 美元 和 2.5 美元 都 舍 入 成 2 美元 。 
-过 pero sreo | S150 | 3250 | S150 


图 2.25 舍 入 方式 说 明 
第 一 种 方法 合 入 到 一 个 最 接近 的 值 ， 而 其 他 三 种 方法 向 上 或 向 下 限定 结果 。 


其 他 三 种 方式 产生 实际 值 的确 界 (guaranteed bound)。 这 些 方 法 在 一 些 数字 应 用 中 是 很 有 用 的 。 
同 零 舍 入 方式 把 正 数 同 下 舍 入 ， 把 负数 同上 舍 入 ， 得 到 值 *， 使 得 {1< 1x1。 同 下 舍 入 方式 把 正 数 
和 人 负数 都 向 下 舍 入 ， 得 到 值 x ， 使 得 x < x。 向 上 舍 入 方式 把 正 数 和 人 负数 都 问 上 舍 入 ， 得 到 值 x ， 
YH AE x <x". 


么 理由 偏向 取 偶 数 呢 ? 为 什么 不 始终 把 
位 于 两 个 可 表示 的 值 中 闻 的 值 都 同上 舍 入 昵 ? 使 用 这 种 方法 的 一 个 问题 就 是 很 容易 假想 到 这 样 的 情 
R: 这 种 方法 舍 入 一 组 数值 ， 会 在 计算 这 些 值 的 平均 数 中 引入 统计 偏差 。 我 们 采用 这 种 方式 舍 入 得 
到 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 高 一 些 。 相 肥 ， 如 果 我 们 总 是 把 两 个 可 表示 值 中 间 
的 数字 问 下 舍 入 ， 那 么 舍 入 出 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 低 一 些 。 同 侦 数 舍 入 在 
大 多 数 现实 情况 中 避免 了 这 种 统计 偏差 。 在 50% 的 时 间 里 ， 它 将 向 上 爹 入 ， 而 在 50% 的 时 间 里 ， 它 
Ie) RBA. 

甚至 在 我 们 不 想 舍 和信 到 整数 时 ， 也 可 以 使 用 癌 偶 数 售 入。 我 们 只 是 简单 地 考虑 最 低 有 效 数 字 是 
奇数 还 是 偶数 。 倒 如， 假设 我 们 想 将 十 进 制 数 合 入 到 最 接近 的 百 分 位 。 不 管用 那 种 舍 入 方式 ， 我 们 
都 将 把 1.2349999 A FI) 1.23， 而 将 1.2350001 SAF 1.24， 因 为 它们 不 是 在 1.23 和 1.24 的 中 间 。 
另 一 方面 我 们 将 把 两 个 数 1.2350000 和 1.2450000 ABS A Fl 1.24， 因 为 4 是 偶数 。 

相似 地 ， 同 偶数 汗 入 法 能 够 运用 在 二 进 制 小 数 上 。 我 们 将 最 低 有 效 位 的 值 为 0 认为 是 偶数 ，1 
认为 是 奇数 ,一 般 来 说 , 只 有 对 形 如 XX… 关 YY…Y100… 的 二 进 制 位 模式 的 数 , 这 种 舍 入 方式 才 有 效 ， 
其 中 和 和 YY 表示 任意 位 值 ， 最 右边 的 Y 是 要 被 侈 入 的 位 置 。 只 有 这 种 位 模式 表示 在 两 个 可 能 的 值 
中 间 的 值 。 例 如 ， 考 虑 舍 入 值 到 最 近 的 四 分 之 一 的 问题 〈 也 就 是 ， 二 进 制 小 数 点 的 右 两 位 )。 我 们 将 


10.0011, (2 二 ) 向 下 合 入 到 10.00, (2), 10.00110;( 2 一 ) 向 上 合 入 加 10.012( 27) 因为 这 些 值 不 是 两 
个 可 能 值 的 中 间 值 。 我 们 将 10.11100, 2— ) 向 上 合 入 成 11.00,(3), Th 10.10100, 向 下 舍 入 成 
10.10X 2 二 )， 因 为 这 些 值 是 两 个 可 能 值 的 中 间 值 ， 并 且 我 们 倾向 于 使 最 低 有 效 位 为 零 . 
2.45 FRAN 

IEEE 标准 为 诸如 加 法 和 乘法 这 样 的 算术 运算 的 结果 定义 了 简单 的 规则 。 把 浮 点 值 x 和 y 看 成 实 


数 ， 而 某 个 运算 定义 在 实数 上 ， 计 算 将 产生 Round (x © y)， 这 是 实际 运算 的 精确 结果 进行 舍 入 后 
的 结果 。 在 实际 中 ， 浮 点 单元 的 设计 者 使 用 一 些 聪明 的 小 技巧 来 避免 执行 这 种 精确 的 计算 ， 因 为 计 
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算 只 要 精确 到 能 够 保证 得 到 一 个 正确 舍 入 的 结果 就 可 以 了 。 当 参数 中 的 一 个 是 特殊 值 ， 如 -0、-o% 或 
NaN 时 ，IEEE 标准 定义 了 一 些 使 之 更 合理 的 规则 。 例 如 ，1/-0 被 定义 为 产生 -eo， 而 1/+0 被 定义 为 
产生 +eo。 

IEEE 标准 中 指定 浮 点 运算 行为 的 方法 的 一 个 优点 在 于 , 它 可 以 独立 于 任何 具体 的 硬件 或 者 软件 
实现 。 因 此 ， 我 们 可 以 检查 它 的 抽象 数学 属性 ， 而 不 必 考 虑 它 实 际 上 是 如 何 实 现 的 。 

前 面 我 们 看 到 了 整数 加 法 (无 符号 和 二 进 制 补 码 )， 形 成 了 阿 贝 尔 群 。 实 数 上 的 加 法 也 形成 了 
阿 贝 尔 群 ， 但 是 我 们 必须 考虑 舍 入 对 这 些 属性 的 影响 。 我 们 定义 x + y 为 Round(x+y)。 这 个 操作 的 
定义 针对 x ly PAR, REPRE RIA. BE x Aly 都 是 实数 。 对 于 所 有 x 和 
y 的 值 ， 这 个 运算 是 可 交换 的 ， 也 就 是 说 x+'y=y+'x。 另 一 方面 ， 这 个 运算 是 不 可 结合 的 。 例 如 ， 
使 用 单 精度 浮 点 ， 表 达 式 (3.14+lie10)-le10 求 值 得 到 00 ——-A AGA, E 3.14 2ER.. AWA, 
表达 式 3.14+(le10-le10) 得 出 值 3.14。 作 为 阿 贝 尔 群 , 大 多 数值 在 浮 点 加 法 下 都 有 逆 元 ,也 就 是 说 x +x 
= 0。 例 外 情况 是 无 穷 (因为 +w%-o = NaN) 和 ANaN， 因 为 对 于 任何 x， 部 有 NaN + x = NaN. 

浮 点 加 法 不 具有 结合 性 ， 这 是 缺少 的 最 重要 的 群 属性 、 对 于 科学 程序 员 和 编 详 器 编写 者 来 说 ， 
这 具有 重要 的 含义 。 例 如 ， 假 设 一 个 编译 器 给 定 了 如 下 代 公 段 : 


x a+b +c; 


Yy b+c+d: 

Sa ae FY Be i a E FIRR E NE NA: 
t = b+ ec; 

X = a+ t; 

y=t +d; 


然而 ， 对 于 x 来 说 ， 这 个 计算 可 能 会 产生 不 同 于 原始 值 的 值 ， 因 为 它 使 用 了 加 法 运算 的 不 同 的 
结合 方式 。 在 大 多 数 应 用 中 ， 这 种 差异 非常 细小 ， 不 会 太 重 要 。 不 幸 的 是 ， 编 译 器 没有 办 法 知道 在 
效率 和 忠实 于 原始 程序 的 确切 行为 之 间 ， 使 用 者 希望 达到 什么 样 的 一 种 平衡 。 结 果 是 ， 它 们 倾向 于 
非常 保守 ， 如 免 任 何 会 对 功能 产生 影响 的 优化 ， 即 使 是 很 轻微 的 影响 。 

男 一 方 惫 ， 浮 点 加 法 满足 了 下 面 的 单调 性 属性 ， 如 果 a 5， 那么 对 于 任何 a 和 4b 的 值 ， 除了 x 
不 等 于 NaN, 都 有 x+a>x+b。 这 个 实数 (以 及 整数 ) 加 法 的 属性 不 被 无 符号 或 二 进 制 补 码 加 法 所 

浮 点 乘法 也 遵循 通常 乘法 所 具有 的 许多 属性 ,也 就 是 环 的 属性 。 我 们 定义 xy 为 Round (x x y). 
这 个 运算 在 乘法 中 是 封闭 的 (虽然 可 能 产生 无 穷 大 或 NaN)， 它 是 可 交换 的 ， 而 且 它 的 乘法 单位 元 
为 1.0。 为 一 方 面 ， 由 于 可 能 发 生 浇 出 ， 或 者 由 于 舍 入 而 失去 精度 ， 它 不 具有 可 结合 性 。 例 如 ， 单 
精度 浮 点 情况 下 ， 表 达 式 (le20*le20)*le — 20 KA+, M le20*(le20*le - 20) 将 得 出 le20。 另 外 ， 浮 
点 乘法 在 加 法 上 不 具备 分 配 性 。 例 如 ， 单 精度 浮 点 情况 下 ， 表 达 式 le20*(le20 - le20) 求 值 为 0.0， 而 
le20*le20 -le20*le20 会 得 出 NaN. 

万 一 方面 ， 对 于 任何 wa、 和 c， 并 且 a. 和 ce 都 不 等 于 NaN， 浮 点 乘法 满足 上 下列 单 调 性 : 

a>b Hc20 > aterb'te 
a>b H c<s0 => a cab''c 

此 外 ， 我 们 还 可 以 保证 ， 只 要 az NaN， 就 有 a ta>0 。 像 我 们 先前 所 看 到 的 ， 无 符号 或 二 进 
制 补 码 的 乘法 没有 这 些 单调 性 属性 。 
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对 于 科学 程序 员 和 编译 器 作者 来 说 ， 缺 乏 结合 性 和 分 配 性 是 很 严重 的 问题 。 甚 至 就 像 写 代码 以 
确定 在 三 维 空 间 中 两 条 线 是 否 交 叉 这 样 一 个 看 上 去 很 简单 的 任务 ， 也 可 能 成 为 一 个 很 大 的 挑战 。 


246 C 语言 中 的 浮 点 

C 提供 了 两 种 不 同 的 浮 点 数据 类 型 : float 和 double。 在 支持 IEEE 浮 点 格式 的 机 器 上 ， 这 些 数 
据 类 型 就 对 应 于 单 精度 和 双 精 度 浮 点 。 男 外 ， 这 类 机 器 使 用 同 偶 数 合 入 的 舍 入 方式 。 不 六 的 是 ， 
为 C 标准 不 要 求 机 器 使 用 IEEE 浮 点 ， 所 以 没有 标准 的 方法 来 改变 舍 入 方式 或 者 得 到 诸如 -0、+ee、 
-oo 或 者 NaN 之 类 的 特殊 值 。 大 多 数 系 统 提 供 include (“ha 文件 和 读 取 这 些 特 征 的 过 程 库 ， 但 是 细 
他 随 系 统 不 同 而 不 同 。 例 如 ， 当 程序 文件 中 出 现下 列 句子 时 ，GNU 编译 器 GCC 会 定义 宏 INFINITY 
(表示 +ee) FINAN (表示 NaN): 


# define GNU SOURCE 1 
# include <math.h> 


练习 题 2.36 

FR FRE, AR RA BAB +00, -o4 0。 

#define POS INFINITY 

#define NEG_INFINITY 

#define NEG ZERO 

#endif 

不 能 使 用 任何 include 文件 ( 例如 math.h )， 但 你 能 利用 这 样 一 个 事实 : 能 够 表示 成 双 精 度 的 最 
大 的 有 限 数 ， 大 约 是 1.8x10`”. 


当 在 int. float 和 double 格式 之 间 进 行 强制 类 型 转换 时 ， 程 序 按照 如 下 原则 来 转换 数值 和 位 模 
A BRÈ int 是 32 位 的 ); 
e 从 int 转换 成 float， 数 字 不 会 游 出 ， 但 是 可 能 被 舍 入 。 
e 从 int BY float 转换 成 double， 因 为 doube 有 更 大 的 范围 (也 就 是 可 表示 值 的 范围 )， 也 有 更 
高 的 精度 (也 就 是 有 效 位 数 )， 所 以 能 够 保留 精确 的 数值 。 
e 从 double 转换 成 float， 因 为 范围 要 小 一 些 ， 所 以 值 可 能 溢出 成 +ee 或 -。 另 外 ， 由 于 精确 
度 较 小 ， 它 还 可 能 被 含 入 。 
e 从 float 或 者 double 转换 成 int， 值 将 会 向 0 截断 。 例 如，1.999 将 被 转换 成 1， 而 -1.999 将 
被 转换 成 -1。 注 意 这 种 行为 与 舍 入 是 非常 不 同 的 。 进 一 步 来 说 ， 值 可 能 会 洲 出 。C 标准 没 
有 对 这 种 情况 指定 固定 的 结果 ， 但 是 在 大 部 分 机 器 上 ， 结 果 将 是 TMax,, 或 TMin,,， 其 中 W 
是 int 中 的 位 数 。 
*Intel IA32 浮 点 运算 
在 下 一 章 中 ， 我 们 将 深入 研究 Intel IA32 处 理 器 ， 这 种 处 理 器 大 量 地 应 用 于 今天 的 个 人 计算 机 
中 。 这 里 我 们 重点 突出 这 种 机 器 的 一 个 特性 ， 少 GCC 编译 的 时 候 ， 它 能 够 严重 影响 程序 对 浮 点 数 
运算 的 行为 。 
像 大 多 数 其 他 处 理 器 一 样 ，IA32 处 理 器 有 特别 的 存储 器 元 素 ， 称 为 寄存 器 ， 当 计算 或 者 使 用 浮 
凡 数 时 ， 用 来 保存 浮 点 值 。 比 起 保存 在 主 存 中 的 值 ,保存 在 寄存 器 中 的 值 读 写 起 来 更 快 。IA32 FEA 
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一 般 的 属性 是 , 浮 点 寄存 器 使 用 一 种 特殊 的 80 位 的 扩展 精度 格式 , 这 样 就 比 保存 在 存储 器 中 的 值 所 
使 用 的 普通 32 位 单 精度 和 64 位 双 精 度 格 式 ， 提 供 了 更 大 的 表示 范围 和 更 高 的 精度 。 和 在 家 庭 作业 
2.58 中 描述 的 一 样 , 扩展 精度 表示 类 似 于 具有 15 位 指数 (也 就 是 ==15) 和 63 位 小 数 ( 也 就 是 n=63) 
的 IEEE 浮 点 格式 。 所 有 的 单 精 度 和 双 精 度数 在 从 存储 器 加 载 到 泽 点 寄存 器 中 时 ， 都 会 转换 成 这 种 
格式 。 运 算 总 是 以 扩展 精度 格式 进行 的 。 当 数字 存储 在 存储 器 中 时 ， 它 们 就 从 扩展 精度 转换 成 单 精 
度 或 者 双 精 度 格式 。 

对 于 程序 员 而 言 ,这 种 把 所 有 寄存 器 数据 扩展 成 80 位 ,并 把 所 有 存储 器 数据 收缩 成 更 小 的 格式 ， 
会 产生 一 些 不 太 好 的 结果 。 这 意味 着 在 存储 器 中 保存 一 个 值 ， 然 后 取出 它 就 会 由 于 舍 入 、 下 游 或 者 
hit, 改变 它 的 值 。 对 于 C 程序 员 来 说 ,这 种 存 入 和 取出 并 不 总 是 可 见 的 , 会 导致 一 些 奇特 的 结果 。 

下 面前 示例 说 明了 这 个 性 质 : 


code/data/fcomp.c 
1 double recip(int denom) 
< { 
3 return 1.0/ (double) denom; 
4} 
5 
6 void do_nothing() {} /* Just like the name says */ 
7 
8 void testl(int denom) 
9 { 
10 double ri, r2; 
11 int tl, t2; 
12 
13 rl = recip(denom); /* Stored in memory */ 
14 r2 = recip(denom); /* Stored in register */ 
15 tl = rl == r2; /* Compares register to memory */ 
16 do_nothing(); /* Forces register save to memory */ 
17 t2 = rl == r2; /* Compares memory to memory */ 
18 printf ("testl tl: rl %f $c= r2 ļ%f\n", rl, tl ? =- : '!', r2); 
19 printf ("testl t2: rl %f %c= r2 %f\n", rl, t2 ? = : 1, r2) 
20 } 

code/data/fcomp.c 


变量 rl M r2 是 由 有 相同 参数 的 相同 函数 计算 的 。 我 们 会 预计 它们 是 相同 的 。 而 且 ， 变 量 tl 和 
t2 都 是 通过 对 表达 式 rl==r2 求 值 计算 出 来 的 ， 所 以 我 们 预计 它们 都 等 于 1。 没 有 明显 的 隐藏 的 副 作 
Fa A recip 进行 让 接 的 倒数 计算 ， 而 且 函 数 do_nothing 就 像 它 的 名 字 表 明 的 那样 ， 什 么 都 没 
干 。 然 而 ， 当 市 优化 选项 “-O2” 编 译 ， 并 用 参数 10 运行 这 个 文件 时 ， 我 们 得 到 下 列 结果 : 

test] tl: rl 0.100000 != r2 0.100000 

testl t2: rl 0.100000 == r2 0.100000 


第 一 个 测试 表明 两 个 倒数 是 不 同 的 , 而 第 二 个 测试 又 说 它们 是 相同 的 ! 这 当然 不 是 我 们 预想 的 ， 
也 不 是 我 们 想 要 的 。 理 解 这 个 例子 的 全 部 细节 需要 我 们 学 习 GCC 产生 的 机 器 级 代码 (参见 3.14 节 )， 
但 古代 码 中 的 注释 提供 了 为 什么 会 出 现 这 样 结果 的 线索 。 函 数 recip 计算 的 数值 返回 结果 到 浮 点 寄 
仓 器 中 。 无 论 何 时 过 程 testl 调用 某 个 函数 ， 它 必须 将 浮 点 寄存 器 中 的 当前 值 存 储 到 主 程序 栈 中 ， 这 
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是 存放 函数 局 部 变量 的 地 方 。 在 执行 这 个 存储 的 过 程 中 ， 处 理 器 将 扩展 精度 寄存 器 值 转换 成 双 精 度 
存储 器 值 。 因 此 ， 在 第 二 次 调用 recip (451477) 之 前 ， 变 量 rl 被 转换 并 存储 成 双 精 度数 了 。 在 第 
二 个 雷 用 之 后 ， 变 量 n2 ARORA RR. ATP RN CB 15 行 )， 双 精度 数 rl 与 扩展 精 
度数 r2 相 比 较 。 因 为 0.1 不 能 精确 地 被 任何 一 种 格式 表示 ， 所 以 测试 的 结果 是 假 。 在 调用 未 数 
do_nothing ($ 16 行 ) ZAT, 2 被 转换 并 且 存 储 成 双 精 度数 。 在 计算 忆 时 (第 17 行 );， 比较 的 是 两 
个 双 精 度数 ， 得 到 结果 为 真 。 

这 个 示例 证 明了 在 IA32 机 器 上 GCC 的 一 个 缺陷 (在 Linux 和 Microsoft Windows 系统 上 也 有 相 
同 的 结果 )。 由 于 对 程序 员 来 说 不 可 见 的 运算 , 例如 浮 点 寄存 器 的 保存 和 恢复 , 变量 的 值 发 生 了 改变 。 
我 们 对 Microsoft Visual C++ 编译 器 的 测试 表明 它 没 有 这 种 问题 。 

劳 注 ， 我 们 为 什么 要 关心 这 些 不 一 致 ? 

正如 我 们 将 在 第 5 章 中 讨论 的 ， 优 化 编译 器 的 基本 原则 之 一 是 ， 无 论 优化 与 否 ， 程 序 应 该 产生 

完全 相同 的 结果 。 不 地 的 是 ，GCC 对 IA32 机 器 上 的 淳 点 代码 没有 满足 这 一 要 求 . 


有 一 些 方法 来 解决 这 个 问题 ， 不 过 都 不 是 很 理想 。 最 简单 的 方法 就 是 用 命令 行 选项 
“_ffloat-store” SFA GCC， 告 诉 GCC 每 一 个 浮 点 计算 的 结果 在 使 用 之 前 都 必须 存储 到 存储 器 中 ， 
再 读 回来 。 这 将 仍 使 每 个 被 计算 出 来 的 值 都 被 转换 成 较 低 精度 的 形式 。 这 样 做 会 使 程序 变 慢 一 些 ， 
但 是 使 行为 变 得 更 加 可 预知 。 不 六 的 是 , 我 们 已 经 发 现 即 使 在 给 出 命令 行 选项 的 情况 下 ，GCC 也 没 
有 严格 遵从 先 号 后 读 的 约定 。 例 如 ， 考 虑 下 面 的 水 数 ; 


code/data/fcomp.c 
1 void test2(int denom) 
2 { 
3 double r1; 
4 int tl; 
5 ri = recip(denom) ; /* Default: register, Forced store: memory */ 
6 tl = rl == 1.0/(double) denom;  /* Compares register or memory to register */ 
7 printf("test2 ti: rl $f $c= 1.0/10.0\n", ri, t1 ? = : 71"); 
8 } 

code/data/fcomp.c 


SA air -O2 "选项 编译 时 ,tL 得 到 值 1 一 一 比较 是 在 两 个 寄存 器 值 之 间 进 行 的 。 当 带 “-ffloat-store” 
选项 编译 时 ，tl 得 到 值 0! 虽然 函数 recip 调用 的 结果 被 写 入 存储 器 ， 并 且 读 回 到 一 个 寄存 器 中 ， 然 
M, 1.0/(double) denom 计算 出 的 值 是 保存 在 寄存 器 中 的 。 总 地 来 说 ， 我 们 发 现 程序 中 看 起 来 
微小 的 改变 能 够 引起 这 些 测试 以 不 可 预知 的 方式 成 功 或 者 失败 。 

万 外 一 种 选择 是 ， 我 们 能 够 通过 将 所 有 的 变量 声明 为 long double 类 型 ， 而 让 GCC 在 所 有 的 计 
算 中 都 使 用 扩展 精度 ， 如 下 面 的 代码 段 所 示 ; 

code/data/fcomp.c 
long double recip _l{int denom) 

{ 


1 
2 
3 return 1.0/(long double) denon; 
4 } 

5 


6 void test3(int denom) 
7 4 

8 long double rl, r2; 

9 int tl, t2, t3; 


10 

11 rl = recip l{denom);  /* Stored in memory */ 

12 r2 = recip_l (denom);  /* Stored in register */ 

13 tl = ri == r2; /* Compares register to memory */ 
14 do_nothing(); /* Forces register save to memory */ 
15 t2 = rl == r2; /* Compares memory to memory */ 
16 t3 = rl == 1.0/(long double) denom; /* Compare memory to register */ 
17 praintf("*test3 tl: ri $f $c= r2 ¥f\n", 

18 (double) ri, ti ? ’=’ : ‘1, (double) r2); 

19 printft("test3 t2: ri $f c= r2 $f\n", 

20 (double) rl, t2 ? ‘=’ : ’'!"’, (double) r2); 


21 printf("test3 t3: ri %f c= 1.0/10.0\n", 
22 (double) ri, t2 ? = : ‘'!7'); 


code/data/fcomp.c 


ANSI C 标准 允许 long double 类 型 的 声明 ， 虽 然 对 于 大 多 数 机 器 和 编译 器 而 言 ， 这 个 声明 等 价 
于 普通 的 double 类型。 然而, 对 于 IA32 机 器 上 的 GCC 来 说 , 它 会 对 存储 器 数据 使 用 扩展 精度 格式 ， 
就 像 对 浮 点 寄存 器 数据 一 样 。 这 就 使 得 我 们 能 够 充分 利用 扩展 精度 格式 提供 的 更 广 的 范围 和 更 大 的 
精度 ， 从 而 避免 我 们 在 先前 的 例子 中 看 到 的 异常 现象 。 不 幸 的 是 ， 这 种 解决 方式 是 要 付出 代价 的 。 
GCC 使 用 12 字 节 来 存储 long double 类 型 ， 增 加 了 50% 的 存储 器 消耗 (虽然 10 个 字 节 已 经 足够 了 ， 
但 是 使 用 12 字 节 能 获得 更 好 的 存储 器 性 能 。Linux 和 Windows 机 器 上 使 用 相同 的 分 配方 式 )。 在 寄 
存 器 和 存储 器 之 间 传 送 这 些 更 长 的 数据 也 需要 更 多 的 时 间 。 尺 管 如 此 ， 这 仍然 是 程序 想 要 得 到 最 准 
确 和 可 预知 结果 的 最 好 选择 。 
T: Ariane 5 一 一 浮 点 溢出 的 高 昂 代 价 

将 大 的 浮 点 数 转换 成 整数 是 一 种 常见 的 程序 错误 来 源 。1996 年 6 月 4 日 ,对 于 Ariane 5 KF 
初次 航行 来 说 , 这 样 一 个 错误 产生 了 灾难 性 的 后 果 . 发 射 后 仅仅 37 秒 钟 , 火箭 偏离 了 它 的 飞行 路 径 ， 
解体 并 且 爆 炸 了 。 火 笠 上 载 有 价值 $ 亿美 元 的 通信 卫星 。 

后 来 的 调查 [49] 显 示 ， 控 制 惯性 导航 系统 的 计算 机 向 控制 引擎 喷嘴 的 计算 机 发 送 了 一 个 无 效 数 
据 。 它 没有 发 送 飞 行 控制 信息 ， 而 是 送出 了 一 个 诊断 位 模式 ， 表 明 在 将 一 个 64 位 浮 点 数 转换 成 16 
位 有 符号 整数 时 ， 产 生 了 溢出 ， 

溢出 值 测量 的 是 火 匡 的 水 平 速率 ， 这 比 早先 的 Ariane 4 火 科 所 能 达到 的 高 出 了 5 倍 。 在 设计 
Ariane 4 火 芋 的 软件 时 ,他 们 小 心地 分 析 了 数字 值 ， 并 且 确 定 水 平 速率 决 不 会 超出 一 个 16 位 的 数 。 
KEHE, AWE Ariane 5 火 篆 的 系统 中 简单 地 重新 使 用 了 这 一 部 分 ， 而 没有 检查 它 所 基于 的 假 


TR. 


练习 题 2.37 
假定 变量 x、f 和 d 的 类 型 分 别 是 int、float 和 double. 它们 的 值 是 任意 的 ， 除 了 f 和 d 都 不 能 
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等 于 +ee、-oo 或 者 NaN。 对 于 下 面 每 个 C 表达 式 ， 要 么 证 明 它 总 是 为 真 (也 就 是 ， 求 值 为 1)， 或 者 
给 出 一 个 使 表达 式 不 为 真 的 值 (也 就 是 ， 求 值 为 0). 
A. x == (int) (float) x 
== {int) (double) x 
= (float) (double) f 
= (float) d 


人 回避 轨 
hh 


-O) || ((a*2) < 0.0) 


2.5 ZB 


计算 机 将 信息 编码 为 位 〈 比 特 )， 通 常 组 织 成 字 节 序列 。 有 不 同 的 编码 方式 用 来 表示 整数 、 实 数 
和 字符 串 。 不 同 的 计算 机 模型 在 编码 数字 和 多 字 节 数据 中 的 字 市 顺序 上 使 用 不 同 的 约定 。 

C 语言 被 设计 成 包容 多 种 不 同 字 长 和 数字 编码 的 实现 。 虽 然 高 端 机 器 逐渐 开始 使 用 64 位 字 长 ， 
但 是 目前 大 多 数 机 器 仍 使 用 32 位 字 长 。 大 多 数 机 器 对 整数 使 用 二 进 制 补 码 编码 ， 而 对 浮 点 数 使 用 
IEEE 编码 。 在 位 级 上 理解 这 些 编码 ， 并 且 理 解 算术 运算 的 数学 特性 ， 对 于 编写 能 在 全 部 数值 范围 上 
正确 运算 的 程序 来 说 ， 是 很 重要 的 。 

C 语言 的 标准 规定 在 无 符号 和 有 符号 整数 之 间 进 行 强制 类 型 转换 时 , 基本 的 位 模式 不 应 该 改变 。 
在 二 进 制 补 码 机 器 上 ， 对 于 一 个 w 位 的 值 ， 这 种 行为 是 由 函数 T2U,, 和 U2T, 来 描述 的 。C 语言 隐 
式 的 强制 类 型 转换 会 得 到 许多 程序 员 无 法 预计 的 结果 ， 常 常 导致 程 序 错误 。 

由 于 编码 的 长 度 有 限 ， 计 算 机 运算 与 传统 整数 和 实数 运算 相 比 ， 具 有 非常 不 同 的 属性 。 当 超出 
表示 范围 时 ， 有 限 长 度 能 够 引起 数值 漆 出 。 当 浮 点 数 非常 接近 于 0.0， 从 而 转换 成 零 时 ， 浮 点 数 也 
会 下 洲 。 

和 大 多 数 其 他 程序 语言 一 样 ，C 语言 实现 的 有 限 整 数 运算 和 真实 的 整数 运算 相 比 有 一 些 特殊 的 
FATE. PO, Fmt, IAT x*x 能 够 得 出 负数 。 但 是 ， 无 符号 数 和 二 进 制 补 码 的 运算 都 满 是 环 
的 属性 。 这 束 允 许 编 详 器 做 很 多 的 优化 。 人 和 例如， 用 (x<<3)-x 取代 表达 式 7*x 时 ， 我 们 就 利用 了 结合 
性 、 交 换 性 和 分 配 性 ， 还 利用 了 移 位 和 乘 以 2 HOR SKK. 

我 们 已 经 看 到 了 几 种 使 用 位 级 运算 和 算术 运算 组 合 的 聪明 方法 。 例 如 ， 我 们 看 到 ， 使 用 二 进 制 
补 码 运 算 ， x+1 是 等 价 于 -x 的 。 另 外 一 个 例子 ， 假 设 我 们 想 要 一 个 形 如 [0…,0,1…,11 的 位 模式 ， 
Hw- kD OF MRR KS 1 组 成 。 这 些 位 模式 对 于 掩 码 运算 是 很 有 用 的 。 这 种 模式 能 够 通过 C 
表达 式 (1<<A)-1 生成 ， 利 用 的 是 这 样 一 个 属性 ， 即 我 们 想 要 的 位 模式 的 数值 为 2-1。 例 如 ， 表 达 式 
(1<<8) -1 将 产生 位 模式 0xFF。 

浮 扣 表示 通过 将 数字 编码 为 x x 2 的 形式 来 近似 地 表示 实数 。 最 常见 的 浮 点 表示 方式 是 由 IEEE 
标准 754 定义 的 。 它 提供 了 几 种 不 同 的 精度 ， 最 常见 的 是 单 精度 《32 位 ， 和 双 精 度 (64 位 )。IEEE 
得 点 也 能 够 表示 特殊 值 ~ 和 NaN. 

必须 非常 小 心地 使 用 浮 操 运算 ， 因 为 浮 点 运算 的 范围 和 精度 有 限 ， 而 且 浮 点 运算 并 不 遵守 普遍 
的 算术 属性 ， 比 如 结合 性 。 
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参考 文献 说 阴 

关于 C 的 参考 书 [40，32] 讨 论 了 不 同 的 数据 类 型 和 运算 的 属性 。C 标准 对 于 精确 的 字 长 或 者 数 
字 编 码 没 有 详细 的 定义 。 这 些 细节 是 故意 省 去 的 , 以 使 得 可 以 在 更 大 范围 的 不 同 机 器 上 实现 C 语言 。 
己 经 有 儿 本 书 [41，S0j 给 了 C 语言 程序 员 一 些 建议 ， 警 告 他 们 关于 溢出 、 隐 含 强 制 类 型 转换 到 无 符 
号 数 ， 以 及 其 他 一 些 我 们 已 经 在 这 一 章 中 谈 及 到 的 陷阱 。 这 些 书 还 提供 了 对 变量 命名 、 编 码 风 格 和 
代码 测试 的 有 益 建 议 。 关 于 Java 的 书 〈 我 们 推荐 Java 语言 的 创始 人 James Gosling 参与 编写 的 一 本 
PUD 描述 了 Java 支持 的 数据 格式 和 算术 运算 。 

大 多 数 关于 逻辑 设计 的 书 [86，39] 都 有 关于 编码 和 算术 运算 的 章节 。 这 些 书 描述 了 实现 算术 电 
路 的 不 同方 式 。Overton 的 关于 IEEE 浮 点 的 书 [56] 提 供 了 从 一 个 数字 应 用 程序 员 的 角度 出 发 的 关于 
格式 和 属性 的 话 细 描 述 。 


家 庭 作 业 
@= 考验 概念 的 快速 习题 
OO = HE5~15 分 钟 来 完成 ， 可 能 包括 编写 和 运行 程序 
Ooo- 主要 几 个 小 时 来 完成 的 持续 习题 

Oooo- 重要 一 个 或 者 两 个 性 期 来 完成 的 实验 任务 

2.38 © 

在 你 能 够 访问 的 不 同 机 器 上 ， 编 译 并 运行 使 用 show_bytes 的 示例 代码 (文件 show-bytes.c). m 
定 这 些 机 器 使 用 的 字 节 顺序 。 

2.39 © 

试看 用 不 同 的 示例 值 来 运行 show_bytes 的 代码 。 

2.40 © 

编写 程序 show_short、show_long 和 show_double, 它们 分 别 打印 类 型 为 short int, long int 和 double 
的 C 语言 对 象 的 字 节 表示 。 请 在 儿 种 机 器 上 运行 。 

2.410¢ 

编写 过 程 is_little_endian， 当 在 小 端 法 机 器 上 编译 和 运行 时 返回 1， 在 大 端 法 机 器 上 编译 运行 时 
WEH 0。 这 个 程序 应 该 可 以 运行 在 任何 机 器 上 ， 无 论 机 器 的 字 长 是 多 少 。 

2.42 OF 

编写 一 个 C 表达 式 ， 它 生成 一 个 字 ， 由 x 的 最 低 有 效 字 节 和 y 中 剩 下 的 字 节 组 成 。 对 于 运算 数 
x = 0x89ABCDEF 和 y = 0x76$43210， 就 得 到 0x765432EF. 

2.43 0 

只 使 用 位 级 和 你 辑 运算 ， 编 写 出 C 的 表达 式 ， 在 下 列 描述 的 条 件 下 产生 1， 而 在 其 他 情况 下 得 
到 0。 你 的 代码 应 该 能 工作 在 任何 字 长 的 机 器 上 。 假 设 x 是 整数 。 

A. x 的 任何 位 都 等 于 1。 

B.x 的 任何 位 都 等 于 0。 

C. x 的 最 低 有 效 字 节 中 的 位 都 等 于 1. 
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D. x 的 最 低 有 效 字 节 中 的 位 都 等 于 0。 
2.44 OOS 


编写 一 个 函数 int_shifts_are_arithmetic()， 使 得 这 个 函数 在 对 整数 使 用 算术 右 移 的 机 器 上 运行 时 
生成 1, 而 其 他 情况 下 生成 0。 你 的 代码 应 该 可 以 运行 在 任何 字 长 的 机 器 上 。 在 几 种 机 器 上 测试 你 的 
人 代码。 编写 并 测试 过 程 unsigned_shifts_are_arithmetic()， 该 过 程 确定 对 无 符号 整数 使 用 的 移 位 形式 。 

2.45 OF 

你 有 一 个 任务 ， 要 编写 一 个 过 程 int_size_is_320， 当 在 一 个 int 是 32 位 网 机 器 上 运行 时 ， 坊 程 
序 产 生 1， 而 对 于 其 他 情况 则 生成 0。 下 面 是 开始 时 的 尝试 : 

1 /* The following code does not run properly on some machines */ 

2 int bad int size_is_32() 

3 { 

4 /* Set most significant bit (msb) of 32-bit machine */ 

5 int set msb = 1 «<< 31; 

6 /* Shift past msb of 32-bit word */ 

7 int beyond msb = 1 «< 32; 

8 


9 /* set_msb is nonzero when word size >= 32 

10 beyond_msb is zero when word size <= 32 */ 
11 return set_msb && !beyond_msb; 

12 } 


不 过 ， 当 在 SUN SPARC 这 样 的 32 位 机 器 上 编译 并 运行 时 ， 这 个 过 程 返回 的 却 是 0。 下 面 的 编 
译 器 信息 给 了 我 们 一 个 问题 的 指示 : 


warning: left shift count >= width of type 

A. 我 们 的 代码 在 哪个 方面 没有 遵守 C 的 标准 ? 

B. 修改 代码 ， 使 得 它 在 int 至 少 为 32 位 的 任何 机 器 上 都 能 正确 地 运行 。 

C. 修改 代码 ， 使 得 它 在 int 至 少 为 16 位 的 任何 机 器 上 都 能 正确 地 运行 。 

2.46 © 

你 刚刚 开始 为 一 家 公司 工作 ， 他 们 要 实现 一 组 过 程 来 操作 一 个 数据 结构 ， 要 将 4 个 有 符号 字 节 
封装 成 一 个 32 位 unsigned。 在 字 中 的 字 节 是 从 0 (最 低 有 效 字 节 ) 编号 到 3 (最 高 有 效 字 节 )。 你 被 
分 配 的 任务 是 : 为 使 用 二 进 制 补 码 运算 和 算术 右 移 的 机 器 编写 一 个 具有 如 下 原型 的 函数 : 


/* Declaration of data type where 4 bytes are packed 
into an unsigned */ 
typedef unsigned packed_t; 


/* Extract byte from word. Return as signed integer */ 
int xbyte(packed_t word, int bytenum); 


Beek, ARSENE TT, FCA ST RA—* 32 位 int。 
你 的 前 任 《〈 因 为 水 平 不 够 高 而 被 解雇 了 ) 编写 了 下 面 的 代码 : 


/* Failed attempt at xbyte */ 
int xbyte(packed_t word, int bytenum) 
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return 
(word >> (bytenum << 3)) & OQOxXFF; 


人 
B. 给 出 了 消 数 的 正确 实 只 使 用 左右 移 位 和 一 个 减法 。 


2.47 9 


填 与 下 列表 格 ， 按 照 图 2.20 的 风格 ， 表 明 对 五 位 向 量 取 补 〈 或 取 反 ) 和 加 1 的 结果 。 请 展示 位 
问 量 和 数值 。 


[10000] 


2.48 OF 

请 说 明 先 减 1 然后 取 补 等 价 于 先 取 补 然后 再 加 1。 也 就 是 说 , 对 于 任意 有 符号 值 x, C 表达 式 -x、 
x+1 和 “(x-1) 产 生 同 样 的 结果 。 你 的 推导 依赖 于 二 进 制 补 码 加 法 的 什么 数学 属性 ? 

2499009 

假设 我 们 想 要 计算 x- y 的 完全 2w 位 表示 ， 其 中 , x 和 y 都 是 无 符号 数 ， 并 且 运 行 的 机 器 上 数据 
类 型 unsigned 是 w 位 的 。 乘 积 的 低 w 位 能 够 用 表达 式 x * y 计算 ， 所以， 我 们 只 需要 一 个 具有 下 列 
JR Ad AY PA Bx 

unsigned int unsigned_high_prod(unsigned x, unsigned y); 

XP RMT SEE xy 的 高 w 位。 

我 们 使 用 一 个 具有 下 面 原 型 的 库 函数 ; 

int signed_nigh_prod(int x, int y); 

它 计 自在 x 和 是 二 进 制 补 码 形 式 的 情况 下 ，x .y 的 高 w 位 。 编 写 代 码 调用 这 个 过 程 ， 以 实现 
用 无 符号 数 为 参数 的 函数 。 验 证 你 的 解答 的 正确 性 。 

提示 : 看 看 等 式 2.16 的 推导 中 ， 有 符号 乘积 *. y 和 无 符号 乘积 x'. y 之 间 的 关系 。 

2.50 O¢ 

假设 我 们 有 一 个 任务 : 生成 一 段 代 码 ， 用 来 将 整数 变量 x 乘 以 不 同 的 常数 因子 K。 为 了 提高 效 
率 ， 我 们 想 只 使 用 +、-、<< 等 运算 。 对 于 下 列 玉 的 值 ， 写 出 执行 乘法 运算 的 C 表达 式 ， 每 个 表达 
式 中 最 多 使 用 3 Me 

A. K=5: 

B. K=9: 

C. K=14: 
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D. K=-56: 


2.5194 

编写 产生 如 下 位 模式 的 C 表达 式 , 其 中 4a 表示 符号 a 重复 次。 假设 一 个 w 位 的 数据 类 型 。 你 
的 代码 可 以 包含 对 参数 7 和 大 的 引用 ， 它 们 分 别 表 示 7 了 和 大 的 值 ， 但 是 不 能 使 用 表示 w 的 参数 。 

A.1” 0 。 

B. 0" 1"0/。 

2.52 OF 

假设 我 们 把 w 位 的 字 中 的 字 节 按照 站 O (最 低 有 效 字 节 〉 到 w/8-1《 最 高 有 效 字 节 ) 的 顺序 编号 。 
Bw PC 冰 数 的 代码 ， 这 段 代码 将 迟 回 一 个 无 符号 值 ， 其 中 参数 xz AST CARS TH b Aim S: 

unsigned replace_byte (unsigned x, int i, unsigned char b); 


Fite 22a Bl, ERT BBs ot LE 


replace_byte(0x12345678, 2, OxAB) --> 0x12AB5678 
replace _byte(0x12345678, 0, OxAB) ~-> 0x123456AB 
2.53 OOO 


填写 下 列 C RRR. BM srl 使 用 算术 右 移 〈 由 值 xsra 给 出 ) 来 执行 还 辑 右 移 ， 紧 跟着 的 是 
其 他 不 包括 右 移 或 者 除法 的 运算 。 函数 sra 使 用 逻辑 右 移 〈 由 值 xsrl 给 出 ) 来 执行 算术 右 移 ， 紧 跟着 
的 是 其 他 不 包括 右 移 或 者 除法 的 运算 。 你 可 以 假设 int 是 32 位 长 的 ， 移 位 量 k 的 取 值 范围 是 0 一 31。 

unsigned sr] (unsigned x, int k) 

{ 


/* Perform shift arithmetically */ 
unsigned xsra = (int) xX >> k; 


rrr | 
} 
int sra(int x, int k) 
{ 
/* Perform shift logically */ 


int xsrl = (unsigned) x >> k; 
[5 1... */ 

} 

2.54 © 


我 们 在 一 个 int 类 型 值 为 32 位 的 机 器 上 运行 程序 。 这 些 值 以 二 进 制 补 码 表示 ， 而 且 它 们 都 是 算 
RAR. unsigned 类 型 的 值 也 是 32 位 的 。 
我 们 产生 任意 值 x 和 yy， 并 且 把 它们 转换 成 其 他 无 符号 数 : 


/* Create some arbitrary values */ 
int x = random({); 

int y = random(); 

/* Convert to unsigned */ 

unsigned ux = (unsigned) x; 
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unsigned uy = (ursigned) y; 


对 于 下 列 每 个 C 表达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 那 么 请 描述 其 中 的 
数学 原理 。 和 否则 ， 列 举 出 一 个 使 它 为 0 的 参数 示例 。 


A. (x<y) == (-x>-y) 

B. ((xty)<<4) + y-x == 17*y+15*x 
C. “x+ Yy == ~ (x+y) 

D. (int) (ux-uy) == - (y-x) 

E. ((x >> 1) << 1) «<= x 

2.55 人 


考虑 这 样 一 些 数字 ， 它 们 的 二 进 制 表 示 是 由 形 如 0.y yy yyy… 的 无 穷 串 组 成 的 ， 其 中 yy 是 一 个 
5 位 的 序列 。 例如， 二 的 二 进 制 表示 是 001010101.…(y=0D, T — 的 二 进 制 表示 是 0001100110011 ~ 
(y = 0011). 
A. 设 了 = B2Ui(y)， 也 就 是 说 ， 这 个 数 具 有 二 进 制 表 示 >。 对 于 无 穷 串 表示 的 值 ， 给 出 一 个 由 了 
和 天 组 成 的 公式 。 
提示 : 请 考 虚 将 二 进 制 小 数 点 右 移 上 位 的 结果 。 
B. 对 于 下 列 的 y 值 ， 串 的 数值 是 多 少 ? 
Ca) 001 
(b) 1001 
Cc) 000111 
2.56 > 
填写 下 列 程序 的 返回 值 ， 这 个 程序 测试 的 是 它 的 第 一 个 参数 是 否 大 于 成 者 等 于 第 二 个 参数 。 假 
ERR f2u 返回 一 个 无 从 与 32 位 数字 ,其 位 表示 与 它 的 浮 点 参数 相同 。 你 可 以 假 疏 参数 都 不 是 NaN。 
+0 和 -0 被 认为 是 相等 的 。 
int float_cqe(float x, float y) 
{ 


unsigned ux = £2u(x); 
unsigned uy = f2u(y):; 


/* Get the sign bits */ 
unsigned sx = ux >> 31; 
unsigned sy = uy >> 31> 


/* Give an expression using only ux, uy, sx, and sy */ 
return /* ... */ ; 


} 
2.57 ¢ 


a MA, Ak TA n fib, ON FIR SHERE ABA M、 小 数 广 和 
H VA. Sh, eI RAR 
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A. 数 5.0. 

B. 能 够 被 准 确 描 述 的 最 大 奇 整数 . 

C. 最 小 的 规格 化 数 的 倒数 。 

2.58 @ 

与 Intel 兼容 的 处 理 器 也 文 持 “ 扩 展 精 度 ” 浮 点 形式 ， 这 种 格式 具有 80 位 字 长 ， 被 分 成 1 SH 
号 位 、15 个 指数 位 《k=15)、1 个 单独 的 整数 位 和 63 个 小 数位 〈n=63)。 整 数位 是 IEEE 浮 点 表示 中 
隐 舍 位 的 显 式 拷贝 。 也 就 是 说 ， 对 于 标准 值 它 等 于 1， 对 于 不 标准 值 它 等 于 0。 填 写 下 表 , 给 出 这 种 
格式 中 的 一 些 “有趣 的 ”数字 的 近似 值 。 


最 小 的 非 规格 化 数 


最 小 的 规格 化 数 
最 大 的 规格 化 数 


2.59 @ 

考虑 一 个 基于 EEE 浮 点 格式 的 16 位 浮 点 表示 ， 它 具有 1 个 符号 位 、7 个 指数 位 Ck=7) 和 8 
个 小 数位 〈m=8)。 指 数 偏 置 量 是 2 -1 = 63。 

对 于 每 个 给 定 的 数 ， 填 写 下 表 ， 其 中 ， 每 一 列 具 有 如 下 指示 说 明 . 

Hex: 描述 编码 形式 的 四 个 十 六 进 制 数学 。 


M: 有 效 数 的 值 ， 这 应 该 是 一 个 形 如 x 或 的 数 ， 其 中 x 是 一 个 整数 ， 而 y 是 2 EME. Bi 


a: 0、 7 和 -一 o 
64 256 
E: 指数 的 整数 值 。 


V: 所 表示 的 数学 值 。 使 用 x 或 者 x x 表示， 其 中 x Ale 都 是 整数 。 


举 一 个 例子 ， WT RAR RANA 5 =0, M =~ Al E=1. 因此 我 们 的 数 的 指数 域 为 0x40 (十 


进 制 值 63+1=64)， 有 效 数 域 为 0xC0 (二进制 11000000;)， 得 到 一 个 十 六 进 制 的 表示 40C0。 
标记 为 “-” 的 条 目 不 用 填写 。 
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2.60 @ 

我 们 在 一 个 int 类 型 为 32 位 二 进 制 补 码 表示 的 机 器 上 运行 程序 。float 类 型 的 值 使 用 32 位 IEEE 
格式 ， 而 double 类 型 的 值 使 用 64 位 IEEE 格式 。 

我 们 产生 任意 的 整数 值 *、y 和 z， 并 且 把 它们 转换 成 double: 


/* Create some arbitrary values */ 


int x = random(); 
int y = random(); 
int z = random(); 


/* Convert to double */ 
double dx = (double) x; 
double dy = (double) y; 
double dz = (double) z; 


对 于 下 列 的 每 个 C 表达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 描 述 其 中 的 数学 
mE., AM, SIZE ECA 0 的 参数 的 例子 。 请 注意 ， 不 能 使 用 IA32 机 器 运行 GCC 来 测试 你 的 答 
案 ， 因 为 对 于 float 和 double， 它 使 用 的 都 是 80 位 的 扩展 精度 表示 。 


A. (double) (float) x == dx 
B.dx + dy == (double) (y+x) 
C.dx + dy + dz == dz + dy + dx 


D.dx * dy * dz == dz * dy * dx 
E.dx / dx == dy / dy 


2.61 9 
你 被 分 配 了 一 个 任务 ， 要 编写 一 个 C 函数 来 计算 天 的 浮 点 表示 。 你 意识 到 完成 这 个 的 最 好 方法 
是 直接 创建 结果 的 IEEE 单 精度 表示 。 当 x 太 小 时 , 你 的 程序 将 返回 O.0. 4x KAR, 它 会 返回 +eo。 
填写 下 列 代 码 的 空白 部 分 ， 以 计算 出 正确 的 结果 。 假 设 函 数 u2f 返回 的 浮 点 值 与 它 的 无 符号 参数 有 
相同 的 位 表示 。 
float fpwr2(int x) 
{ 
/* Result exponent and significand */ 
unsigned exp, sig; 


unsigned u; 


1f (x < /* Too small. Return 0.0 */ 
exp = 
sig = 

} else if (x < ) /* Denormalized result */ 
exp = 
Sig = 


} else if (x < ) /* Normalized result. */ 
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exp = 
Sig = 

} else { /* Too big. Return +00 */ 
exp = 


sig = 


/* Pack exp and sig into 32 bits */ 
U = exp << 23 | sig; 

/* Return as float */ 

return u2f(u); 


} 
2.62 © 


大 约 公元 前 250 年 , 希腊 数学 家 阿 基 米 德 证 明 了 < z <=. 如 果 当 时 他 有 一 台 计 算 机 和 标准 


库 <math.h>， 他 就 能 够 确定 zx 的 单 精 度 浮 点 近似 值 的 十 六 进 制 表示 为 0x40490FDB。 当 然 ， 所 有 的 这 
些 都 只 是 近似 值 ， 因 为 x 不 是 有 理 数 。 
A. 这 个 浮 点 值 表 示 的 二 进 制 小 数 是 多 少 ? 


B. Z 的 二 进 制 小 数 表示 是 什么 ? 提示 ， 参 见 练习 题 2.55。 
C. 这 两 个 r 的 近似 值 从 哪 一 位 〈 相 对 于 二 进 制 小 数 点 ) 开始 不 同 的 ? 
练习 题 答 案 


练习 题 2.1 答案 


一 旦 我 们 开始 查看 机 器 级 程序 ， 理 解 十 六 进 制 和 二 进 制 格式 的 关系 将 是 很 重要 的 。 虽 然 本 书 中 
介绍 了 完成 这 些 转换 的 方法 ， 但 是 做 点 练习 能 够 让 你 更 加 熟练 。 
A. 将 0x8F7A93 转 换 成 二 进 制 ; 


十 六 进 制 8 F 7 A 9 3 
二 进 制 1000 1111 0111 1010 1001 0011 


B. 将 二 进 制 1011011110011100 转 换 成 十 六 进 制 |， 
二 进 制 1011 0111 1001 1100 


十 六 进 制 B 7 9 C 
C. 将 0xC4E5D 转换 成 二 进 制 ， 
十 六 进 制 C 4 E 5 D 


一 进 制 1100 0100 1110 0101 1101 
D. 将 二 进 制 1101011011011111100110 转 换 成 十 六 进 制 ; 

二 进 制 11 0101 0111 1110 0110 

十 六 进 制 3 5 7 E 6 
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练习 题 2.2 答案 
这 个 问题 给 你 一 个 机 会 思考 2 的 过 和 它们 的 十 六 进 制 表 示 。 


CO eam | r 
E 
= 


: 
ee e 


练习 题 2.3 答案 
这 个 问题 给 你 一 个 机 会 试 着 对 一 些小 的 数 在 十 六 进 制 和 十 进 制 表 示 之 间 进 行 转换 。 对 于 较 大 的 


数 ， 使 用 计算 希 或 者 转换 程序 会 更 加 方便 和 可 靠 一 些 。 


[wee [co 
saci? foonom [9 
om 


练习 题 2.4 答案 
当 开 始 调试 机 器 级 程序 时 ， 将 发 现在 许多 情况 中 ， 一 些 简单 的 十 六 进 制 运算 是 很 有 用 的 。 可 以 


总 年 托 数 转换 成 十 进 制 ， 完 成 运算 ， 再 把 它们 转换 回来 ， 但 是 能 够 直接 用 十 六 进 制 工作 更 加 有 效 ， 
而 且 和 能够 提供 更 多 的 信息 。 


A. 0x502c+ 0x8 = 0x5034. 8 加 上 十 六 进 制 c 得 到 4 并 且 进 位 1. 

B. 0x502c-0x30 = 0x4ffc。 在 第 二 个 数位 ，2 减 去 3 要 求 从 第 三 位 借 1。 因 为 第 三 位 是 0， 所 以 
我 们 必须 从 第 四 位 借 位 。 

C. 0x502c+64 = 0x506c。 十 进 制 64 (2°) 等 于 十 六 进 制 0x40。 

D. 0x51da-0x502c = 0xae。 十 入 进 制 数 a〈 十 进 制 10) 减 去 十 六 进 制 数 c (十 进 制 12)， 我 们 从 
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第 二 位 借 16， 得 到 十 六 进 制 数 @e (十 进 制 数 147。 在 第 二 个 数位 ， 我 们 现在 用 十 六 进 制 c C+ 
进 制 12) 减 去 2， 得 到 十 六 进 制 a (十 进 制 10)。 


练习 题 2.5 答案 

这 个 问题 测试 你 对 数据 的 字 节 表示 和 和 两 种 不 同 字 节 顺序 的 理解 。 
A. 小 端 法 :78 Km: 12 

B. 小 端 法 : 78 56 大 端 法 : 12 34 

C. hE: 78 56 34 大 端 法 : 12 34 56 


回想 一 下 ，show_bytes 列举 了 一 系列 字 节 ， 从 低位 地 址 的 字 节 开始 ， 然 后 逐一 列 出 高 位 地 址 的 
字 节 。 在 一 个 小 端 法 机 器 上 ， 它 将 按照 从 最 低 有 效 字 节 到 最 高 有 效 字 节 的 顺序 列 出 字 节 。 在 一 个 大 
并 法 机 咒 上 ， 它 将 按照 从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 列 出 字 节 。 
练习 题 2.6 答案 
这 个 问题 又 是 一 个 练习 从 十 六 进 制 到 十 进 制 转换 的 机 会 。 同 时 它 带 给 你 对 整数 和 浮 点 表示 的 思 
考 。 我 们 将 在 本 章 后 别 更 加 详细 地 研究 这 些 表 示 。 
A. 利用 书 中 示例 的 符号 ， 我 们 将 两 个 串 写成 : 
0 0 3 5 4 3 2 1 
00000000001101010100001100100001 


2 i a i i i i i i i i i i a 2 


4 A 5 5 0 C 8 4 
01001010010101010000110010000100 


B. 将 第 二 个 字 相 对 于 第 一 个 字 移 动 2 位 ， 我 们 发 现 一 个 有 21 个 匹配 位 的 序列 ， 
C. 我 们 发 现 除 了 最 高 位 1， 整数 的 所 有 位 都 姐 入 在 浮 点 数 中 。 这 正好 是 书 中 示例 的 情况 。 男 外 ， 
伴 鼎 数 有 一 些 非 零 的 高 位 不 与 整数 中 的 高 位 相 匹 配 。 

练习 题 2.7 答案 

它 打 印 出 41 42 43 44 45 46。 回 想 一 下 ， 库 函数 strlen 不 计算 终止 的 空 字符 ， 所 以 show_bytes 
只 打印 到 字符 “FEF”。 

练习 题 2.8 答案 

这 个 题 日 是 一 个 帮助 你 更 加 熟悉 布尔 运算 的 练习 。 


[01101001] 

[01010101] 

a [10010110] 
[10101010] 


[01000001] 


[01111101} 
[00111100] 
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练习 题 2.9 答案 
这 个 问题 举例 说 明了 布尔 代数 怎样 被 用 来 描述 和 解释 现实 世界 的 系统 。 我 们 能 够 看 到 这 个 颜色 
代数 和 使 用 长 度 为 3 的 位 回 量 上 的 布尔 代数 是 一 样 的 ， 
A. 颜色 的 取 补 是 通过 对 RR、G 和 8B 的 值 取 补 得 到 的 。 由 此 ， 我 们 可 以 看 出 ， 白 色 是 黑色 的 补 ， 
黄色 是 蓝 色 的 补 ， 红 紫色 是 绿色 的 补 ， 蓝 绿色 是 红色 的 补 ， 
B. 黑色 是 0， 而 白色 是 1。 
C. 我 们 基于 颜色 的 位 向 量 表示 来 进行 布尔 运算 。 据 此 ， 我 们 得 到 以 下 结果 : 
Wit (001) | 红色 (100) = 红 紫 色 (101) 
AKE (101) & 蓝 绿 色 (O11) = He (001) 
绿色 (010) ^ 白色 (111) = ARF (101) 
练习 题 2.10 答案 
这 个 程序 依赖 于 EXCLUSIVE-OR 是 可 交换 的 和 可 结合 的 这 一 事实 ， 以 及 对 于 任意 的 a， 有 a 
^a=0。 在 第 5 章 中 我 们 将 看 到 当 两 个 指针 x Aly 相等 时 (也 就 是 说 ， 两 个 指针 指 同 同一 个 位 置 时 )， 
这 段 代 码 将 工作 得 不 正确 。 


练习 题 2.11 答案 

观察 下 列表 达 式 : 

A. x | “OxFF 

B. x ^ OXFF 

C. x & “OxFF 

这 些 表达 式 是 在 执行 低级 位 运算 中 经 常 发 现 的 典型 类 型 。 表达 式 “OxFF 创建 一 个 掩 码 ， 该 掩 码 8 
个 最 低位 等 于 0， 而 其 余 的 位 为 1。 可 以 观察 到 ,这些 掩 码 的 产生 是 和 字 长 无 关 的 。 而 相 比 之 下 ， 表 
达 式 0xFFFFFF00 只 能 工作 在 32 位 的 机 器 上 ， 

练习 题 2.12 答案 

这 个 问题 帮助 你 思考 布尔 运算 和 典型 的 掩 码 运算 之 间 的 关系 。 代 码 如 下 : 

/* Bit Set */ 

int bis(int x, int m) 

{ 

int result = x | m; 

return result; 


} 
/* Bit Clear */ 
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int bic(int x, int m) 
{ 

int result = x & “m; 
return result; 


} 

很 容易 看 出 ，bis 是 等 价 于 布尔 OR 一 一 如 果 x PRA m 中 的 这 一 位 置 位 了 ， 那 么 z 中 的 这 一 位 
就 置 位 。 

bic 运算 更 加 微妙 一 些 。 我 们 想 要 设置 z 的 一 位 为 0， 如 果 mm 的 相应 位 等 于 1。 者 我 们 对 这 个 掩 
码 取 补 得 到 闫 ， 那 么 我 们 就 是 想 要 设置 z 的 一 位 为 0， 如 果 取 补 后 的 掩 码 的 相应 位 等 于 0。 我 们 能 
够 用 AND 运算 来 实现 这 一 点 。 

练习 题 2.13 答案 

这 个 问题 突出 说 明了 位 级 布尔 运算 和 C 语 言 中 的 逻辑 运算 之 间 的 关系 : 


练习 题 2.14 答案 

表达 式 是 ! ^y) 

也 就 是 ， 当 且 仅 当 x 的 每 一 位 和 y 相 应 的 每 一 位 匹配 时 ，x ^ y 等 于 零 。 然 后 ， 我 们 利用 ! 的 功能 
来 判定 一 个 字 是 否 包含 任何 非 零 位 。 

没有 任何 实际 的 理由 要 去 使 用 这 个 表达 式 ， 而 不 简单 地 写成 x == y， 但 是 它 说 明了 位 级 运算 和 
逻辑 运算 之 间 的 一 些 细微 差别 。 

练习 题 2.15 答案 

这 个 问题 是 一 个 帮助 你 理解 不 同 移 位 运算 的 练习 。 


X>>2 X>>2 
(逻辑 ) 《算术 ) 


ooo000ll 0x03 
uoo om 


练习 题 2.16 答案 
一 般 而 言 ， 研 究 非常 小 的 字 长 的 例子 是 理解 计算 机 运算 的 非常 好 的 方法 。 
无 从 号 值 对 应 于 图 2.1 中 的 值 。 对 于 二 进 制 补 码 值 ， 十 六 进 制 数字 0 一 7 的 最 高 有 效 位 为 0， 得 
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到 非 负 值 ， 然 而 十 六 进 制 数 字 8~F 的 最 高 有 效 位 为 1， 得 到 一 个 为 负 的 值 。 


242=12 


F (1111] 3427491479 = 15 94274 2' 4 Ws -1 


练习 题 217 SR 
对 于 32 位 的 机 器 , 任何 值 如 果 由 8 个 十 六 进 制 数字 组 成 的 ， 而 且 开 始 的 那个 数字 在 8~f 之 间 ， 
那么 这 个 数值 就 是 一 个 负数 。 看 到 数字 以 串 f 开头 是 很 普遍 的 事情 ， 因 为 负数 的 起 始 位 全 为 1。 不 


过 , 你 必须 看 仔细 了 。 例如, 数 Ox80483b7 仅仅 有 7 SRS. 把 起 始 位 填 入 0, 从 而 得 到 0x080483b7， 
这 是 一 个 正 数 。 


80483b7: 81 ec 84 01 00 00 sub $0x184, esp A. 388 
80483bd: 53 push %ebx 

8O0483be: 8b 55 08 mov Ox8 (Sebp), tedx B, 8 
80483c1: 8b 5d Oc mov Oxc(%ebp) ,ebx C. 12 
80483c4: 8b 4d 10 mov Oxl0(%ebp} , tecx D. 16 
80483c7: 8b 85 94 fe ff Ff mov OxfffffeI4 (tebp) , teax E. -364 
80483cd: 01 cb add %ecx, tebx 

80483cf: 03 42 10 add 0x10 (Sedx) , teax F. 16 
80483d2: 89 85 a0 fe ff if mov %eax, Oxfffffead (Sebp) G. -352 
80483d8: 8b 85 10 ff ff ff mov OxfffrfrFf10(%ebp) , $eax H. -240 
80483de: 89 42 ic mov $eax, Oxlc(%edx) I. 28 
80483e1: 89 9d 7c ff FE ff mov Sebx,Oxftftftfff7ic (%ebp) J. -132 
S0483e7: 8b 42 18 mov 0x18 (%edx) , eax K. 24 
练习 题 2.18 答案 


从 数学 的 视角 来 看 ， 函 数 T2U 和 U2T 是 非常 奇特 的 。 理 解 它们 的 行为 非常 重要 。 
解答 这 个 问题 ， 我 们 是 根据 二 进 制 补 码 的 值 ， 重 新 排列 练习 题 2.16 的 解答 中 的 行 ， 然 后 列 出 无 
人 符号 值 作 为 函数 应 用 的 结果 。 我 们 展示 出 十 六 进 制 值 ， 以 使 这 个 进程 更 加 具体 。 
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练习 题 2.19 答案 

这 个 练习 题 测试 你 对 等 式 2.4 的 理解 。 

对 于 开始 的 四 个 条 目 ，x 的 值 是 负 的 ， 并 且 T2U (x) =x+2 。 对 于 剩 下 的 两 个 条 目 , x 的 值 是 非 
负 的 ， 并 且 T2UAx) = xo 

练习 题 2.20 答案 

这 个 问题 加 强 你 对 二 进 制 补 码 各 无 符号 表示 之 间 关 系 的 理解 ， 以 及 对 C 语言 升级 规则 
(promotion rule) 的 影响 的 理解 。 回 想 一 下 ，TMWini 是 -2147483648， 并 且 将 它 强制 类 型 转换 为 无 侍 
号 数 后 ， 变 成 了 2147483648。 另 外 ， 如 果 有 任 一 个 运算 数 是 无 符号 的 ， 那 么 在 比较 之 前 ， 男 一 个 运 
算数 会 被 强制 类 型 转换 为 无 符号 数 。 


ae | e a 
Teea | ws 
[esma aanne ae | Nm o 


练习 题 2.21 答案 

在 这 些 函 数 中 的 表达 式 是 常见 的 程序 “习惯 用 语 ” 用 来 从 多 个 位 域 打包 成 的 一 个 字 中 握 取 值 。 
它们 利用 不 同 移 位 运算 的 零 填充 和 符号 扩展 属性 。 请 注意 强制 类 型 转换 和 移 位 运算 的 顺序 。 在 funl 
中 ， 移 位 是 在 无 符号 word 上 进行 的 ， 因 此 是 逻辑 移 位 。 在 fun2 中 ， 移 位 是 在 把 word 强制 类 型 转换 
为 int 之 后 进行 的 ， 因 此 是 算术 移 位 。 


pow funt (w) fun2(w) 


B. AR funl 从 参数 的 低 8 位 中 提取 一 个 信 ， 得 到 范围 O~255 2 HAS RE. PRY fun2 
也 从 这 个 参数 的 低 8 位 中 提取 一 个 值 , 但 是 它 还 要 执行 符号 扩展 。 结 果 将 是 介 于 -128 一 127 之 间 
的 一 个 数 。 

练习 题 2.22 答案 


对 二 无 人 行 写 数 ， 截 断 的 影响 是 相当 直观 的 ， 但 是 对 于 二 进 制 补 码 数 就 不 是 这 样 的 了 。 这 个 练习 
让 你 使 用 非常 小 的 字 长 来 研究 它 的 属性 。 


正如 等 式 2.7 所 描述 的 ， 这 种 截断 无 符号 数值 的 结果 就 是 发 现 它们 的 模 8 余数 。 截 断 有 符号 数 
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的 结 志 要 更 复杂 一 择 。 根 据 等 式 2.8， 我 们 首先 计算 这 个 参数 模 8 后 的 余数 。 对 于 参数 0 一 7， 这 将 
得 出 值 0 一 7, 对 于 参数 -8 一 -1 也 是 一 样 。 然 后 我 们 对 这 些 余数 应 用 函数 U2T,, 得 出 两 个 0 一 3 和 -4~ 
1 序列 的 反复 。 


+i 二 进 制 补 码 
原始 数 。 | 截断 后 的 数 截断 后 的 数 截断 后 的 数 


练习 题 2.23 答案 

这 个 问题 是 设计 来 说 明 从 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 是 多 么 容易 引起 错误 的 啊 。 
将 参数 length 作为 一 个 无 符号 数 来 传递 看 上 去 是 件 相当 自然 的 事情 ， 因 为 没有 人 会 想到 使 用 一 个 值 
为 负数 的 lengths FIERI i <= length-1 看 上 去 也 很 自然 。 但 是 把 这 两 点 组 合 到 一 起 ， 将 产生 意 想 
不 到 的 结果 ! 

因为 参数 lengh 是 无 从 号 的 ， 才 算 0-1 将 使 用 无 符号 运算 来 进行 ， 这 相当 于 横 数 加 法 。 结 果 是 
UMax,, (RBE 32 位 的 机 器 )。< 比 较 同 样 使 用 无 符号 数 比较 ， 而 因为 任意 的 32 位 数 都 是 小 于 或 者 
等 于 UMaxy 的 ， 所 以 这 个 比较 运算 将 一 直 持 续 下 去 ! 因此 ， 代 码 将 试图 访问 数组 a 的 无 效 元 素 。 

有 两 种 方法 可 以 改正 这 段 代 码 ， 其 一 是 将 length 声明 为 int 类 型 ， 其 二 是 将 for 循环 的 测试 条 件 
改 为 1 < length. 

练习 题 2.24 答案 

这 道 习 题 是 对 算术 模 16 的 简单 示范 ,最 容易 的 解决 方法 是 将 十 六 进 制 模式 转换 成 它 的 无 符号 十 
进 制 值 。 对 于 非 零 的 x 值 ， 我 们 必须 有 (1 x) +x = 16。 然 后 ， 我 们 就 可 以 将 取 补 了 的 值 转换 回 十 六 
进 制 |。 


练习 题 2.25 答案 
这 道 习 题 是 一 个 确保 你 理解 了 二 进 制 补 码 加 法 的 练习 。 
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[10000] [10101] 


-16 
[10000] 

-8 
[11000] [00111] 


-2 5 
[11110] [00101] 


8 8 
[01000] [01000] 


练习 题 2.26 答案 

这 个 问题 使 用 非常 小 的 字 长 来 帮助 你 理解 二 进 制 补 码 的 非 (negation). 

对 于 w= 4， 我 们 有 Min, =-8。 因 此 -8 是 它 自己 的 加 法 道 元 ， 而 其 他 数值 是 通过 整数 非 反 来 取 
非 的 。 


o fo a’ 
o o a 
o ee 
Tv 
对 于 无 行 号 数 非 ， 位 的 模式 是 相同 的 。 


练习 题 2.27 答案 
这 起 习 是 是 一 个 确保 你 理解 了 二 进 制 补 码 乘法 的 练习 。 


无 符号 数 0 [110] 2 [010] 12 [001100] 4 [100] 
KF SR | [001] 7 [111] 7 [000111] 7 [111] 
无 符号 数 7 [111] 7 [111] 49 mog | 1 [001] 


练习 题 2.28 答案 
在 第 3 章 中 ， 我 们 将 看 到 很 多 实际 的 leal 指令 的 例子 。 这 个 指令 被 提供 用 来 支持 指针 运算 ， 但 


wii TR y 
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是 C 编译 内 经 常用 它 来 作为 执行 小 常数 乘法 的 一 种 方法 。 
对 于 上 的 每 一 个 值 ， 我 们 可 以 计算 出 2 的 倍数 ;: 2° ( 当 b 为 0) 和 2*+ Cb 为 a)。 因 此 我 们 
能 够 计算 出 倍数 为 1, 2, 3, 4, 5,8 和 9， 
练习 题 2.29 答案 
我 们 友 现 当 人 们 直接 用 汇编 代码 做 这 个 练习 时 是 有 困难 的 。 但 当 把 它 放 入 到 optarith 所 示 的 形 
式 中 ， 问 题 就 变 得 更 加 清晰 明了 了 。 
我 们 可 以 看 到 M 是 15; x*M 是 作为 (x<<4)-x 来 计算 。 
我 们 可 以 看 到 N 是 4; Ay 是 负数 时 ， 加 上 偏 置 量 3， 并 昌 右 移 2 位 。 
练习 题 2.30 管 案 
这 个 “C 的 迷 题 ”清楚 地 告诉 程序 员 必 须 理 解 计算 机 运算 的 属性 。 
A. (x >= 0) Il ((2*x) <0). 
假 。 设 x 等 于 -2147483648 (TMins;)。 屠 么 ， 我 们 将 得 到 2*x 等 于 0。 
B. (x & 7) [= 7 Il (x<<30 < 0). 
Ro MA &7) !=7 了 7 这 个 表达 式 的 值 为 0， 那 么 我 们 必须 有 位 六 等 于 1. SER 30 位 时 ， 这 
个 位 将 变 成 符号 位 。 
C. (x * x) >=0. 
假 。 当 x 为 65535 COxFFFF) IY, x*x 为 -131071 (0xFFFE0001 ). 
D.x<Oll-x <=0. 
BH. WR x 是 非 负 数 ， 则 -x 是 非 正 的 。 
E. x >> 0ll-x>=0 
假 。 设 x 为 -2147483648 (TMins,)。 那 么 x 和 -x 都 为 负数 。 
F. x*y == ux*uy, 
其 。 二 进 制 补 码 和 无 符号 乘法 有 相同 的 位 级 行为 。 
G. “x*y + uy*ux == -y. 
真 。 $F- l. uytux 等 于 xy*y。 因 此 ， 左 手边 等 价 于 -xyy-y+xry。 
练习 题 2.31 答案 
理解 二 进 制 小 数 表 示 是 理解 浮 点 编码 的 一 个 重要 步骤 。 这 个 练习 让 你 试验 一 些 简单 的 例子 。 
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( 续 表 ) 


一 进 制 表示 十 进 制 表示 
11 
_ 1.375 
ož eee eee 
45 
一 一 101.101 5.625 
8 
4 
43 11.0001 3.0625 
16 


考虑 一 进 制 小 数 表示 的 一 个 简单 方法 是 将 一 个 数 表示 为 形 如 去 的 小 数 。 我 们 能 够 将 这 个 形式 
表示 为 二 进 制 ， 过 程 是 ， 使 用 x 的 二 进 制 表示 ， 并 把 二 进 制 小 数 点 插入 从 右边 算 起 的 第 个 位 置 。 
举 一 个 例子 ， 对 于 下， 我 们 有 23. = 10111:。 然 后 我 们 把 二 进 制 小 数 点 放 在 从 右 算 起 的 第 四 位 ， 
得 到 1.0111). 


练习 题 2.32 答案 


企 大 多 数 情 况 中 ， 浮 点 数 的 有 限 精 度 不 是 主要 的 问题 ， 因 为 计算 的 相对 错误 仍然 是 相当 低 的 。 
然而 在 这 个 例子 中 ， 系 统 对 于 绝对 误差 是 很 敏感 的 。 
A. 我 们 可 以 看 到 x -0.1 的 二 进 制 表 示 为 : 


0.000000000000000000000001100[1100] = 2 


把 这 个 表示 与 -= 的 二 进 制 表示 进行 比较 ， 我 们 可 以 看 到 这 就 是 2-20 x 也 就 是 大 约 9.54 x 
10°. 

B. 9.54 x 10° x 100 x 60 x 60 x 10 = 0.343. 

C. 0.343 x 2000 = 687. 

练习 题 2.33 答案 


研究 非常 小 的 字 长 的 浮 点 表示 能 够 帮助 澄清 IEEE 浮 点 是 怎样 工作 的 。 要 特别 注意 非 规格 化 数 和 
规格 化 数 之 间 的 转换 。 


100 第 2 章 


练习 题 2.34 答案 
十 六 进 制 0x354321 等 价 于 二 进 制 [1101010100001100100001] 。 将 之 右 移 21 位 得 到 
1.101010100001100100001, x 2 。 我 们 通过 除去 起 始 位 的 1 并 增加 2 个 0 形成 小 数 域 ， 从 而 得 到 
[10101010000110010000100]. 指数 是 通过 21 加 上 偏 置 量 127 形成 的 , 得 到 148( 二 进 制 [10010100] )。 
我 们 把 它 和 符号 域 0 联合 起 来 ， 得 到 二 进 制 表 示 
[01001010010101010000110010000100] 
我 们 看 到 这 两 个 表达 式 的 相关 性 是 ， 整 数 的 低位 到 最 高 有 效 位 等 于 1， 匹 配 小 数 的 高 21 位 ， 


0 0 3 5 4 3 2 1 
00000000001161010100001100100001 


KKEKK KE KKK KKK Kee 


4 A 5 5 Q C 8 4 
01001010010101010000110010000100 


练习 题 2.35 答案 
这 个 练习 帮助 你 思考 什么 数 是 不 能 用 浮 点 准确 表示 的 。 
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这 个 数 的 二 进 制 表示 是 : 1 后 面 嘴 着 站 个 0， 其 后 再 跟 1， 得 到 值 是 2 +l. 
“n=23 Nt. E 2% 4 1= 16777217. 


练习 题 2.36 答案 
一 般 来 说 ， 使 用 库 宏 (library macro) 会 比 写 你 自己 的 代码 更 好 一 些 。 然 而 ， 这 段 代码 似乎 可 以 
工作 在 多 种 机 丹 上 。 
我 们 假设 值 le400 溢出 为 无 穷 。 
code/data/ieee.c 

1 #define POS _"“NFINITY 1e400 

2 #defire NEG_INFINITY (-POS INFINITY) 

3 #define NEG_ZERO (-1.0/POS_INFINITY) 


code/data/ieee.c 


练习 题 2.37 答案 
这 样 一 个 练习 可 以 帮助 你 提高 从 程序 员 的 角度 来 研究 浮 点 运算 的 能 力 。 
确信 自己 理解 下 面 每 一 个 答案 。 


A.x == (int) (float) x 

fa, PS x A TMax 时 。 
B.x == (int) (double) x 

对 ， 因 为 double 类 型 比 int 类 型 上 共有 更 大 的 精度 和 范围 。 
C.f == (float) (double) f 

对 ， 因 为 double 类 型 比 float 类 型 具有 更 大 的 精度 和 范围 。 
D.d == (float) a 

错 ， 例 如 ， 当 d 为 le40 时 ， 我 们 在 右边 得 到 +eo。 
E.f == -(-£) 


对 ， 因 为 浮 点 数 取 非 就 是 简单 地 对 它 的 符号 位 取 反 。 
F.2/3 == 2/3.0 


错 ， 左 边 的 值 将 是 整数 值 0， 而 右边 的 值 是 浮 点 数字 的 近似 值 ， 


G. (d >= 0.0) I] ((d*2) < 0.0) 
XY, AA REE He BA ed HY. 
H. (d+f£)-d == f 


fa, BM d 是 +% 而 f 是 1 时， 左边 将 是 NaN， 而 右边 将 是 1， 


3.1 
3.2 
3.3 
3.4 
3.5 
3.6 
3.7 
3.8 
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在 用 高 级 语言 如 C 语言 编程 时 ， 我 们 被 屏蔽 了 程序 具体 的 机 器 级 实现 。 相 比 之 下 ， 在 用 汇编 代 
号 程序 时 ， 程 序 员 必须 明确 指定 程序 该 如 何 管 理 存储 器 (memory) 和 用 来 执行 计算 的 低级 指令 。 

大 多 数 时 候 ， 在 高 级 语言 提供 的 较 高 抽象 级 别 上 工作 会 更 有 成 效 和 可 靠 。 编 译 器 提供 的 类 型 检查 能 
帮助 你 发 现 许 多 程序 错误 ， 并 能 够 保证 我 们 是 按照 一 致 的 方式 来 引用 和 管理 数据 的 。 使 用 现代 的 优 
化 编译 器 ， 产 生 的 代码 通常 至 少 与 一 个 熟练 的 汇编 语言 程序 员 手 工 编写 的 代码 一 样 有 效 。 最 好 的 一 
点 吕 是 ， 用 高 级 语言 编写 的 程序 可 以 在 很 多 不 同 的 机 器 上 编译 执行 ， 而 汇编 代码 则 是 与 特定 机 器 密 
切 相 天 的 。 

虽然 串 以 使 用 优化 编 详 旨 ,但 是 对 于 严谨 的 程序 员 来 说 ， 能 够 阅读 和 理解 汇编 代码 仍 是 一 项 很 
午 要 的 技能 。 启 动 编译 器 时 带 上 适当 的 选项 ， 编 译 器 就 会 产生 一 个 汇编 代码 文件 ， 汇 编 代码 非常 接 
近 于 计算 机 执行 的 实际 机 器 代码 。 与 目标 代码 的 二 进 制 格式 相 比 ， 它 的 主要 特色 在 于 它 来 用 的 是 更 
加 易 读 的 文本 格式 。 通 过 阅读 这 些 汇编 代码 ， 我 们 能 够 理解 编译 器 的 优化 能 力 ， 并 分 析出 代码 中 洪 
在 的 低 效率 。 就 像 我 们 将 在 第 $ 章 中 看 到 的 那样 ， 一 个 试图 优化 一 段 关 键 代码 性 能 的 程序 员 ， 通 名 
会 符 试 源 代 码 的 各 种 形式 ， 每 次 编译 并 检查 产生 出 的 汇编 代码 ， 从 而 了 解 程 序 将 要 运行 的 效率 是 如 
何 的 。 此 外 ， 也 有 些 时 候 ， 高 级 语言 提供 的 抽象 层 会 隐藏 我 们 想 要 理解 的 一 些 信息 ， 如 程序 的 运行 
时 行为 。 例 如 ， 第 13 章 中 会 讲 到 ， 当 用 线程 包 写 并 发 程序 时 ， 知 道 用 何 种 存储 (storage) 来 保存 各 
种 程序 变量 是 很 重要 的 ， 而 这 些 信 息 在 汇编 代码 级 是 可 见 的 。 程 序 员 学 习 汇 编 代 码 的 需求 随 着 时 间 
的 推移 也 友 生 了 变化 ， 开 始 时 是 要 求 程 序 员 能 直接 用 汇编 语言 编写 程序 ， 现 在 则 是 要 求 他 们 能 够 疯 
恋 和 理解 优化 编译 器 产生 的 代码 。 

在 本 章 中 ， 我们 将 学 习 某 种 汇编 语言 的 详细 内 容 ， 明 白 C 程序 是 如 何 编译 成 这 种 形式 的 机 器 代 
三 的 。 为 了 阅读 编译 器 产生 的 汇编 代码 ， 除 了 具备 手工 编写 汇编 代码 的 能 力 外 ， 还 包括 其 他 一 些 技 
能 。 我 们 必须 了 解 典 型 的 编译 俘 在 将 C 程序 结构 变换 成 机 器 代码 时 所 做 的 转换 。 相 对 于 C 代码 中 表 
示 的 计算 操作 ， 优 化 编译 器 能 够 重新 排列 执行 顺序 ， 消 除 不 必要 的 计算 并 替换 慢 速 操作 ， 例 如 用 加 
法 和 移 位 来 代替 乘法 ， 其 至 于 将 递归 计算 变换 成 迭代 计算 。 理 解 源 代 码 与 对 应 的 汇编 码 的 关系 通常 
不 太 容 易 一 一 就 像 要 拼 出 一 幅 跟 盒子 上 的 图 片 设计 有 点 不 太一 样 的 拼图 ,这 是 一 种 逆向 工程 (reverse 
engineering ) 通过 研究 系统 和 逆 问 工作 ， 来 试 着 了 解 系统 被 创建 的 过 程 。 在 这 个 情况 中 ， 系 统 
证 一 个 机 吉 产 生 的 汇编 语言 程序 ， 而 不 是 由 人 设计 的 某 个 东西 。 这 简化 了 逆向 工程 的 任务 ， 因 为 产 
生 的 代码 遵循 相当 规则 的 模式 ， 且 我 们 可 以 做 试验 ， 让 编译 器 产生 许多 不 同 程 序 的 代码 。 在 我 们 的 
表述 中 ， 给 出 了 许多 示例 和 练习 ， 来 说 明 汇编 语言 和 编译 器 的 各 个 方面 。 精 通 细节 是 理解 更 深 和 更 
基本 概念 的 先决 条 件 ， 花 点 时 间 研 究 这 些 示例 并 完成 练习 是 非常 值得 的 。 

TE, 我 们 简要 回顾 Intel 的 体系 结构 。Intel 处 理 器 从 1978 年 那个 相当 简单 的 16 位 处 理 器 发 展 
而 来 ， 现 在 已 经 成 为 了 桌面 计算 机 的 主流 机 器 。 随 着 新 特性 的 加 入 ， 体 系 结构 也 在 相应 地 成 长 ， 从 
16 位 体系 结构 转变 成 了 文 持 32 位 数据 和 地 址 的 结构 。32 位 结构 是 相当 奇怪 的 设计 ， 有 些 特 性 只 
从 历史 的 角度 来 看 才 有 意义 。 它 还 负担 着 提供 后 向 兼容 性 的 任务 ， 这 是 现代 编译 器 和 操作 系统 不 需 
要 考虑 的 问题 我们 将 关注 的 是 那些 被 GCC 和 Linux 使 用 的 特性 的 子 集 , 这 样 可 以 避免 许多 复杂 性 
以 及 IA32 的 隐秘 特性 。 

我 们 的 技术 讲解 是 从 快速 浏览 C、 汇 编 代 码 以 及 目标 代码 之 间 的 关系 开始 的 。 然 后 会 讲 到 IA32 
的 细 方 ， 从 数据 的 表示 和 处 理 ， 及 控制 的 实现 开始 。 我 们 会 看 到 如 何 实现 C 语言 中 的 控制 结构 ， 如 
if. while 和 switch 语句 。 这 时 ， 我 们 会 讲 到 过 程 的 实现 ， 包 括 运行 栈 是 如 何 支 持 过 程 间 数据 和 控制 
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的 传递 ， 以 及 局 部 变量 的 存储 〈storage)。 接 者 ， 我 们 会 若 虑 在 机 器 级 如 何 实现 像 数 组 、 结 构 和 联合 
Cunion) 这 样 的 数据 结构 。 有 了 这 些 机 絮 级 编程 的 背景 知识 ， 我 们 会 看 看 存储 器 访问 越界 的 问题 ， 
以 及 系统 容易 遭受 缓冲 区 游 出 攻击 的 问题 。 在 这 一 部 分 的 结尾 ， 我 们 会 给 出 一 些 用 GDB 调试 器 来 
检查 机 器 级 程序 运行 时 行为 的 技巧 。 

接 下 来 是 标 了 星 号 “*” 的 内 容 ， 这 是 为 专门 的 机 器 语言 爱好 者 准备 的 。 我 们 讲述 了 IA32 对 浮 
点 代码 的 文 持 。 这 是 IA32 一 个 非常 不 可 思议 的 特性 ， 所 以 我 们 只 建议 那些 决心 要 使 用 浮 点 代码 的 
人 来 学 习 这 个 部 分 。 我 们 还 简要 介绍 了 一 下 GCC 对 在 C 程序 中 嵌入 汇编 代码 的 支持 。 在 某 些 应 用 程 
序 中 ， 程 序 员 必须 要 用 汇编 代码 来 访问 机 器 的 某 些 低级 特性 。 这 时 ， 垦 入 汇编 代码 就 是 最 好 的 方法 。 


3.1 PERA 


Intel 处 理 器 系列 的 产生 是 一 个 长 期 的 、 不 断 进化 的 发 展 过 程 。 它 开始 于 一 个 单 芯片 、16 位 微 处 
理 器 ， 由 于 当时 集成 电路 技术 水 平 十 分 有 限 ， 其 中 不 得 不 做 了 很 多 妥协 。 从 此 以 后 ， 它 不 断 地 成 长 ， 
利用 技术 的 进步 去 满足 更 高 性 能 和 支持 更 高 级 操作 系统 的 需求 。 

下 面 的 列表 展示 了 按照 时 间 上 顺序 排列 的 Intel 处 理 器 模型 ， 以 及 它们 的 一 些 关 键 特性 。 我们 用 实 
现 这 些 处 理 器 所 需要 的 晶体 管 数量 来 表明 它们 复杂 性 的 演变 过 程 (K 表示 1000, 而 M 表示 1000000). 

8086: (1978, 29K Sdn AE). CEB RED. 16 位 微 处 理 器 之 一 。8088， 即 8086 加 上 
8 位 外 部 总 线 (external bus)， 构 成 最 初 的 IBM 个 人 计算 机 的 心脏 。IBM 与 当时 还 很 小 的 微软 签订 
合同 ， 开 发 MS-DOS 操作 系统 。 最 初 的 机 器 型 号 有 32 768 字 节 的 存储 器 和 两 个 软驱 〈 没 有 硬盘 驱 
动 咒 )。 从 体系 结构 上 来 说 , 这 些 机 器 只 有 655 360 字 节 的 地 址 空间 一 一 地 址 只 有 20 位 长 (1 048 576 
字 节 可 被 寻 址 )， 而 操作 系统 保留 了 393 216 FAA. 

80286: (1982, 134K 个 晶体 管 )。 增 加 了 更 多 的 寻 址 模式 (有些 现在 已 经 废弃 了 )。 构成 了 IBM 
PC-AT 个 人 计算 机 的 基础 ， 这 种 计算 机 是 MS Windows 最 初 的 使 用 平台 。 

i386: (1985, 275K 个 品 体 管 )。 将 体系 结构 扩展 到 32 位 。 增 加 了 平面 寻 址 模式 《flat addressing 
model), Linux 和 最 近 版 本 的 Windows 系列 操作 系统 都 是 使 用 的 这 种 模式 。 这 是 Intel 系列 中 第 一 台 
文 持 Unix 操作 系统 的 机 器 。 

i486: (1989, 19M 个 晶体 管 )。 改 善 了 性 能 ， 同 时 将 浮 点 单元 集成 到 处 理 器 芯片 上 ， 但 是 没有 
改变 指令 集 。 

Pentium: (1993, 3.1M 个 品 体 管 )。 改 善 了 性 能 ， 不 过 只 对 指令 集 增 加 了 小 的 扩展 ， 

PentiumPro: (1995, 6.5M 个 晶体 管 )。 引 入 全 新 的 处 理 器 设计 ， 在 内 部 被 称 为 P6 微 体 系 结构 。 
指令 集中 增加 了 一 类 “条 件 传送 (conditional move)” 19. 

Pentium/MMX: (1997, 4.5M 个 晶体 管 )。 在 Pentium 处 理 器 中 增加 了 处 理 整数 向 量 的 新 指令 
类 。 每 个 数据 可 以 是 1、2 或 4 个 字 节 长 。 每 个 向 量 总 长 64 位 。 

Pentium Hi: (1997, 7M 个 晶体 管 )。 通 过 在 P6 徽 体 系 结 构 中 实现 MMX 指令 ， 合 并 了 以 前 分 
离 的 PentiumPro 和 Pentium/MMX 系列 。 

Pentium III: (1999, 8.2M 个 晶体 管 )。 引 入 另 一 类 处 理 整 数 或 浮 点 数 向 量 的 指令 ， 每 个 数据 可 
以 是 1、2 或 4 个 字 节 长 ， 打 包 成 128 位 的 向 量 。 由 于 在 芯片 上 包括 了 二 级 高 速 缓 存 ， 这 种 芯片 后 来 
的 版 本 最 多 使 用 了 24M 个 晶体 管 。 
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Pentium 4: (2001, 42M 个 晶体 管 )。 在 向 量 指 令 中 增加 了 8 字 节 整数 和 浮 点 格式 ， 以 及 针对 
这 些 格式 的 144 个 新 指令 。 在 编号 惯例 上 ，Intel 不 再 使 用 罗马 数字 

每 个 时 间 上 相继 的 处 理 器 设计 都 是 后 向 兼容 的 一 一 也 就 是 ， 较 早 版 本 上 编译 的 代码 是 可 以 在 较 
新 的 处 理 器 上 运行 的 。 正 如 我 们 会 看 到 的 那样 ， 为 了 保持 这 种 进化 传统 ， 指 令 集 中 有 许多 非常 奇怪 
的 东西 。Intel 现在 称 其 指令 集 为 IA32， 也 就 是 “Intel 32 位 体系 结构 《Intel Architecture 32-bit)”。 这 
个 处 理 器 系列 也 俗称 为 “x86”， 反 了 师 出 直到 1486 的 处 理 器 命名 惯例 。 


F: ARN i586? 

Intel 没有 继续 沿用 他 们 的 数字 命名 惯例 ， 是 因为 他 们 无 法 获得 CPU 编号 的 商标 保护 。 关 国 商 
标 局 不 多 许 用 数字 作为 商标 。 因 此 ， 他 们 创造 了 “Pentium” 这 个 调 ， 用 的 是 希腊 词根 penta, AR 
这 是 他 们 的 第 五 代 机 器 .从 此 以 后 ， 他 们 就 使 用 这 个 词 的 变 体 ， 即 使 PentiumPro 是 第 六 代 机 器 〈 因 
此 内 部 称 为 P6)， 而 Pentium 4 是 第 七 代 。 每 出 现 新 的 一 代 都 包括 处 理 器 设计 中 的 一 个 很 大 的 变化 。 
Sit: MRE (Moore's Law) 
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如 果 我 们 画 出 上 面 列 出 的 各 种 IA32 处 理 器 中 晶体 管 的 数量 与 它们 出 现 的 年 份 之 间 的 图 ， 并 且 
RY 轴 为 晶体 管 数 的 对 数值 ， 我 们 能 够 看 出 ， 增 长 是 很 显著 的 。 划 一 条 线 穿 过 这 些 数 据 ， 我 们 看 到 
晶体 管 数量 以 每 年 大 约 33 允 的 比率 增加 ， 也 就 是 说 ， 每 30 个 月 晶体 管 数量 就 会 盘 一 备 。 在 IA32 的 
历史 上 ， 这 种 增长 已 经 持续 了 大 约 25 年 ， 

1965 Æ, Gordon Moore, Intel 公司 的 创始 人 ， 根据 当时 芯片 技术 ,也 就 是 能 够 在 一 个 芯片 上 制 
造 有 大 约 64 个 品 体 管 的 电路 ， 艇 出 推断 ， 预 测 在 未 来 10 年 内 ， 每 年 芯片 上 的 晶体 管 数量 都 会 瘟 一 
番 。 这 个 预测 就 称 为 摩尔 定律 。 正 如 事实 证 明 的 那样 ， 他 的 预测 不 仅 有 点 乐观 ， 而 且 太 短视 了 。 在 
它 四 十 多 年 的 历史 里 ， 半 导体 工业 能 够 每 18 个 月 就 将 虹 体 管 数 目 加 倍 。 

对 计算 机 技术 的 其 他 方面 ， 也 有 类似 的 旦 指数 性 增 美的 情况 出 更 ， 比 如 磁盘 容量 ， 在 储 器 芯片 
ZE, PREZIRE. 


这 些 年 来 , 有 几 家 公司 生产 出 了 与 Intel 处 理 器 兼容 的 处 理 器 ,它们 能 够 运行 完全 相同 的 机 器 级 
程序 。 其 中 ， 领 头 的 是 AMD 公司 。 数 年 来 ，AMD 的 策略 一 直 是 在 技术 上 紧 跟 在 Intel 后 面 ， 生 产 
性 能 稍 低 但 是 价格 更 便宜 的 处 理 器 。 最 近 ，AMD 已 经 生产 出 了 一 些 顶 级 性 能 的 IA32 处 理 器 ， 这 些 
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处 理 器 是 第 一 个 突破 商业 可 用 微 处 理 器 1G 时 钟 速度 门槛 的 。 虽 然 我 们 会 谈 到 Intel 处 理 器 ， 但 是 这 
些 描述 对 Intel 的 竞争 对 手 生 产 的 兼容 处 理 器 也 同样 适用 。 

对 由 GCC 编译 器 产生 出 的 、 运行 在 Linux 操作 系统 平台 上 的 程序 , 感 兴趣 的 人 并 没 关 注 到 IA32 
复杂 性 的 大 部 分 。 最 初 的 8086 中 的 存储 器 模型 和 它 在 80286 中 的 扩展 都 已 经 过 时 了 。 作 为 替代 ， 
Linux 使 用 了 平面 寻 址 方式 (flat addressing)， 在 这 种 寻 址 方式 中 ， 程 序 员 将 整个 存储 空间 看 做 一 个 
大 的 字 节 数组 。 

NAHM ARE, 我们 可 以 看 到 , IA32 中 加 入 了 很 多 处 理 小 整数 和 浮 点 数 向 量 的 格式 和 指 
令 。 增 加 这 些 特 性 是 为 了 提高 多 媒体 应 用 程序 的 性 能 ， 例 如 图 像 处 理 、 音 频 和 视频 编码 和 解 公 ， 以 
及 三 维 计算 机 图 形 。 不 幸 的 是 ， 目 前 版 本 的 GCC 产生 的 代码 不 会 使 用 这 些 新 特性 。 实 际 上 ， 在 默 
认 局 动 方式 下 ，GCC 会 假设 它 是 为 一 个 i386 机 器 产生 代码 ， 编 译 器 不 会 试图 使 用 许多 添加 a 到 现在 
看 来 已 经 非常 老 的 体系 结构 的 扩展 特性 。 


3.2 程序 编码 
假设 我 们 写 一 个 C 程序 ， 有 两 个 文件 pic 和 p2.c。 然 后 我 们 用 Unix 命令 行 编 详 这 段 代 码 : 


unix> gcc -02 -o p pl.c p2.c 

命令 gcc 表明 的 就 是 GNU C 编译 器 GCC。 因 为 这 是 Linux 上 默认 的 编译 器 ， 我 们 也 可 以 简单 
地 用 CC 来 启动 它 。 编 译 选项 -O2 告诉 编译 器 使 用 第 二 级 优化 。 通 常 ， 提 高 优化 级 别 会 使 最 终 程序 
运行 得 更 快 ， 但 是 编译 时 间 可 能 会 变 长 ， 对 代码 进行 调试 会 更 困难 。 第 二 级 优化 是 性 能 优化 和 使 用 
方便 之 间 的 一 种 很 好 的 妥协 。 本 书 中 所 有 的 代码 都 是 用 这 个 优化 级 别 进行 编译 的 。 

这 个 命令 实际 上 调用 了 一 系列 程序 ， 将 源 代 人 码 转 化 成 可 执行 代码 、 首 先 ，C 预 处 理 器 会 扩展 源 
代码 ， 插 入 所 有 用 机 nclude 命令 指定 的 文件 ， 并 扩展 所 有 的 宏 。 其 次 ， 编 译 器 产生 两 个 源 文件 的 汇 
编 代 码 ， 名 字 分 别 为 pl.s 和 p2,s。 接 下 来 ,汇编 器 会 将 汇编 代码 转化 成 二 进 制 目 标 代 码 文 件 pl.o 和 
p2.0。 最 后 ， 链 接 器 将 两 个 目标 文件 与 实现 标准 Unix ERA CGO printf) 的 代码 合并 ， 并 产生 最 
终 的 可 执行 文件 。 我 们 会 在 第 7 章 中 更 详细 地 介绍 链接 。 


3.2.1 机 器 级 代码 
在 整个 编译 过 程 中 ,编译 器 会 完成 大 部 分 的 工作 ， 将 把 用 C 提供 的 相对 比较 抽象 的 执行 模型 表 
示 的 程序 转化 成 处 理 器 执行 的 非常 基本 的 指令 。 汇 编 代码 表示 非常 接近 于 机 器 代码 。 与 目标 代码 的 
二 进 制 格 式 相 比 ， 汇 编 代 码 的 主要 特点 是 用 可 读 性 更 好 的 文本 格式 表示 的 。 能 够 理解 汇编 代码 以 及 
它 是 如 何 与 原始 的 C 代码 相对 应 的 ， 是 理解 计算 机 如 何 执行 程序 的 关键 一 步 。 
汇编 程序 员 看 到 的 机 器 与 C 程序 员 看 到 的 机 器 差别 很 大 . 一 些 通常 对 C 程序 员 屏 蔽 的 处 理 器 状 
态 是 可 见 的 : 
© 程序 计数 器 〈 称 为 %eip) 表示 将 要 执行 的 下 一 条 指令 在 存储 器 中 的 地 址 。 
。 整数 寄存 器 文件 包含 8 个 被 命名 的 位 置 , 分 别 存储 32 位 的 值 . 这 些 寄存 器 可 以 存储 地 址 (对 
应 于 C 的 指针 ) 或 整数 数据 。 有 的 寄存 器 用 来 记录 某 些 重要 的 程序 状态 ， 而 其 他 的 寄存 器 
用 来 保存 临时 数据 ， 例 如 过 程 的 局 部 变量 。 
。 条 件 码 寄存 器 保存 着 最 近 执 行 的 算术 指令 的 状态 信息 。 它们 用 来 实现 控制 流 中 的 条 件 变化 ， 
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比如 说 用 来 实现 过 或 while 语句 . 

。 学 点 寄存 器 文件 包含 8 个 位 置 ， 用 来 存放 浮 点 数据 ，。 

虽然 C 提供 了 一 种 模型 ， 可 以 在 存储 器 中 声明 和 分 配 各 种 数据 类 型 的 对 象 ， 但 是 汇编 代码 只 是 
简单 地 将 存储 器 看 成 一 个 很 大 的 、 按 字 节 寻 址 的 数组 。C 中 的 聚集 数据 类 型 ， 例 如 数组 和 结构 ， 在 
汇编 代码 中 是 用 连续 的 字 节 表示 的 。 即 使 是 对 标量 数据 类 型 ， 汇 编 代 码 也 不 区 分 有 符号 或 无 符号 整 
数 ， 不 区 分 各 种 类 型 的 指针 ， 甚 至 于 不 区 分 指针 和 整数 。 

程序 存储 器 (program memory) 包含 程序 的 目标 代码 ， 操 作 系 统 需 要 的 一 些 信 息 ， 用 来 管理 过 
程 调用 和 返回 的 运行 时 栈 ， 以 及 用户 分 配 的 存储 器 块 《〈 比 如 说 用 malloc 库 函 数 分 配 的 )。 

程序 存储 器 是 用 虚拟 地 址 来 寻 址 的 。 在 任意 给 定 的 时 刻 , 只 有 有 限 的 一 部 分 虚拟 地 址 是 合法 的 ，。 
例如 ,虽然 IA32 的 32 位 地 址 可 以 寻 址 4GB 的 地 址 范围 , 但 是 一 个 通常 的 程序 只 会 访问 几 M 字 节 。 
操作 系统 负责 管理 虚拟 地 址 空间 , 将 虚拟 地 址 转换 成 实际 处 理 器 存储 器 (processor memory) 中 的 物 
理 地 址 。 

一 条 机 露 指令 只 执行 非常 基本 的 操作 。 例 如 ， 将 两 个 存放 在 寄存 邵 中 的 数字 相 加 ， 住 仓储 促 和 
寄存 器 之 间 传 递 数据 ， 或 是 条 件 分 支 转移 到 新 的 指令 地 址 。 编 译 絮 必须 产生 这 些 指令 序列 ， 从 而 实 
现象 算术 表达 式 求 值 、 循 环 或 过 程 调 用 和 返回 这 样 的 程序 结构 。 


3.2.2 代码 示例 
假设 我 们 写 了 一 个 C 代码 文件 code.c， 包 含 下 面 这 样 的 过 程 定义 : 


int accum = 0; 


1 

2 

3 int sum(int x, int y) 
4 { 

5 int t = X + y; 

6 accum += t; 

7 return t; 

8 


} 
在 命令 行 上 使 用 “-S” 选 项 ， 就 能 看 到 C 编译 器 产生 的 汇编 代码 ; 


unix> gcc -02 -S code.c 


1k AE a VE aa EI a CF code.s， 但 是 不 做 其 他 进一步 的 工作 (通常 情况 下 ， 它 还 会 调 
用 汇编 春 产生 目标 代码 文件 )。 

GCC 是 按照 它 自己 的 格式 产生 汇编 代码 的 , 这 种 格式 称 为 GAS(Gnu ASsembler, GNU 汇编 器 )。 
我 们 的 讲述 是 基于 这 种 格式 的 , 它 同 Intel 文档 中 的 格式 以 及 微软 编译 器 使 用 的 格式 差异 很 大 。 从 参 
考 文 献 说 明 中 可 以 获得 关于 如 何 找到 各 种 汇编 代码 格式 文档 的 建议 。 

访 编 代 公 文件 包含 各 种 声明 ， 包 括 下 面 所 示 : 


Sum: 
pushl %*ebp 
movl %esp, %ebp 
movl 12(%ebp), teax 
addi 8(%ebp) ,teax 
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addi %eax, accum 
movi %ebp, %$esp 
popl %ebp 
ret 
上 面 代码 中 每 个 缩 进去 的 行 都 对 应 于 一 条 机 器 指令 。 比 如 ，pushl 指令 表示 应 该 将 寄存 器 9%ebp 
的 内 容 压 入 程序 栈 中 。 这 段 代 码 中 已 经 除去 了 所 有 关于 局 部 变量 名 或 数据 类 型 的 信息 ， 但 我 们 还 十 
看 到 了 一 个 对 全 局 变量 accum 的 引用 ， 这 是 因为 编译 器 还 不 能 确定 这 个 变量 会 放 在 存储 器 中 的 哪个 
位 置 。 
如 果 我 们 使 用 “-c” 命 令 行 选 项 ，GCC 会 编译 并 汇编 该 代码 : 
unix> gcc -02 -c code.c 
这 就 会 产生 目标 代码 文件 code.o,， 它 是 二 进 制 格式 的 ， 所 以 无 法 直接 读 。852 字 节 的 文件 code.o 
中 有 一 段 19 字 市 的 十 六 进 制 表示 的 序列 : 
55 89 e5 8b 45 Oc 03 45 08 01 05 00 00 00 00 89 ec 5d c3 
这 就 是 对 应 于 上 面 列 出 的 汇编 指令 的 目标 代码 。 从 中 得 到 的 重要 信息 就 是 ， 机 器 实际 执行 的 程 
序 只 是 对 一 系列 指令 进行 编码 的 字 节 序列 。 机 器 对 产生 这 些 指令 的 源 代 码 几 乎 一 无 所 知 。 
旁 注 ， 邵 何 找 到 程序 的 字 节 衰 示 ? 
首先 ， 我 们 用 反 汇 编 器 ( 待 会 儿 会 讲 到 的 ) 来 确定 函数 sum 的 代码 长 是 19 FH. RS, AM 
在 文件 code.o 上 运行 GNU 调试 工具 GDB, RAGS: 
(gdb) x/19xb sum . wR . 
这 条 命令 告诉 GDB 检查 (简写 为 “x”) 19 个 十 六 进 制 格式 (BH “x” ) 的 字 节 (简写 为 “b”)。 
你 会 发 现 ，GDB 有 很 多 有 用 的 特性 可 以 用 来 分 析 机 器 级 程序 ， 我 们 会 在 3.12 节 中 讨论 这 个 问题 ， 
要 查看 目标 代码 文件 的 内 容 ， 有 一 类 称 为 反 汇 编 器 (disassembler ) 的 程序 的 价值 无 法 估量 ， 这 


些 程 序 根据 目标 代码 生成 一 种 类 似 于 汇编 代码 的 格式 。 在 Linux 系统 中 ， 带 “-d” 命 令 行 选项 的 程 
序 OBJDUMP (代表 “object dump”) 可 以 充当 这 个 角色 : 


unix> objdump -d code.o 
结果 是 这 里 ， 我 们 在 左边 增加 了 行 号 ， 在 右边 增加 了 注解 ): 


Disassembly of function sum in file code.o 
1 00000000 <sum>: 


Offset Bytes Equivalent assembly language 
2 0 : 55 push $ebp 
3 89 ed mov $esp, tebp 
4 3 8b 45 Oc mov Oxc (tebp) , teax 
5 6: 03 45 08 add 0x8 (%ebp) , eax 
6 9 : 01 05 00 00 00 00 add $eax, 0x0 
7 f: 89 ec mov $ebp, esp 
8 11: 5a pop $ebp 
9 12: C 3 ret 
1 


0 13: 90 nop 
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在 左边 ， 我 们 看 到 按照 前 面 给 出 的 字 节 顺序 排列 的 19 个 十 六 进 制 字 节 值 ， 它 们 分 成 了 一 些 组 ， 
每 组 有 1 一 6 个 字 节 。 每 组 都 是 一 条 指令 ， 右 边 是 等 价 的 汇编 语言 。 其 中 一 些 特性 值得 说 明 : 
。 IA32 指令 长 度 从 1 一 15 个 字 节 不 等 。 指 令 编码 被 设计 成 使 常用 的 指令 以 及 操作 数 较 少 的 指 
令 所 天 的 字 节 数 少 ， 而 那些 不 太 常 用 或 操作 数 较 多 的 指令 所 需 字 节 数 较 多 。 
。 指令 格 却 是 按照 这 样 一 种 方式 设计 的 ， 从 某 个 给 定位 置 开 始 ， 可 以 将 字 节 惟 一 地 解码 成 机 
器 指令 。 例 如 ， 只 有 指令 pushl %ebp 是 以 字 节 值 55 开头 的 。 
e 反 六 编 器 只 是 根据 目标 文件 中 的 字 节 序列 来 确定 汇编 代码 的 。 它 不 需要 访问 程序 的 源 代码 
或 汇编 代码 。 
* 及 碟 编 费 使 用 的 指令 命名 规则 与 GAS 使 用 的 有 些 细微 的 差别 。 在 我 们 的 示例 中 ， 它 省 略 了 
很 多 指令 结尾 的 “1”。 
。 与 code.s 中 的 汇编 代码 相 比 ， 我 们 还 发 现 结尾 多 了 一 条 nop 指令 。 这 条 指令 根本 不 会 被 执行 
( 它 在 过 程 返回 指令 之 后 ), 即使 执行 了 也 不 会 有 任何 影响 (所 以 称 之 为 nop, 是 “no operation” 
的 简写 ， 通 常 读 作 “no op”)。 编 译 器 插入 这 样 的 指令 是 为 了 填充 存储 该 过 程 的 空间 。 
生成 实际 可 执行 的 代码 需要 对 一 组 目标 代码 文件 运行 链接 器 ， 而 这 一 组 目标 代码 文件 中 必须 含 
有 一 个 main Kf. BEREX maine 中 有 下 面 这 样 的 函数 ; 
int main() 
{ 


1 
2 
3 return sum(1, 3); 
4 } 


然后 ， 我 们 用 如 下 方法 生成 可 执行 文件 test: 
unix> gcc -02 -o prog code.o main.c 


文件 prog 变 成 了 11667 字 节 ， 因 为 它 不 仅 包含 我 们 的 两 个 过 程 的 代码 ,还 包含 了 用 来 启动 和 终 
止 程序 的 信息 ， 以 及 用 来 与 操作 系统 交互 的 信息 。 我 们 也 可 以 反 汇编 prog 文件 : 


unix> objdump -d prog 
RIL a ae 2 HA HS PRG PR, AS FR: 


Disassembly of function sum in executable file prog 


1 080483b4 <sum>: 

2 80483b4: 55 push %ebp 

3 80483b5: 89 e5 Mov esp, Sebp 

4 80483b?: 8b 45 Oc mov Oxc ($ebp) , eax 
5 80483ba: 03 45 08 add 0x8 ($ebp) , eax 
E 80483bd: 01 05 64 94 04 08 add eax, 0x8049464 
7 80483c3: 89 ec mov $ebp, %esp 

g 80483c5: 5d pop %ebp 

9 80483c6: c3 ret 

10 80483c7: 9C nop 


注意 ， 这 段 代 码 与 code.c 反 汇 编 产 生 的 代码 几乎 完全 一 样 。 一 个 主要 的 区 别 是 堪 边 列 出 的 地 址 
个 同一 一 链接 器 将 代码 的 地 址 移 到 一 段 不 同 的 地 址 范围 。 第 二 个 不 同 之 处 在 于 链接 器 终于 确定 存储 
全 局 变量 accum 的 地 址 。code.o 反 汇 编 代码 的 第 6 行 中 ，accum 的 地 址 还 是 0。 prog 的 反 汇 编 代 码 
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中 ， 地 址 就 设 成 了 0x8049464。 这 可 以 从 指令 的 汇编 代码 格式 中 看 到 ， 还 可 以 从 指令 的 最 后 四 个 字 
节 中 看 出 来 ， 从 最 低位 到 最 高 位 列 出 的 就 是 64 94 04 08. 


3.2.3 ”关于 格式 的 注解 
GCC 产生 的 汇编 代码 有 点 难 读 ， 它 包含 一 些 我 们 不 需要 关心 的 信息 。 另 外 ， 它 不 提供 任何 程序 
的 描述 或 它 是 如 何 工作 的 描述 。 例 如 ， 假 设 文件 simple.c 包含 下 列 代 码 : 


1 int simple(int *xp, int y) 
2 { 

3 int t = *xp + y; 

4 *xp = t; 

5 return t; 

6 } 


当 市 选项 “-$” 运 行 GCC 时 ， 它 产生 下 面 的 文件 simple.s: 


file "simple.c" 

.version "01.01" 
gec2_compiled.: 
„text 

.align 4 
.globi simple 

.type Simple, @function 
simple: 

pushl %ebp 

movi %tesp, tebp 

movil 8(%ebp) , teax 

movl (teax), Sedx 

addl 12 (%*ebp) , tedx 

movl %edx, (%eax) 

movl %tedx, teax 

movl %*ebp, tesp 

popi %ebp 

ret 
.Lfel: 

.size Simple, .Lfel-simple 

.1dent "GCC: (GNU} 2.95.3 20010315 (release)" 


文件 包含 的 信息 多 于 我 们 实际 需要 的 。 所 有 以 “.” 开 头 的 行 都 是 指导 汇编 器 和 链接 器 的 命令 
Cdirective )， 不 过 我 们 通常 可 以 忽略 这 些 行 。 男 一 方面 ， 也 没有 关于 这 些 指 令 是 干什么 用 的 以 及 它 
们 与 源 代码 之 间 关 系 的 解释 说 明 ，。 

为 了 更 消 楚 地 说 明 汇 编 代码 ， 我 们 将 给 出 汇编 代码 的 格式 ， 包 括 行 呈 和 解释 性 说 明 。 对 于 我 们 
的 示例 ， 带 解释 的 汇编 代码 是 像 下面 这 样 的 : 


1 Simple: 


2 pushl %ebp Save frame pointer 

3 movil %esp,%ebp Create new frame pointer 
4 movil 8(%ebp) , teax Get xp 

5 


movi (%eax) , tedx Retrieve *xp 
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6 addi 12(%ebp) , tedx Add y to gett 

7 mov %*edx, (%eax) Store t at *xp 

8 movl %*edx, teax Set tas return value 
9 movi %ebp, esp Reset stack pointer 
10 popl %ebp Reset frame pointer 
11 ret Return 


通常 我 们 只 会 给 出 与 要 讨论 内 容 相关 的 代码 行 。 每 一 行 的 左边 都 有 编号 供 引 用 ， 右 边 是 注释 ， 
简单 地 描述 指令 的 效果 以 及 它 与 原始 C 代码 中 的 计算 操作 的 关系 。 这 是 一 种 汇编 语言 程序 员 写 代码 
的 风格 。 


3.3 数据 格式 


由 于 是 从 16 位 体系 结构 扩展 成 32 位 的 ，Intel 用 术语 “ 字 (word)” 表 示 16 位 数据 类 型 。 因 此 ， 
BK 32 位 数 为 “ 双 字 【double words)”, $R 64 MAA “VU Cquad words)”. 我 们 将 遇 到 的 大 多 数 指 
令 都 是 对 字 市 或 双 字 操作 的 。 

图 3.1 给 出 了 对 应 C 基本 数据 类 型 的 机 器 表示 。 注 意 ， 大 多 数 常 用 数据 类 型 都 是 作为 双 字 存储 
的 。 其 中 ， 包 括 普通 整数 Gnt) 和 长 整数 (long int)， 无 论 它们 是 否 有 符号 。 此 外 ， 所 有 的 指针 《在 
此 用 char * 表 示 ) 都 是 4 字 节 的 双 字 。 处 理 字 符 串 数据 时 ， 通 常用 到 字 节 。 浮 点 数 有 三 种 形式 : 单 
HE AFT) 值 ， 对 应 于 C 数据 类 型 foat; WHR (8 字 节 ) 值 ， 对 应 于 C 数据 类 型 double; 和 
扩展 精度 (10 字 节 ) 值 。GCC 用 数据 类 型 long double 来 表示 扩展 精度 的 浮 点 值 。 为 了 提高 存储 器 
系统 的 性 能 ， 它 将 这 样 的 浮 点 数 存 储 成 12 字 节 数 ， 待 会 儿 我 们 会 讨论 这 个 问题 。 虽 然 ANSI C 标准 
包括 long double 数据 类 型 , 但 是 对 大 多 数 编译 器 和 机 器 组 合 来 说 , 它 的 实现 和 普通 double 的 8 字 市 
格式 是 一 样 的 .对 GCC 和 1A32 的 组 合 来 说 ， 支 持 扩展 精度 是 很 少见 的 。 


Inte! 数据 类 型 大 小 (PH) 
字 节 


unsigned 


long int 


unsigned long 


Char * 


Ee fb Sf A A FSF N 一 


float 


double 


oO 


long double 


图 3.1 标准 数据 类 型 的 大 小 


如 图 3.1 所 示 ，GAS 中 的 每 个 操作 都 有 一 个 字符 后 缀 ， 表 明 操 作 数 的 大 小 。 例 如 ，movy (传送 
数据 ) 指令 有 三 种 形式 :movb (传送 字 节 )、movw (EEF) 和 movi (传送 双 字 )。 后 缀 “1” 用 来 
表示 双子 ， 因 为 在 许多 机 器 上 ，32 位 数 都 称 为 “长 字 〈]long word)”， 这 是 沿用 以 16 位 字 为 标准 的 
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上 时代 的 习惯 造成 的 。 注 意 ，GAS 使 用 后 级 “1” 来 同时 表示 4 字 节 的 整数 和 8 字 节 的 双 精 度 浮 点 数 。 
这 不 会 产生 歧义 ， 因 为 浮 点 数 使 用 的 是 一 组 完全 不 同 的 指令 和 寄存 器 。 


3.4 ”访问 信息 


-个 IA32 中 央 处 理 单元 (CPU) 包含 一 组 八 个 存储 32 位 值 的 寄存 器 ， 这 些 寄存 器 用 来 存储 整 
数 数据 和 指针 。 图 3.2 显示 了 这 八 个 寄存 器 。 它 们 的 名 字 都 是 以 9%e 开头 的 ， 不 过 它们 都 有 特殊 的 名 
了 字 。 在 最 初 的 8086 F, FARE 16 位 的 ， 每 个 都 有 特殊 的 用 途 。 选 择 的 名 字 就 是 用 来 反映 各 种 用 
途 的 。 在 平面 寻 址 中 ， 对 特殊 寄存 器 的 需求 已 经 大 为 降低 了 。 在 大 多 数 情况 中 ， 前 六 个 寄存 器 都 可 
以 看 成 通用 寄存 器 ,对 它们 的 使 用 没有 限制 。 我们 说 “在 大 多 数 情 况 中 ”， 是 因为 有 些 指令 是 以 固定 
的 寄存 器 作为 源 和 /或 日 的 的 。 另 外 ， 在 过 程 (procedures〉 处 理 中 ， 对 前 三 个 寄存 器 (%eax、%ecx 
和 9%edx) 的 保存 和 恢复 饶 例 将 不 同 于 接 下 来 的 三 个 寄存 器 (%ebx、%edi 和 %esi)， 我 们 会 在 3.7 W 
中 对 此 加 以 讨论 。 最 后 两 个 寄存 器 (9bebp 和 9%esp) 保存 着 指向 程序 栈 中 重要 位 置 的 指针 ， 只 有 根 
据 栈 管理 的 标准 惯例 才能 修改 这 两 个 寄存 器 中 的 值 。 


31 15 8 7 0 
teax tax tah | tal 
$ecx tcx ch tcl 
Sedx dx dh dl 
%ebx tbx tbh tbl 


tes1 %¥si 


$esp tsp 栈 指针 
tebp tbp PATE Et 


图 3.2 ”整数 寄存 路 
所 有 八 个 寄存 器 都 可 以 作为 16 位 〈 字 ) 或 32 位 ORF) 来 访问 ， 也 可 以 独立 访问 前 四 个 寄存 器 的 两 个 低位 字 节 。 


如 图 3.2 所 示 ， 字 节操 作 指 令 可 以 独立 地 读 或 者 写 前 四 个 寄存 器 的 两 个 低位 字 节 。8086 中 提供 
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这 样 的 特性 是 为 了 后 向 兼容 8008 和 8080, 8008 和 8080 是 两 款 可 以 退 述 到 1974 年 的 微 处 理 器 。 当 
一 条 字 节 指令 更 新 这 些 单字 节 “ 寄 存 器 元 素 ” 中 的 一 个 时 ， 该 寄存 器 余下 的 三 个 字 市 不 会 被 改变 。 
类 似 地 ， 字 操作 指令 可 以 读 或 者 写 每 个 寄存 器 的 低 16 位 。 这 个 特性 源 自 IA32 是 从 16 MAALE A 
演化 而 来 的 。 


3.4.1 操作 数 指示 符 

大 多 数 指令 有 一 个 或 多 个 操作 数 ( operand )， 指 示 出 执行 一 个 操作 中 要 引用 的 源 数 据 值 ， 以 如 
放置 结果 的 目的 位 置 。IA32 支持 多 种 操作 数 格式 (图 3.3)。 源 数据 值 可 以 以 常数 形式 给 出 ， 或 是 从 
寄存 器 或 存储 器 中 读 出 ， 结 果 可 以 存放 在 寄存 器 或 存储 器 中 。 因 此 ， 各 种 操作 数 的 可 能 性 被 分 为 三 
种 类 型 。 第 一 种 是 立即 数 〈immediate)， 也 就 是 常数 值 。 在 GAS 中 ， 采 用 标准 CHM Ra Te, WH 
数 的 书写 方式 是 “$” 后 面 跟 一 个 整数 ， 比 如 ，$-577 或 $0x1F。 任 何 32 位 的 字 都 可 以 用 做 立即 数 ， 
不 过 汇编 器 在 可 能 时 会 使 用 一 个 或 两 个 字 节 的 编码 。 第 二 种 类 型 是 寄存 器 (register) ERRET 
寄存 器 的 内 容 ， 对 双 字 操作 来 说 ， 可 以 是 八 个 32 位 寄存 器 中 的 一 个 (如 %eax)， 对 字 市 操作 来 说 ， 
可 以 是 八 个 单字 节 寄 存 器 元 素 中 的 一 个 (如 %al)。 在 我们 的 图 中 ， 我们 用 符号 E。 来 表示 任意 寄存 器 
a， 用 引用 R[E,] 来 表示 它 的 值 ， 这 是 将 寄存 器 集合 看 成 一 个 数组 R， 用 寄存 器 标识 符 作 为 索引 。 

第 三 类 操作 数 是 存储 器 引用 ， 它 会 根据 计算 出 来 的 地 址 (通常 称 为 有 效 地 址 〉 访问 某 个 存储 器 
位 置 。 因 为 将 存储 器 看 成 一 个 很 大 的 字 节 数组 ， 我们 用 符号 Ms[Addr] 表 示 对 存储 在 存储 器 中 从 地 址 
Addr 开始 的 5b 字 节 值 的 引用 。 为 了 简便 ， 我 们 通常 省 去 写 在 下 方 的 b。 

如 图 3.3 所 示 , 有 多 种 不 同 的 寻 址 模式 ,允许 不 同形 式 的 存储 器 引用 。 表 中 的 部 的 Imm(E,, E; s) 
是 最 通常 的 形式 。 这 样 的 引用 有 四 个 部 分 : 一 个 立即 数 偏 移 Imm， 一 个 基 址 寄存 器 E,， 一 个 变 址 或 
索引 寄存 器 E; 和 和 一 个 伸缩 因子 (scale factor) s, XE s 必须 是 1、2、4 或 者 8。 然 后 ， 有 效 地 址 被 
计算 为 Imm + R[Es] + R[E;] .s。 引 用 数组 元 素 时 ， 会 用 到 这 种 通用 形式 。 其 他 形式 只 是 这 种 通用 形 
式 的 特殊 情况 ， 省 略 了 某 些 部 分 。 正 如 我 们 将 看 到 的 ， 当 引用 数组 和 结构 元 素 时 ， 比 较 复 妙 的 寻 址 
模式 是 很 有 用 的 。 


绝对 导 址 


M[R[Eg]] 间接 寻 址 
Imm(E;) M[Jmm+R[E,]] (Hm Fh 


(Ep, E;) M[R[E,z]+R[E;]] 变 址 
Imm(Es, Ei) M[Jmm+R[E;]+R[E;}] 寻 址 
(, Bi, 8) MIRIE;]-s] 伸缩 化 的 变 址 寻 址 
Imm(, E,, s) M[imm+R[E,] -s] 伸缩 化 的 变 址 寻 址 
(Es, Ei, S} MIRE }+R[E;] -s] 伸缩 化 的 变 址 寻 址 
Imm(Es, Ei, S) M[Jmm+R[E:]+R[E,] -s] (eB Aik RIE hE FAE 


图 3.3 操作 数 格式 
操作 数 可 以 表示 立即 数 〈 常 数 ) 值 、 寄 存 器 值 或 是 来 自 存储 器 的 值 。 伸 缩 因子 ;必须 是 1、2、4 或 者 8。 
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练习 题 3.1 
假设 下 面 的 值 存放 在 指明 的 存储 器 地 址 和 寄存 器 中 : 


es J a 
C 
w oo 
C 
w | 
mow ooo 
= 
a 
hess 


3.4.2 ”数据 传送 指令 

最 频 闪 使 用 的 指令 是 执行 数据 传送 的 指令 。 操 作 数 符号 的 通用 性 使 得 一 条 简单 的 传送 指令 能 够 完 
成 许多 机 器 中 要 好 几 条 指令 才能 完成 的 功能 。 图 3.4 列 出 的 是 一 些 重要 的 数据 传送 指令 ， 最 常用 的 是 
传送 双 字 的 movl 指令 。 源 操作 数 指定 一 个 值 ， 它 可 以 是 立即 数 ， 可 以 存放 在 寄存 器 中 ， 也 可 以 存放 
TETEA. 目的 操作 数 指定 一 个 位 置 , 它 可 以 是 寄存 器 , 也 可 以 是 存储 器 地 址 。IA32 加 了 一 -条 限制 ， 
传达 指令 的 两 个 操作 数 不 能 都 指向 存储 器 位 置 。 将 一 个 值 从 一 个 存储 器 位 置 拷 到 另 一 个 存储 器 位 置 需 
要 两 条 指令 一 一 第 一 条 指令 将 源 值 加 载 到 寄存 器 中 ， 第 二 条 将 该 寄存 器 值 写 入 目的 位 置 。 

PERA movl 指令 示例 给 出 了 源 和 目的 类 型 的 五 种 可 能 组 合 。 回 想 一 下 ， 第 一 个 是 源 操作 数 ， 
第 二 个 是 目的 操作 数 : 


1 movl $0x4(050,%eax Immediate--Regisier 
2 movl %ebp,$%esp Register--Register 
3 movl (%edi,%ecx) , teax Mermory--Register 
4 movl $-17, (%esp) Immediate--Memory 
5 movl %eax,-12(%ebp) Register--Memory 


movb 指令 是 类 似 的 , 除了 它 只 传送 一 个 字 节 。 当 一 个 操作 数 是 寄存 器 时 , 它 必须 是 图 3.2 中 所 
未 的 人 个 单字 节 寄 存 器 元 素 中 的 一 个 。 类 似 地 ，movw 指令 传送 两 个 字 节 。 当 它 的 一 个 操作 数 为 寄 
仓 器 时 ， 它 必须 是 图 3.2 中 所 示 的 八 个 两 字 节 寄存 器 元 素 中 的 一 个 。 
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D 一 符号 扩展 (S) 传送 符号 扩展 的 字 节 


pushl R{[$esp] 一 R[%Sesp]-4; H fÈ 
| M[R[%esp}j] + 5 


popl D D + MIR[S%esp]]; 
R[S%esp}] + Ritesp]+4 


图 3.4 ”数据 传送 指令 

movsbl 和 movzbl 指令 负责 拷贝 一 个 字 节 ， 并 设置 目的 操作 数 中 其 余 的 位 。movsbl BoM PRE 
作 数 是 单字 节 的 ， 它 执行 符号 扩展 到 32 位 〈 也 就 是 ， 将 高 24 位 设置 为 源 字 市 的 最 高 位 )， 然 后 挠 由 
到 双 字 的 目的 中 。 类 似 地 ，movzbi 指令 的 源 操 作 数 是 单字 节 的 ， 在 前 面 如 24 个 0 扩展 到 32 位 ， 并 
将 结 末 拷贝 到 双 字 的 目的 中 。 
旁 注 ， 字 节 传 送 指令 比较 

仔细 观察 可 以 发 现 ， 三 个 字 节 传送 指令 movb、movsbl 和 movzbi 之 间 有 细微 的 差别 。 这 里 有 一 
个 示例 ; 


初始 假设 %dh = 8D, %eax = 98765432 


1 movb %dh, tal %eax = 9876548D 
2 movsbl dh, %teax Jeax = FFFFFF8D 
3 movzbl %dh, eax %eax = 0000008D 


在 这 些 例子 中 ， 都 是 将 寄存 器 %6eax 的 低位 字 节 设置 成 %edx 的 第 二 个 学 节 。movb 指令 不 改变 
其 他 三 个 字 节 。 根据 源 字 节 的 最 高 位 ， movsb! 指令 将 其 他 三 个 字 节 设 为 全 1 或 全 0。 movzbl 指令 无 
论 如 何 都 是 将 其 他 三 个 字 节 设 为 全 0. 


最 后 两 个 数据 传送 操作 是 用 来 将 数据 压 入 栈 中 和 从 栈 中 弹出 数据 的 。 正 如 我 们 将 看 到 的 ， 栈 在 
处 理 过 程 调用 中 起 到 至 关 重 要 的 作用 。pushl 和 pop 指令 都 只 有 一 个 操作 数 一 一 用 于 压 入 的 源 数据 
和 用 于 弹出 的 目的 数据 。 程 序 栈 存放 在 存储 器 中 某 个 区 域 。 如 图 3.5 所 示 ， 栈 向 下 增长 ， 这 样 一 来 ， 
栈 顶 元 素 的 地 址 是 所 有 栈 中 元 素 地 址 中 最 低 的 。( 根 据 惯例 ， 我 们 的 栈 是 倒 过 来 画 的 , 栈 “ 顶 ”在 图 
HER.) 栈 指针 %esp 保存 着 栈 顶 元 素 的 地 址 。 将 一 个 双 字 值 压 入 栈 中 ， 首 先 要 将 栈 指针 减 4， 然 
后 将 值 写 到 新 的 栈 顶 地 址 。 因 此 ， 指 令 pushl %ebp 的 行为 等 价 于 下 面 这 样 两 条 指令 ; 


subl $4,%esp 
movl sebp, (%esp) 


CAILE AX AEE Ate RES push 指令 是 编码 为 1 个 字 节 的 , 而 上 面 那 两 条 指令 一 共 需 要 6 
个 字 节 。 图 中 前 两 栏 给 出 的 是 当 %esp 为 0x108 和 %eax 为 0x123 时 ， 执 行 指令 pushl %eax 的 效果 ， 
首先 %esp 会 减 4， 得 到 0x104， 然 后 会 将 0x123 存放 到 存储 器 地 址 0x104 处 。 

弹出 一 个 双 字 这 样 的 操作 将 包括 从 栈 顶 位 置 读 出 数据 , 然后 将 栈 指 针 加 4。 因 此 , 指令 popl peax 
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等 价 于 下 面 这 样 两 条 指令 : 


movl (%esp),%eax 
addl $4, %esp 


y puahi %eax popl %edx 
tear rex [oaa] ex | oaa 
tax | o seax | o | tedx | 0x123 | 
[seep | waoe 

E “JE” 栈 “ 底 ” RR Re” 

地 址 
增 大 
0x108 0x108 0x108 
栈 =m” s 
Fe “Ti 


3.5 栈 操 作 说 明 
根据 惯例 , 我 们 的 栈 是 倒 过 来 画 的 , 因而 栈 “ 顶 ”在 底部 。 IA32 的 栈 向 低地 址 方向 增长 , 所 以 压 栈 是 减 小 栈 指针 (寄存 器 %esp) 
的 值 ， 并 存放 到 存储 器 中 ， 而 出 栈 是 从 存储 器 中 读 ， 并 增加 栈 指针 的 值 。 


图 3.5 的 第 三 栏 说 明 的 是 在 执行 完 pushl 后 立即 执行 指令 popl 9edx 的 效果 。 先 从 存储 器 中 读 出 
fH 0x123， 和 再 写 到 寄存 器 %edx Y, 然后， 寄存 器 %esp 的 值 将 增加 为 0x108。 如 图 中 所 示 ， 值 0x123 
仍然 会 保持 在 存储 器 位 置 0x104 中 ,直到 被 另 一 条 入 栈 操作 和 覆盖。 无 论 如 何 ，%esp 指向 的 地 址 总 是 
栈 项 。 

因为 栈 和 程序 代码 以 及 其 他 形式 的 程序 数据 都 是 放 在 同样 的 存储 器 中 ， 所 以 程序 可 以 用 标准 的 
存储 器 寻 址 方法 访问 栈 内 任意 位 置 。 例 如 ， 假 设 栈 顶 元 素 是 双 字 ， 指 令 mov1 4(%esp), teax 
将 第 二 个 双 字 从 栈 中 拷贝 到 寄存 器 %edx。 


3.4.3 数据 传送 示例 
给 C 语言 初学 者 : 一 些 指 针 的 示例 

eX exchange ( 图 3.6) 提供 了 一 个 关于 C 中 指针 使 用 的 很 好 说 明 。 参 数 xp 是 一 个 指向 整数 的 
指针 ， 而 y ži. i 

int x = *xp; 
KF BANA ABA xp 所 指 位 置 中 的 值 , ACHR FA ABRE P. 这 个 读 操作 称 为 指 
针 的 间接 引用 ( pointer dereferencing ), C 操作 符 * 执 行 指 针 的 间接 引用 . 


118 第 3 章 


语句 

*xp = Y; 
正好 相反 一 一 它 将 参数 y 的 值 写 到 xp 所 指 的 位 置 . 这 也 是 一 种 指针 间接 引用 的 形式 (所 以 有 操作 符 
* )， 但 是 它 表 明 的 是 一 个 写 操作 ， 因 为 它 是 在 赋值 语句 的 左边 。 

下 面 是 一 个 使 用 exchange 的 例子 : 

int a = 4; 

int b = exchange (&a, 3); 

printf("a = td, b = d\n", a, b); 

这 段 代码 会 打印 出 : 

a= 3, b= 4 

C 操作 符 有 (HA “REL” BEA) 创建 一 个 指针 ， 在 本 例 中 ， 该 指针 指向 保存 局 部 变量 a 的 
iE. RE, He exchange 将 用 3 RAAE a 中 的 值 ， 但 是 返回 AH BRA. FROM IER 
针 传 递 给 exchange， 它 能 修改 存在 某 个 远 处 位 置 的 数据 。 


code/asm/exchange.c 
1 aint exchange(int *xp, int y) 
2 { 1 movl 8(%ebp),%eax Get xp 
3 int x = *xp; 2 movl 12(%ebp),%edx Get y 
A 3 movil (%eax) , $ecx Get x at *xp 
5 *xp = Y; 4 movil %edx, (%eax) Store y at *xp 
6 return x; 5 movl %tecx, eax Set x as return value 
7} 

code/asm/exchange.c 

(a) C 代码 Cb) 汇编 代码 
3.6 exchange AŠ CALARE 

省 略 了 栈 的 建立 和 和 完成 部 分 。 


作为 一 个 使 用 数据 传送 指令 的 代码 示例 ， 考 虑 图 3.6 中 所 示 的 数据 交换 函数 ， 既 有 C 代码 ， 也 
有 GCC 产生 的 汇编 代码 。 我 们 省 略 了 过 程 入 口 处 的 汇编 代码 ， 这 些 代 码 用 来 为 运行 时 栈 分 配 空 间 ， 
以 及 在 过 程 返 回 前 回收 栈 空 间 的 代码 。 当 我 们 讨论 过 程 链接 时 , 会 讲 到 这 种 建立 和 完成 代码 的 细节 。 
除 此 之 外 剩 下 的 代码 ， 我 们 称 之 为 “过 程 体 (body)”。 

当 过 程 体 开始 执行 时 ， 过 程 参数 xp My 存储 在 相对 于 寄存 器 %ebp 中 地 址 值 的 偏 移 8 和 12 
的 地 方 。 指 令 1 和 2 会 将 这 些 参数 传送 寄存 器 %eax 和 %edx。 指 令 3 间接 引用 xp， 并 将 值 存储 在 
FF a %ecx 中 ， 对 应 于 程序 值 x。 指 令 4 将 y 存储 在 xp. HOS 将 x 传送 到 寄存 器 %eax。 根 据 
惯例 ， 所 有 返回 整数 或 指针 值 的 函数 都 是 通过 将 结果 放 在 寄存 器 %eax 中 来 达到 目的 的 , 因此 这 条 
指令 实现 了 C 代码 中 第 6 行 的 功能 。 这 个 例子 说 明 movi 指令 是 如 何 用 于 从 存储 器 中 读 值 到 寄存 
al) GES 1 一 3)， 如 何 从 寄存 器 写 到 存储 器 的 《指令 4)， 以 及 如 何 从 一 个 寄存 器 拷贝 到 另 一 个 
寄存 器 的 (指令 5). 


关于 这 段 汇编 代码 有 两 点 值得 注意 。 首 先 ， 我 们 看 到 C 中 所 谓 的 “指针 ”其 实 就 是 地 址 。 间 


程序 的 机 器 级 表示 119 
一 T l O Oo S 
接 引 用 指针 就 是 将 该 指针 放 在 一 个 寄存 器 中 ， 然 后 在 间接 存储 器 引用 中 使 用 这 个 寄存 器 。 其 次 ， 
Ax 这 样 的 局 部 变量 通常 是 保存 在 寄存 器 中 ， 而 不 是 存储 器 中 。 寄 存 器 访问 比 存储 器 访问 要 快 得 
多 。 


练习 题 3.2 

题 设 信息 如 下 。 将 一 个 原型 为 

void decodel (int *xp, int *yp, int *zp); 
PAA a ERI SRS. RESO F: 


movl 8(%ebp), %edi 
movl 12 (%ebp), %ebx 
movl 16(%ebp), %$esi 
movl (%edi), %eax 
movl (%tebx) , tedx 
movl (%esi),%ecx 
movl %teax, (%ebx) 
movl %edx, (%esi) 
movl %ecx, (%edi) 


参数 xp、yp 和 zp 存储 在 相对 于 寄存 器 %ebp 中 地 址 值 的 偏 移 8、12 和 16 的 地 方 

请 写 出 等 效 于 上 面 汇编 代码 的 decodel 的 C 代码 . 可 以 用 -S 选项 编译 你 的 代码 , 检验 你 的 答案 . 
你 的 编译 器 生成 的 代码 在 寄存 器 的 使 用 或 是 存储 器 引用 的 顺序 上 可 能 会 有 所 不 同 ， 但 是 功能 应 该 是 
FKA. 


woman DU BP WN PR 
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图 3.7 列 出 了 一 些 双 字 整数 操作 ， 分 为 四 类 。 二 元 操作 有 两 个 操作 数 ， 而 一 元 操作 只 有 一 个 操 
作 数 。 描 述 这 些 操 作 数 的 符号 与 3.4 节 中 使 用 的 符号 完全 相同 。 除 了 leal 以 外 ， 每 条 指令 都 有 对 应 
的 对 字 (16 位 )》 和 对 字 节 操作 的 指令 。 把 后 缀 “1” 换 成 “w” 就 是 对 字 的 操作 ， 而 换 成 “b” 就 是 
TF TAPE T. Bld, addi 对 应 有 addw 和 addb。 


3.5.1 加 载 有 效 地 址 

加 载 有 效 地 址 (Load Effective Address ) 指令 leal 实际 上 是 movl 指令 的 变形 。 它 的 指令 形式 是 
从 存储 器 读数 据 到 寄存 器 ， 但 实际 上 它 根 本 就 没 引用 存储 器 。 它 的 第 一 个 操作 数 看 上 去 是 一 个 存储 
鳝 引用 ， 但 该 指令 并 不 是 从 指定 的 位 置 读 入 数据 ， 而 是 将 有 效 地 址 写 入 到 目 的 操作 数 〈 如 寄存 器 )。 
在 图 3.7 中 我 们 用 C 的 地 址 操作 符 &S 来 说 明 这 种 计算 。 这 条 指令 可 以 用 来 为 后 面 的 存储 器 引用 产生 
指针 。 男 外 ， 它 还 可 以 用 来 简洁 地 描述 普通 的 算术 操作 。 例 如 ， 如 果 寄 存 器 %bedx 的 值 为 x， 那 么 指 
令 leal 7(%edx, tedx, 4), teax 将 设置 寄存 器 %eax 的 值 为 5x +7. 注意 : 目的 操作 数 必 须 
是 一 个 寄存 器 。 


练习 题 3.3 


假设 寄存 器 %eax 的 值 为 x*，9becx 的 值 为 Y. 填写 下 表 ， 指 明 下 面 每 条 汇编 代码 指令 存储 在 寄存 
25 Joedx 中 的 值 。 


leal 6(*eax) ,*edx 


leal (%*eax, tecx), tedx 


leal (*eax, tecx,4), tedx 


leal 7 {({*eax,%ecx, 8) ,t%edx 


leal OxAI , sedx 


leal 9(%*eax, tecx,2),tedx oo 


a [ es [| s 


, seax, 4) 


mn 


AE (HEF sall) 
算术 右 移 
逻辑 右 移 


~ TR UUO 


= 


图 3.7 整数 算术 操作 


加 载 有 效 地 址 (leal) 指令 通常 用 来 执行 简 间 的 算术 操作 ， 而 其 余 的 指令 是 非常 标准 的 一 元 或 元 操作 。 注 意 ，GAS 中 的 操作 
数 顺序 与 上 表 相反 。 


3.5.2 一 元 和 二 元 操作 

第 二 类 操作 是 一 元 操作 ， 只 有 一 个 操作 数 ， 既 作 源 ， 也 作 目 的 。 这 个 操作 数 可 以 是 一 个 寄存 器 ， 
也 可 以 是 一 个 存储 器 位 置 。 比 如 说 ， 指 令 ijncl (%esp) 会 使 栈 顶 元 素 加 1。 这 种 语法 让 人 想起 CC 中 
的 加 1 运算 符 (++) MR 1 运算 法 (--)。 

第 三 类 是 二 元 操作 , 第 二 个 操作 数 既 是 源 又 是 目的 。 这 种 语法 让 人 想起 C 中 像 += 这 样 的 赋值 运 
算 付 。 不 过 ， 要 注意 ， 源 操作 数 是 第 一 个 ， 目 的 操作 数 是 第 二 个 ， 这 是 不 可 交换 操作 特有 的 。 例 如 ， 
指令 subl seax，g%edx 使 寄存 器 9%edx 的 值 减 去 %eax 中 的 值 。 第 一 个 操作 数 可 以 是 立即 数 、 寄 存 
器 到 是 存储 器 位 置 。 第 二 个 操作 数 可 以 是 寄存 器 或 是 存储 器 位 置 。 不 过 ， 同 movl 指令 一 样 ， 两 个 
操作 数 不 能 同时 都 是 存储 器 位 置 . 
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练习 题 3.4 
假设 下 面 的 值 存放 在 指定 的 存储 器 地 址 和 寄存 器 中 : 


addl $%ecx, (*eax) 
subl tedx,4(%*eax) 


imull $16, (%teax, tedx, 4) 


subl tedx, teax 


3.5.3” 移 位 操作 


最 后 一 关 是 移 位 操作 ， 先 给 出 移 位 量 ， 然 后 是 待 移 位 的 值 。 可 以 进行 算术 和 逻辑 右 移 。 移 位 量 


用 单个 字 节 编码 ， 因 为 只 允许 进行 0 到 31 位 的 移 位 。 移 位 量 可 以 是 一 个 立即 数 , 或 者 放 在 单字 节 寄 
仔 器 元 素 %cl 中 。 如 图 3.7 所 示 ， 左 移 指令 有 两 个 名 字 : sall 和 shi. 两 者 的 效果 者 一样， 都 是 将 右 
ALO. HBB, sarl 执行 算术 移 位 〈 填 上 符号 位 )， 而 shr 执行 逻辑 移 位 ( 填 上 0). 


> 


练习 题 3.5 
假设 我 们 想 生 成 下 面 这 个 C 函数 的 汇编 代码 : 
int shift_left2_rightn(int x, int n) 
{ 

xX <<a 2s 

x Ss= J: 

return x; 


} 
下 面 这 段 代 码 执行 实际 的 移 位 ,并 将 最 后 的 结果 放 在 寄存 器 %peax 中 . 此 处 省 略 了 两 条 重要 的 指 


。 参 数 xX 和 nm 分 别 存 放 在 存储 器 中 相对 于 害 存 器 %gebp 中 地 址 偏 移 8 和 12 的 地 方 . 


movl 12(%ebp) , tecx Get n 
2 movl 8(%ebp), teax Get x 
3 x<<= 2 


X>>=N 


根据 右边 的 注释 ， 填 出 缺失 的 指令 。 请 用 算术 右 移 操作 . 
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3.5.4 讨论 

除了 石 移 操 作 ， 所 有 的 指令 都 不 区 分 有 符号 和 无 符号 操作 数 。 对 列 出 的 所 有 指令 来 说 ， 二 进 制 
补 码 运算 和 无 符号 运算 有 同样 的 位 级 行为 。 

图 3.8 给 出 了 一 个 执行 算术 操作 的 函数 示例 ， 以 及 它 的 汇编 代码 。 和 前 面 一 样 ， 我 们 省 略 了 栈 
的 建立 和 完成 部 分 ， 函 数 参 数 x、y 和 z 分 别 存放 在 存储 器 中 相对 于 寄存 器 %ebp 中 地 址 偏 移 8、12 
和 16 的 地 方 。 


code/asm/arith.c 


1 int arith(int x, 

2 int y, 

3 int z) 

4 { 

5 int tl = x+y; 

6 int t2 = z2*48; 

7 int t3 = ti & OxFFFF; 

8 int t4 = t2 * t3; 

9 

10 return t4; 

11 } 

code/asm/arith.c 
(a) C 代码 
1 movl 12 (%ebp),%eax Get y 
2 movl 16(%ebp) , tedx Getz 
3 addl 8(tebp),%eax Compute tl = x+y 
4 leal (%edx, %edx,2),tedx Compute z*3 
5 sall $4, %edx Compute t2 = z*48 
6 andl $65535,%eax Compute t3 = tl &OxF FFF 
7 imull %eax, %edx Compute t4 = t2*t3 
8 movl %edx, eax Set t4 as return val 
(b) 汇编 代码 
图 3.8 ”算术 运算 函数 体 的 C 和 汇编 代码 
省 略 了 栈 的 建立 和 完成 部 分 。 


指令 3 实现 表达 式 x+y， 一 个 操作 数 y 来 自 寄存 器 %eax (由 指令 1 取出 )， 而 另 一 个 直接 来 自 
FF ities TRS 4 和 5 执行 计算 z*48， 首 先 使 leal 指令 对 伸缩 化 的 变 址 寻 址 模式 的 操作 数 执行 计算 : 
(z+ 22) = 3z， 人 然后 将 这 个 值 左 移 4 位， 以 计算 2.3z = 48z。C 编译 跟 常 常用 加 法 和 移 位 指令 来 完成 
负数 因 子 的 乘法 ， 就 像 2.3.6 节 中 讨论 的 那样 。 指 令 6 执行 AND 操作 ， 而 指令 7 执行 最 后 的 乘法 。 
a, TRS 8 将 返回 值 移 到 寄存 器 9%oeax。 

ER 3.8 的 汇编 代码 中 ， 寄 存 器 %eax 中 的 值 先 后 对 应 于 程序 值 y、t1、t3 和 t4 (作为 返回 值 )。 
通常 ， 编 译 器 产生 的 代码 中 ， 会 用 一 个 寄存 器 存放 多 个 程序 值 ， 还 会 在 寄存 器 之 间 传 送 程序 值 。 
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练习 题 3.6 
在 编写 循环 的 代码 中 


for (1 = 0; 1 < n; 14+) 
V += 17 


我 们 发 现下 面 的 汇编 代码 行 : 

xorl tedx, $edx 

请 解释 为 什么 我 们 的 C 代码 中 没有 EXCLUSIVE-OR ( 异 或 ) 运算 符 ， 这 里 却 会 有 这 样 的 指令 。 
这 条 指令 实现 的 是 C 程序 中 什么 操作 ? 
3.5.5 ”特殊 的 算术 操作 

图 3.9 描述 的 是 支持 产生 两 个 32 位 数字 的 全 64 位 乘积 以 及 整数 除法 的 指令 。 
指 


令 


S | RI%edx]:R[%eax] 一 符号 扩展 (R[%eax]) 
1divl S | R[%edx] 一 R[%edx]:R[%eax] mod § 有 符号 除法 
R[%edx] 全 R[%edx]:R[teax]+S — 
divl S | R[%edx] 一 R[%edx]:R[%eax] mod § 无 符号 除法 
R[%edx] 一 R[%tedx]:R[%eax]+S§ 
图 3.? 特殊 的 算术 操作 
这 些 操作 提供 了 有 符号 和 无 符号 数 的 全 64 位 乘法 和 除法 。 一 对 寄存 器 %edx 和 %eax 组 成 -个 64 位 的 四 字 。 


图 3.7 中 列 出 的 imull 指令 称 为 “ 双 操 作 数 ”乘法 指令 。 它 从 两 个 32 位 操作 数 产生 一 个 32 A 
AR, 实现 了 2.3.4 和 2.3.5 节 中 描述 的 操作 * 由 和 * 5 。 回 想 一 下 ， 当 将 乘积 截取 为 32 位 时 ， 无 符号 
来 和 二 进 制 补 码 乘 的 位 级 行为 是 一 样 的 。IA32 还 提供 了 两 个 不 同 的 “ 单 操作 数 ” 乘 法 指令 ， 以 计算 
两 个 32 位 值 的 全 64 位 乘积 一 一 一 个 是 无 符号 数 乘法 (mull)， 而 另 一 个 是 二 进 制 补 码 乘法 Gm). 
这 两 条 指令 都 要 求 一 个 参数 必须 在 寄存 器 %eax 中 , 而 另 一 个 是 作为 指令 的 源 操作 数 给 出 的 。 PRG 
积存 放 在 寄存 器 %edx (高 32 位 )》 和 9%eax CK 32 位 ) 中 。 注 意 ， 虽 然 imull 这 个 名 字 可 以 用 于 两 个 
个 同 的 乘法 操作 ， 但 是 汇编 器 能 够 通过 计算 操作 数 的 数目 ， 分 辨 出 是 想 用 哪 条 指令 。 

让 我 们 来 看 看 这 个 例子 ， 假 设 有 符号 数 x Aly 存储 在 相对 于 %ebp 偏 移 量 为 8 和 12 的 位 置 ， 我 
们 希望 将 它们 的 全 64 位 乘积 作为 8 个 字 节 存放 在 栈 顶 。 代 码 是 像 下 面 这 样 的 : 

x at Mepp+& y at Webp+12 


1 movl 8(%ebp), teax Put x in peax 
2 imull 12 (%ebp) Multiply by y 
3 pushl %edx Push high-order 32 bits 
4 pushl %eax Push low-order 32 bits 


注意 我 们 将 两 个 寄存 器 入 栈 的 顺序 ， 对 小 端 法 Uittle-endian) 机 器 来 说 是 对 的 ， 在 这 种 机 器 中 
栈 是 向 低地 址 方向 增长 的 (也 就 是 说 ， 乘积 的 低位 字 节 的 地 址 比 高 位 字 节 的 地 址 小 )。 
我 们 前 面 的 算术 运算 表 (图 3.7) 没有 列 出 除法 或 模 (modulus) 操作 。 单 操 作 数 除法 类 似 于 单 


124 第 3 章 


操作 数 乘 法 。 有 符号 除法 指令 idiv 将 寄存 器 %edx (高 32 位 ) 和 %eax ( 低 32 位 ) 中 的 64 位 数 作为 
家 除数 ， 队 数 是 作为 指令 的 操作 数 给 出 的 。 指 令 将 商 存储 在 寄存 器 %eax 中 ， 将 余数 存储 在 寄存 器 
%edx 中 。cltd 指令 可 以 用 来 根据 寄存 器 %eax 中 存放 的 32 位 的 值 形 成 64 位 被 除数 , 这 条 指令 将 %eax 
符号 扩展 到 %edx。 

让 我 们 来 看 个 例子 ， 假 设 有 符号 数 x 和 y 存储 在 相对 于 %ebp 偏 移 量 为 8 和 12 的 位 置 ， 我 们 想 
要 将 x/y 和 x%y 存储 到 栈 中 。 代 码 是 像 下 面 这 样 的 : 


x at Yebp+8, y at Yebp+12 


1 movl 8(%ebp), %eax Put x in %eax 

2 clita Sign extend into Yoedx 

3 idivl 12 (%ebp) Divide by y 

4 pushl %eax Push x/y 

5 pushl %edx Push x % y 

divl 指令 执行 无 件 号 际 法 。 通 常会 事先 将 寄存 器 %edx 设置 为 0。 
3.6 控制 


到 目前 为 止 ， 我 们 考虑 了 访问 数据 和 操作 数据 的 方法 。 程 序 执行 的 另 一 个 很 重要 的 部 分 就 是 控 
制 被 执行 操作 的 顺序 。 对 C 和 汇编 代码 中 的 语句 ， 默 认 的 方式 是 顺序 的 控制 流 ， 按 照 语句 或 指令 在 
程序 中 出 现 的 顺序 来 执行 。C 中 的 某 些 程序 结构 ， 比 如 条 件 语 句 、 循 环 语句 和 分 支 语句 ， 人 允许 控 制 
掖 照 非 顺序 方式 进行 ， 即 根据 程序 数据 的 值 来 确定 顺序 。 

汇编 代码 提供 了 实现 非 顺 序 控制 流 的 较 低层 次 的 机 制 。 基 本 操作 是 跳 转 到 程序 的 另 一 部 分 ，6 
会 钢 东 皖 训 试 结果 而 定 。 编 译 器 产生 的 指令 序列 是 依赖 于 这 些 低层 机 制 来 实现 C 的 控制 结构 。 

在 我 们 的 讲述 中 ， 会 先 谈 到 机 器 级 机 制 ， 然 后 会 给 出 如 何 用 它们 来 实现 C 的 各 种 控制 结构 。 


3.6.1 RHE 

RS RRA, CPU 还 包含 一 组 单个 位 的 条 件 码 (condition code) 寄存 器 ， 它 们 描述 了 最 近 
的 鼻 林 或 逻辑 操作 的 属性 。 对 这 些 寄存 器 的 检测 ,将 有 助 于 执行 条 件 分 支 指令 。 最 有 用 的 条 件 码 是 : 

CF: 进位 标志 。 最 近 的 操作 使 最 高 位 产生 了 进位 ， 它 可 用 来 检查 无 符号 操作 数 的 溢出 。 

ZF: 要 标志 。 最 近 的 操作 得 出 的 结果 为 0。 

SF: 和 从 与 标志。 最近 的 操作 得 到 的 结果 为 负数 。 

OF: 洲 出 标志 。 最 近 的 操作 导致 一 个 二 进 制 补 码 溢 出 一 一 正 溢出 或 负 溢 出。 

比如 说 ， 我 们 用 addl 指令 完成 等 价 于 C 表达 式 tarb 的 功能 ， 这 里 变量 a、b 和 + 都 是 整 型 的 。 
然后 ， 会 根据 下 面 的 表达 式 来 设置 条 件 码 : 


CF: (ursigned t) <(unsigned a) AR T Hh 
ZF: (t ) 零 

SF: (t < 0) 负数 

OF: (a < 0 == b< 0) && (t < 0 != a < 0) 有 符号 溢出 


1 在 Intel 的 文档 里 ， 这 条 指令 称 为 cdq。 这 是 少数 GAS 指令 名 与 Intel 的 名 字 无 关 的 情况 之 一 。 
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leal ROAR MEERA, AWE BARTER. AAR, 图 3.7 中 列 出 的 所 有 指 
令 孝 会 设置 条 件 码 。 对 于 逻辑 操作 ， 例 如 xorl， 进 位 标志 和 溢出 标志 会 设置 成 0。 对 于 移 位 操作 ， 
进位 标志 将 发 置 为 最 后 一 个 被 移出 的 位 ， 而 洲 出 标志 放置 为 0。 

除了 图 3.7 中 的 操作 ， 下 面 的 表 给 出 了 两 个 操作 〈 有 8、16 和 32 位 形式 )， 它 们 只 设置 条 件 码 
而 不 改变 任何 其 他 寄存 器 。 


Sos Sı Si & S 


So, AY S, 一 S- 
Sas S, Sı & §> 
S2, Si Sı - $ 
testl S $i S, & S: Min NF 


cmpb、cmpw 和 cmp! 指令 根据 它们 的 两 个 操作 数 之 差 来 设置 条 件 码 。 在 GAS 格式 中 ， 操 作 数 
的 顺序 是 相反 的 ， 使 得 代码 有 点 难 读 。 如 果 两 个 操作 数 相 等 ， 这 些 指令 会 将 零 标志 设置 为 1， 而 其 
他 的 标志 可 以 用 来 确定 两 个 操作 数 之 间 的 大 小 关系 。 

testb、testw 和 testl 指令 会 根据 它们 的 两 个 操作 数 的 与 (AND ) 来 设置 零 标志 和 负数 标志 。 j 
常 两 个 操作 数 是 一 样 的 (例如 ，test1 seax，s$eax 用 来 检查 %eax 是 负数 、 零 ， 还 是 正 数 )， 或 
其 中 的 一 个 操作 数 是 用 来 握 示 哪些 位 应 该 被 测试 的 掩 码 。 


3.6.2 ”访问 条 件 码 

两 种 最 音 用 的 访问 条 件 码 的 方法 不 是 直接 读 取 和 它们， 而 是 根据 条 件 码 的 某 个 组 合 ， 设 置 一 个 加 
数 寄 存 器 或 是 执行 一 条 件 分 支 指令 。 图 3.10 中 描述 的 是 各 种 set 指令 根据 条 件 码 的 某 个 组 合 ， 将 一 
个 字 市 设置 为 0 或 者 1。 目 的 操作 数 是 八 个 单字 节 寄 存 器 元 素 〈 图 3,2) 之 一 , 或 是 存储 一 个 学 节 的 
存储 器 位 置 。 为 了 得 到 一 个 32 位 结果 ， 我 们 必须 对 最 高 的 24 位 清 零 。 

一 个 C 判定 条 件 〈 例 如 a<b) 的 典型 指令 序列 如 下 所 示 : 


Note: a is in edx, b is in Weax 


1 cmpl eax, %edx Compare a:b 
2 setl tal Set low order byte of %eax to O or | 
3 movzbl %al,%eax Set remaining bytes of %eax to 0 


movzbl ja > A Kia S -TAMT H. 

某 些 底层 的 机 器 指令 可 能 有 多 个 名 字 ， 我 们 称 之 为 “ 同 义 名 (synonym )” 比如 说 ,，“setg”( 表 
IR RAAT”) 和 “setnle”( 表 示 “ 设 置 不 小 王 等 于 ”) BOREAS. SERA RIL 
编 器 会 随意 决定 使 用 哪个 名 字 。 

虽然 所 有 的 算术 操作 都 会 设置 条 件 码 ， 但 是 各 个 set 命令 的 描述 都 适用 于 这 样 一 种 情况 ， 执行 
比较 指令 , 根据 计算 t=a -b 设置 条 件 码 。 例 如, 就 sete 来 说 ， 即 “ 当 相 等 时 设置 (Set when equal)” 
指令 。 当 a =b 时 ， 会 得 到 t=0， 因 此 零 标志 置 位 就 表示 相等 ，。 
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相等 / 零 

不 等 / 非 零 

负数 

非 负数 
setnle D=-—"(SF*|OF)& ZF 大 于 〈 有 符号 > ) 
setnl D+ (SF* | OF) 大 于 等 于 (有 符号 >= ) 
setnge | D+SF*|OF 小 于 《有 符号 <) 
setng D+ (SF^OF) | ZF 小 于 等 于 (有 符号 <=) 
setnbe 超过 (无 从 号 >) 
setnb 超过 或 相等 (无 从 与 >=) 
setnae 低 于 (无 符 与 <) 
setna 低 于 或 相等 (无 符号 <=) 

图 3.10 sett 指令 


每 条 指令 根据 条 件 码 的 某 个 组 合 ， 将 一 个 字 节 设置 为 0 或 者 1。 有 些 指令 有 “ 同 义 名 ” 也 就 是 ， 同 -条 机 器 指令 有 别 的 名 子 。 


类 似 地 ， 考 虑 用 setl， 即 “ 当 小 于 时 设置 (Set when less )” 指 令 ， 测 试 一 个 有 符号 比较 。 当 a 
Alb 是 用 二 进 制 补 码 表示 时 ， 对 于 a <b, 计算 两 者 之 差 时 , 我 们 会 有 a -b < 0。 当 没有 游 出 发 生 时 ， 
符号 标志 置 位 就 表明 a <b。 当 因为 a -b 是 一 个 很 大 的 正 数 ， 出 现 正 溢出 时 ， 我 们 会 得 到 t< 0。 轨 
因为 a -b 是 一 个 很 小 的 负数 ， 出 现 负 滋 出 时 ， 我 们 会 得 到 t > 0。 无 论 是 这 两 种 情况 中 的 哪 一 种 ， 
符号 标志 都 表示 的 是 真正 的 差 的 反 。 因 此 ， 溢 出 和 符号 位 的 异 或 测试 的 就 是 a<b。 其 他 的 有 符 写 比 
较 测 试 是 基于 SF^OF 和 ZF 的 其 他 组 合 。 

对 于 无 符号 比较 的 测试 ， 当 无 符号 参数 a 和 hb 的 整数 差 是 负数 时 ， 也 就 是 当 (unsigned)a< 
(unsigned) bM, cmpl 指令 会 设置 进位 标志 。 因 此 ,这 些 测试 使 用 的 是 进位 标志 和 和 零 标志 的 组 合 。 


练习 题 3.7 


在 下 面 的 C 代码 中 ， 我 们 用 “_ ”替换 了 一 些 比较 运算 符 ， 并 且 省 略 了 强制 类 型 转换 中 的 数 
HE KH! 


1 char ctest(int a, int b, int c) 

2 { 

3 char t1 = a b: 
4 char t2 = b__ ( ) a; 
5 char t3 = ({ ) cc f ) a; 
6 char t4 = { an { ) C; 
7 char t5 = C b; 
8 char t6 = a 0; 
9 return tl + t2 + t3 + t4 + t5 + t6; 
10 } 


对 原始 的 C 代码 ，GCC 产生 了 下 面 这 样 的 汇编 代码 : 


1 movl 8(%ebp), %tecx Get a 

2 movi 12 (tebp),%esi Get b 

3 cmpl tesi, tecx Compare a:b 
4 setil tal Compute t] 
5 cmpl %tecx, esi 


Compare b:a 
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setb 


-1(%ebp) 


cmpw %cx, 16(%ebp) 
setge -2(%ebp) 
movb ci, %dl 


cmpb 16(%ebp),%dl 
setne %bli 

cmpl %es1,16(tebp) 
setg -3(tebp) 
testi %*ecx, $ecx 
setg tdl 

addb -1(%ebp) ,%al 
addb -2(%ebp),%t%al 
addb %bl, *al 

addb -3(%tebp),t%al 
addb dl, %al 


movsbl %al, eax 


考虑 下 面 这 样 的 汇编 代码 序列 : 
1 xorl %eax, ¢eax 
jmp .L1 
movi (%eax), tedx 


2 
3 
4 
2 


程序 的 机 器 级 表示 


Compute 12 
Compare c:a 
Compute t3 


Compare a:c 
Compute t4 
Compare c:b 
Compute t5 
Test a 
Compute t6 
Add t2 to tl 
Add t3 to tl 
Add t4 to tl 
Add t5 to tl 
Add 16 toti 
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Convert sum from char to int 


根据 这 些 汇编 代码 ， 填 上 C 代码 中 缺失 的 部 分 (REGS RMA SD. 


3.6.3 ” 跳 转 指令 和 它们 的 编码 
在 正常 执行 的 情况 下 ， 指 令 按照 它们 出 现 的 顺序 一 条 一 条 地 执行 。 跳 转 〈jump ) 指令 会 导致 执 
行 切换 到 程序 中 一 个 全 新 的 位 置 (参见 图 3.11)。 这 些 跳 转 的 目的 地 通常 用 一 个 标号 label) 指明 。 


Set %eax to 0 
Goto .Li 


Null pointer dereference 


~(SF*°OF) & ZF 


~“ (SF*OF) 
SFAOF 
(SF^OF) | ZF 


图 3.11 jump 指令 


直接 跳 转 
间接 跳 转 
相等 / 零 

不 相等 / 非 零 
负数 


非 负 数 

大 于 (有 符号 >) 

大 于 或 等 于 (有 符号 >=) 
小 于 《有 符号 <) 
小 于 或 等 于 (有 符号 <=) 
超过 (无 符号 >) 
超过 或 相等 (无 符号 >=) 
低 于 (无 从 号 <) 
低 于 或 相等 〈 无 符号 <= ) 


汉 跳 转 条 件 满足 时 ， 这 些 指令 会 跳 转 到 一 条 带 标号 的 县 的 地 。 有 些 指令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 的 别名 ， 
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指令 jmp LI 会 导致 程序 跳 过 movi 指令 ， 从 popl 指令 开始 继续 执行 。 在 产生 目标 代码 文件 时 ， 
汇编 器 会 确定 所 有 带 标号 指令 的 地 址 ， 并 使 跳 转 目标 (目的 指令 的 地 址 ) 编码 为 跳 转 指 令 的 一 部 分 。 

jmp 指令 是 无 条 件 跳 转 。 它 可 以 是 直接 跳 转 ， 即 跳 转 目标 是 作为 指令 的 一 部 分 编码 的 ， 也 可 以 
是 间 报 跳 转 ， 即 跳 转 目 标 是 从 寄存 器 或 存储 器 位 置 中 读 出 的 。 汇 编 语言 中 ， 直 接 跳 转 是 给 出 一 个 标 
号 作为 跳 转 目标 的 ， 例 如， 上 面 代 码 中 的 标号 “.L1”。 间 接 跳 转 的 写法 是 “*” 后 面 跟 一 个 操作 数 指 
示 符 ， 语 法 与 movi 指令 使 用 的 一 样 。 看 看 这 个 例子 ， 指 令 

jmp *%eax 
用 寄存 器 %eax 中 的 值 作为 跳 转 目标 ， 而 指令 


jmp * (%eax) 
以 %eax 中 的 值 作为 读 地 址 ， 从 存储 器 中 读 出 跳 转 目标 ， 
其 他 的 跳 转 指令 是 根据 条 件 码 的 某 个 组 合 ， 或 者 跳 转 ， 或 者 继续 执行 代码 序列 中 下 一 条 指令 。 
请 注意 这 些 指令 的 名 字 和 跳 转 条 件 与 set 指令 是 相 匹配 的 。 同 set 指令 一 样 ， 一 些 底层 的 机 器 指令 有 
多 个 名 字 。 条 件 跳 转 只 能 是 直接 跳 转 。 
虽然 我 们 不 关心 目标 代码 格式 的 细节 ， 但 是 理解 跳 转 指令 的 目标 是 如 何 编码 的 对 第 7 章 中 研究 
链接 非 党 重要。 此外， 在 解释 反 汇编 器 输出 时 ， 它 也 是 很 有 帮助 的 。 在 汇编 代码 中 ， 跳 转 目标 是 用 
符号 标号 书写 的 。 汇 编 器 ， 以 及 后 来 的 链接 器 ， 会 产生 跳 转 目 标的 适当 编码 。 跳 转 指 令 有 几 种 不 同 
的 编码 ， 但 是 最 常用 的 一 些 是 PC 相关 的 《PC-relative，PC = Program Counter)。 也 就 是 ， 它 们 会 将 
目标 指令 的 地 址 与 紧 跟 在 跳 转 指令 后 面 那 条 指令 的 地 址 之 间 的 差 作为 编码 。 这 些 地 址 偏 移 量 可 以 纺 
但 为 一 、 二 或 四 个 字 和 。 第 二 种 编码 方法 是 给 出 “绝对 ”地 址 ， 用 四 个 字 节 直接 指定 目标 。 汇 编 器 
和 链接 器 会 选择 适当 的 跳 转 目的 编码 。 
作为 一 个 与 PC 相关 的 寻 址 的 例子 ， 下 面 这 个 汇编 代码 的 片断 是 编译 silly.c 文件 所 产生 的 。 它 
包含 两 个 跳 转 : 第 ] 行 的 jle 指令 前 向 跳 转 到 更 高 的 地 址 ， 而 第 8 行 的 jg 指令 后 向 跳 转 到 较 低 的 地 址 。 
jle .L4 If <=, goto dest2 
.p2align 4,,7 Aligns next instruction to multiple of 8 
„L5: destl: 
movi %edx, teax 
Sarl $1,%teax 
subl *eax, tedx 
testl %tedx, tedx 
jg .LS if >, goto destl 


„L4: dest2: 
0 mov] %edx, teax 


注意 ， 第 2 行 是 一 条 针对 汇编 器 的 命令 〈directive)， 它 会 使 后 面 指令 的 地 址 从 16 的 倍数 处 开 
她 , 而 最 多 浪费 7 个 字 节 。 这 条 命令 是 为 了 使 处 理 器 能 更 优化 地 使 用 指令 高 速 缓存 存储 器 (instruction 


cache memory ). 
汇编 器 产生 的 “.o” 格 式 的 反 汇编 版 本 是 这 样 的 : 


1 8: 7e 11 jle 1b <silly+0x1b> Target = dest2 
2 a: 8d b6 00 00 OC 00 lea 0x0(%es1i),%esi Added nops 


上 


e O O ~ åA UW 心 WwW Ww 
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3 10: 89 do mov %edx, eax destl: 

4 12: cl £8 01 Sar $0Ox1, eax 

5 15: 29 c2 sub %eax, tedx 

6 17: 85 d2 test tedx, tedx 

7 19: 7É £5 jg 10 <silly+0x10> Target = dest! 
8 lb: 89 do0 mov %edx, eax dest2: 


24TH lea 0x0 (esi), Sesi i SRAT SNORE REA OPS Ad (nop), 
使 得 下 一 条 指令 (第 3 行 ) 的 起 始 地 址 是 16 的 倍数 。 

右边 反 汇 编 器 产生 的 注释 中 ,指令 1 的 跳 转 目标 明确 指明 为 Gxib， 指 令 7 的 是 0x10。 不 过 , W 
察 指令 的 字 节 编码 ， 会 看 到 跳 转 指令 1 的 目标 编码 (在 第 二 个 字 节 中 ) 为 0x11 CHM ID. HE 
加 上 Oxa (十进制 10)， 也 就 是 下 一 条 指令 的 地 址 ， 就 得 到 跳 转 目标 地 址 0xlb 十进制 27)， 也 就 是 
指令 8 的 地 址 。 

关 似 地 ， 跳 转 指 令 7 的 目标 用 单字 节 、 二 进 制 补 码 表示 编码 为 0xf5 (十 进 制 -11)。 将 这 个 数 加 
上 0xib《〈“ 十 进 制 27)， 即 指令 8 的 地 址 ， 我 们 得 到 Ox10 (十进制 16)， 即 指令 3 的 地 址 。 

正如 这 些 例子 说 明 的 那样 ， 当 执行 与 PC 相关 的 寻 址 时 ， 程 序 计数 器 的 值 是 跳 转 指令 后 面 的 那 
条 指令 的 地 址 ， 而 不 是 跳 转 指令 本 身 的 地 址 。 这 种 惯例 可 以 追 述 到 早期 的 实现 ， 当 时 ， 处 理 器 会 将 
更 新 程序 计数 器 作为 执行 一 条 指令 的 第 一 步 。 


直面 是 链接 后 的 程序 反 汇 编 的 版 本 : 

1 80483c8: 7e 11 jle 80483db <silly+0x1b> 
2 8C483ca: 8d b6 00 00 00 00 lea 0x0 ($esi) ,esi 

3 80483d0: 89 dQ mov edx, teax 

4 8C483d2: ci £8 01 sar SOx1, teax 

5 80483d5: 29 c2 Sub eax, tedx 

6 80483d7: 85 d2 test tedx, tedx 

7 8048349: 7f £5 jg 80483d0 <silly+0x10> 
8 80483db: 89 ad mov $edx, teax 


这 些 指令 被 重 定位 到 不 同 的 地 址 ， 但 是 第 1 行 和 第 7 行 中 跳 转 目标 的 编码 并 没有 变 。 通 过 使 用 
与 PC 相关 的 跳 转 目 标 编码 ， 指 令 编码 很 简洁 〈 只 需要 两 个 字 节 )， 而 且 且 标 代码 可 以 不 做 改变 就 移 
到 存储 器 中 不 同 的 位 置 。 


练习 题 3.8 
在 下 面 这些 反 汇编 二 进 制 代码 节选 中 ， 有 些 信 息 被 X 代 蔡 了 。 回 答 下 列 关于 这 些 指令 的 问题 : 
A. 下 面 jbe 指令 的 目标 是 什么 ? 


8048dlc: 76 da jbe XXXXXXX 
8048dle: eb 24 jmp 8048d44 
B. mov 指令 的 地 址 是 多 少 ? 
XXXXXXX: eb 54 jmp 8048044 
XXXXXXX: c7 45 £8 10 00 mov $0x10, Oxf ffffff8 (Febp) 


C. 在 下 面 的 代码 中 ， 跳 转 目 标的 编码 是 PC 相关 的 ， 且 是 一 个 4 字 节 的 二 进 制 补 码 数 。 字 节 是 
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按照 从 最 低位 到 最 高 位 的 顺序 列 出 的 ， 反 映 出 ITA32 的 小 端 法 字 节 顺序 。 跳 转 目 标的 地 址 是 什么 ? 
8048902: e9 cb 00 00 00 jmp XXXXXXX 


8048907; 99 nop 
D. 请 解释 右边 的 注释 与 左边 的 字 节 代码 之 间 的 关系 。 这 两 行 都 是 jmp 指令 编码 的 一 部 分 。 
80483f0: ff 25 e0 a2 04 jmp  *0x804a2e0 


80483ć£5: 08 


为 了 实现 C 的 控制 结构 ， 编 译 器 必须 使 用 刚才 我 们 看 到 的 各 种 类 型 的 跳 转 指令 。 我 们 会 浏览 一 
下 最 常见 的 结构 ， 从 简单 的 条 件 分 支 开始 ， 然 后 考虑 循环 和 开关 语句 


3.6.4 翻译 条 件 分 文 
C 中 的 条 件 语句 是 用 有 条 件 和 无 条 件 跳 转 结合 起 来 实现 的 。 例如， 图 3.12 给 出 了 一 个 计算 两 数 之 
E FONT (EA PR RIC TRAS (a)。(c) 是 GCC 产生 的 汇编 代码 ， 我 们 创建 了 对 应 的 C 版 本 ， 称 为 gotodiff 
(b)， 它 是 更 如 紧密 地 遵循 汇编 代码 的 控制 流 。(b) 使 用 了 C 中 的 goto 语 句 ， 这 个 语句 类 似 于 汇编 代 
码 中 的 无 条 件 跳 转 。 第 6 行 的 goto less 语 名 会 导致 一 个 跳 转 ， 转 移 到 第 9 行 的 标号 less 处 ， 略 过 了 
第 7 行 上 的 语句 。 请 注意 ， 通 党 认为 使 用 goto 语 名 是 一 种 不 好 的 编程 风格 ， 因 为 它 会 使 代码 难以 阅读 
和 调试 。 在 我 们 的 拔 述 中 使 用 goto 语 句 ， 是 为 了 构造 描述 汇编 代码 程序 控制 流 的 C 程 序 。 我 们 称 这 样 
的 C 程 序 为 “goto 人 代码” 
汇编 代码 实现 首先 比较 两 个 操作 数 〈 第 3 行 )， 设 置 条 件 码 。 如 果 比 较 的 结果 表明 xx 小 于 y， 那 
么 它 束 会 跳 转 到 计算 y-x 的 代码 块 (第 9 行 ) 否则 就 继续 执行 计算 x-y 的 代码 (第 $ 行 和 第 6 行 )。 
在 这 两 种 情况 中 ， 计 算 结果 都 存放 在 寄存 器 Weax 中 ， 到 第 10 行 结束 ， 在 此 ， 它 会 执行 栈 完成 代码 
《没有 显 不 出 来 )。 
C 中 的 if-else 语句 的 通用 形式 是 这 样 的 : 
1f (test-expr) 
then-statement 
else 
else-statement 


XE test-expr 是 一 个 整数 表达 式 ， 它 的 取 值 为 0〈 解 释 为 “ 假 ”” 或 者 为 非 0〈 解 释 为 “ 真 ”)。 
PAS 4} 3218 A) P (then-statement 和 else-statement) 只 会 执行 一 个 。 
对 于 这 种 通用 形式 ， 汇 编 实 现 通常 会 使 用 下 面 这 种 形式 ， 这 里 ， 我 们 用 C 语法 来 描述 控制 流 ， 
t = test-expr; 
if (t) 
Goto true; 
else-statement 
goto done; 
true: 
then-statement 
done: 


也 就 是 ， 汇 编 器 为 then-statement 和 else-statement 产生 各 自 的 代码 块 ， 并 插入 条 件 和 无 条 件 分 
文 ， 以 保证 能 执行 正确 的 代码 块 。 
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code/asm/abs.c 
1 int gotodiff(int x, int y) 
2 { 
3 int rval; 
4 
5’ if (x < y) 
code/asm/abs.c 6 goto less; 
1 aint absdiff(int x, int y) 7 rval = x - y; 
2 { 8 goto done; 
3 if (x < y) 9 less: 
4 return y -~ xX; 10 rval = y - X; 
5 else 11 done: 
6 return x - y; 12 return rval; 
7 } 13 } 
code/asm/abs.c code/asm/abs.c 
Ca) 原始 的 C 代 码 (b) 与 之 等 价 的 goto 版 本 
1 movil 8(%ebp) , tedx Get x 
2 movi 12(%ebp), teax Get y 
3 cmpl teax, tedx Compare x:y 
4 ji .L3 If <, goto less 
5 subl teax, tedx Compute x-y 
6 movl %tedx, teax Set as return value 
7 jmp .L5 Goto done 
8 „L3: less: 
9 subl %tedx, eax Compute y-x as return vaiue 
10 .L5: . done: Begin completion code 


(c) 产生 的 汇编 代码 


图 3.12 条 件 语 句 的 编译 
C 过 程 absdiff (a) 包含 一 个 if-else 语句 ， 产 生 的 汇编 代码 为 (c)， 而 C 过 程 gotodiff (b) 模拟 了 汇编 代码 的 控制 流 。 注 意 : 


访 编 代码 中 栈 的 建立 和 完成 部 分 被 省 上 略 。 


练习 题 3.9 
当 给 出 下 列 C 代码 时 
code/asm/simple-tf.c 
1 void cond(int a, int *p) 
2 { 
3 1f (p && a > 0) 
4 *O += a; 
2 } 
code/asm/simple-if.c 


GCC 会 产生 下 面 的 汇编 代码 ; 
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1 movl 8 (%ebp) , *edx 
2 movi 12 (%tebp), eax 
3 testl %teax, teax 

4 je .L3 

5 testl %edx, tedx 

6 jle .L3 

7 addl %edx, (%eax) 

8 .L3: 


A. 按照 图 3.12 (b) 中 所 示 的 风格 ， 用 C 写 一 个 goto A, TRAM HE, FRM MAE 
的 控制 流 。 像 我 们 在 示例 中 那样 给 汇编 代码 加 上 注解 可 能 会 有 帮助 。 
B. 请 说 明 为 什么 CC 代码 中 只 有 一 个 过 语句 ， 而 汇编 代码 包含 两 个 条 件 分 支 。 


3.6.5 ”循环 
C 提供 了 好 几 种 循环 结构 ， 即 while. for 和 do-while。 汇 编 中 没有 相应 的 指令 存在 。 作 为 奉 代 ， 
将 条 件 测试 和 跌 转 组 合 起 来 实现 循环 的 效果 。 有 趣 的 是 ， 大 多 数 汇编 器 根据 一 个 循环 的 do-while 形 
DOR EPR CAS, 即使 在 实际 程序 中 , 这 种 形式 用 的 相对 较 少 。 其 他 的 循环 会 首先 转换 成 do-while 
FE, FAIRE RRL SE NES. BASS TR ES BE, A do-while 开始 ， 然 后 再 研究 更 
复杂 的 实现 。 
do 一 while 循环 
do-while 语句 的 通用 形式 是 这 样 的 : 
do 
body-statement 
whi le (test-expr); 


WEH HY SR et de E EAT body-statement, X} test-expr 求 值 ， 如 果 求 值 的 结果 为 非 零 ， 就 继续 循 
环 。 注 意 ，body-statement 至 少 执 行 一 次 。 

>» do-while 的 实现 有 下 面 这 样 的 通用 形式 ; 
loop: 

body-statement 

t = test-expr, 

if (t) 

goto loop; 


作为 一 个 不 例 , 图 3.13 给 出 了 一 个 用 do-while 循环 计算 Fibonacci 序列 中 第 na AY pa BAY EER. 
Fibonacci 序列 是 这 样 递 归 定 义 的 ， 


F, = ] 
F- = | 
F, = Fait Fro, n23 


比如 说 ， 该 序列 的 前 10 个 元 素 是 1、1、2、3、5、8、13、21、34 #155. FA do-while 循环 来 实 
现 ， 序列 是 从 Fy =0 和 Fy, = | 开始 ， WAM F, Al F 开始 的 。 
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1 int fib _dw(int n) 

2 { 

3 int i = 0; 

4 int val = Q; 

5 int nval = 1; 

6 

7 do { 

8 int t = val + nval; 
9 val = nval; 
10 nval = t; 

11 l++; 

12 } while (1 < n); 
13 

14 return val; 

15 } 


sea [aa [ a 


图 3.13 Fibonacci 程序 do-while 版 本 的 C 和 汇编 代码 


只 有 循环 内 的 代码 被 显示 。 


(a) C 代码 
1 .Lb: 
2 leal (%edx, %ebx) 
3 movl %edx, %ebx 
4 movi *eax, tedx 
5 incl tecx 
6 cmpi *esi, %ecx 
7 j1 .L6 
8 movl tebx, teax 


Cb) 对 应 的 汇编 语言 代码 


loop: 


,% eax 
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code/asm/fib.c 


code/asmffib.c 


Compute t = val + nval 
copy nval to val 

Copy t to nval 
Increment ! 

Compare i:n 

If less, goto loop 

Set val as return value 


图 中 还 显示 了 实现 这 个 循环 的 汇编 代码 ， 以 及 一 张 列 出 寄存 器 和 程序 值 之 间 对 应 关系 的 表 。 在 
这 个 例子 中 ，body-statement 是 第 8~11 47, Nt. val 和 nval 赋值 ， 并 将 i 加 1。 这 些 功能 是 由 汇编 


代码 的 第 2 一 $ 行 实现 的 。 
了 这 个 表达 式 。 

创建 一 
是 出 现 循环 时 。 


练习 题 3.10 

对 于 C 代码 

1 int dw_loop(lint x, 
2 { 


int y, int n) 


表达 式 1 < n 就 是 test-expr。 第 6 行 和 第 7 行 的 跳 转 指 令 的 测试 条 件 实现 
一 旦 退出 循环 ， 就 会 将 val 拷 进 寄存 器 %eax， 作 为 返回 值 (第 8 行 )。 
RE 3.13 (b〉 中 那样 的 寄存 器 使 用 表 ， 对 于 分 析 汇 编 语言 程序 是 很 有 帮助 的 ， 特 别 
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3 do { 
4 X += n; 
5 y “= n; 
6 n--} 
7 } while ((n > 0) & {y < n)); /* Note use of bitwise '&' */ 
8 return x; 
9 o} 
GCC 产生 了 下 面 这 样 的 汇编 代码 : 
Initially x, y, andn are at offsets 8, 12, and 16 from %ebp 
1 movi 8(%ebp), %esi 
2 movl 12(%ebp), ebx 
3 movl 16 {%ebp), Secx 
4 .p2align 4,,7 Inserted to optimize cache performance 
5 .L6: 
6 imull %ecx, tebx 
7 addl %tecx, Sesi 
8 decl %tecx 
9 testl t*ecx, tecx 


10 setg tal 
11 cmpl tecx, tebx 
12 setl dl 
13 andl %edx, teax 
14 testb $1,%al 
15 jne .L6 
A. 创建 一 个 寄存 器 使 用 表 ， 类 似 于 图 3.13 (b) 中 所 示 的 那个 。 
B. 指出 C 代码 中 的 test-expr 和 body-statement， 以 及 汇编 代码 中 相应 的 行 ， 
C. 对 汇编 代码 添加 一 些 注 释 ， 描 述 程序 的 操作 ， 类 似 于 图 3.13 (b) 中 所 示 的 那样 。 
while 循环 
while 语句 的 通用 形式 是 这 样 的 ， 
while (fest-expr) 
body-statement 


‘Gj do-while 的 不 同 之 处 在 于 对 test-expr 求 值 ， 在 第 一 次 执行 body-statement 之 前 ， 循 环 就 吕 


能 中 止 了 。 直 接 翻 译 成 使 用 goto 语句 的 形式 就 是 


loop: 
t = test-expr; 
if (!t) 


goto done; 
body-statement 
goto loop; 
done: 


这 种 翻 详 要 求 内 循环 ， 也 就 是 执行 次 数 最 多 的 代码 部 分 ， 里 有 丙 条 控制 语句 。 相 反 ， 大 多 数 C 
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编译 器 将 这 段 代码 转换 成 do-while 循环 ， 用 一 个 条 件 分 支 来 在 需要 时 省 略 循环 体 的 第 一 次 执行 : 
if (/test-expr) 
goto done; 
do 
body-statement 
while (test-expr) ; 
done: 


然后 ， 这 段 代码 可 以 转换 成 市 goto 语句 的 代码 : 
t = fest-expr; 
if (!t) 
goto done; 
Loop: 
body-statement 
- = lest-expr; 
if (t) 
goto loop; 
done: 


作为 一 个 例子 ， 图 3.14 给 出 了 一 个 用 while 循环 来 实现 Fibonacci 序列 函数 的 实现 (a). HER, 
IS RBA ATM ORK Fy(val)Al F(nval) 开 始 。 旁 边 的 C Až fib_w_goto (b) 表明 了 这 段 代码 是 如 
何 翻译 成 汇编 的 ， 而 〈c) 中 的 汇编 代码 非常 接近 于 fib_w_goto PAY C 代码 。 编 译 器 进行 了 几 个 非 
ABH, AEA goto 代码 (b)〉 中 看 到 。 首 先 ， 编 译 器 不 是 使 用 变量 i 作为 循环 变量 并 且 在 
每 次 重复 时 拿 它 与 n 做 比较 ， 而 是 引入 了 一 个 新 的 称 为 “nmi” 的 循环 变量 ， 与 原来 的 代码 相 比 ， 
它 的 值 等 于 n- i。 这 使 得 编译 器 只 用 三 个 寄存 器 作为 循环 变量 ， 而 不 用 四 个 。 其 次 ， 它 将 最 原始 
的 测试 条 件 (i < n) 优化 成 了 (val <n)， 因 为 i 和 val 的 初始 值 都 是 1。 这 样 一 来 ， 编 详 器 就 能 完全 
HERTE i 了。 编译 器 常常 利用 变量 的 初始 值 来 优化 初始 的 测试 ， 不 过 这 使 得 解读 汇编 代码 有 点 麻 
需 。 第 三 ， 为 了 循环 的 连续 执行 ， 要 保证 i < n， 这 样 编译 器 就 能 假设 nmi 是 非 负 的 了 。 因 此 ， 它 就 
能 将 nmi != 0 而 不 是 nmi >= 0 作为 循环 条 件 来 测试 了 。 这 样 就 在 汇编 代码 中 省 略 了 一 条 指令 。 


练习 题 3.11 

对 于 下 面 的 C 代码 ， 

1 int loop_while(int a, int b) 
2 { 

3 int 1 = Q0; 

4 int result = a; 

5 while {i < 256) { 
6 result += a; 

7 a -= D; 

8 1 += D: 

9 } 

10 return result; 
11} 
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GCC 产生 这 样 的 汇编 代码 : 


Initially a and b are at offsets 8 and 12 from %ebp 


1 movl &8(%ebp),%eax 
2 movl 12(%ebp) , %ebx 
3 xor] %ecx, tecx 

4 movl] %eax, tedx 

5 .p2align 4,,7 

6 „L5: 

7 addl %eax, tedx 

8 subl *ebx, teax 

9 addl %ebx, tecx 

10 cmpl $255,%ecx 

11 Jle . L5 


A. 创建 一 个 循环 体内 的 寄存 器 使 用 表 ， 类 似 于 图 3.14 e) 中 所 示 的 那 一 个 。 

B. 指出 C 代码 中 的 test-expr 和 body-statement， 以 及 汇编 代码 中 相应 的 行 。C 编译 器 对 初始 测 
试 进行 了 什么 优化 ? 

C. 对 汇编 代码 添加 一 些 注释 ， 描 述 程序 的 操作 ， 类 似 于 图 3.14 (Cc) 中 所 示 的 那样 。 

D. (ACHE) 写 一 个 该 函数 的 goto 版 本 , 它 的 结构 类 似 于 汇编 代码 的 结构 ， 就 像 图 3.14 (b) 
中 所 做 的 那样 。 


code/asm/fib.c 
1 int fib_w_goto(int n) 
2 { 
3 int val = 1; 
——__—___—_—_——,ode/asmffib.c : n nval i L; 
1 int fib w(int n) IRS BMR, bi 
2 i 7 if (val >= n) 
3 int 1 = l; 8 goto done; 
4 int val = 1; 9 nmi = n-l; 
5 int nval = 1; 10 
6 11 loop: 
7 while {1 < n) { 12 t = val+nval; 
8 int t = val+nval; 13 val = nval; 
9 val = nval; 14 nval = t; 
10 nval = t; 1s ThIL 一; 
T , 16 if (nmi) 
1 i++; 
-> 17 goto loop; 
- } 18 
3 19 done: 
L4 return val; 20 return val; 
15 } 21 } 
code/asm/fib.c code/asm/fib.c 
Ca) C 代码 


(b) 与 之 等 价 的 goto 版 本 
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leal (%*ecx, tebx), teax 
movl %ecx, tebx 

10 movl teax, %ecx 

11 decl %tedx 

12 jnz .L10 


(c) 对 应 的 汇编 语言 代码 


Compute t = nval+val 
Set val to nval 

Set nval to t 
Decrement nmi 

if != 0, goto Loop 


1 movl 8{%ebp),%teax Get n 

2 movl $1, %ebx Set val to l 

3 movl $1,%ecx Set nval to 1 

4 cmpl %teax, tebx Compare vai:n 

5 jge .L9 If >= goto done 
6 leal -1(%eax), $edx nmi = n-l 

7 .L10: loop: 

8 

9 


13 .L9: done:: 


3.14 Fibonacci ġġ while 版 本 的 C 和 汇编 代码 


编译 器 进行 了 一 些 优化 ， 包 括 用 一 个 我 们 称 为 nmi 的 变量 代替 变量 i 的 值 。 
for 循环 
for 循环 的 通用 形式 是 这 样 的 : 


for (init-expr; test-expr; update-expr ) 
body-statement 


C 语言 标准 说 明 ， 这 样 一 个 循环 的 行为 与 下 面 这 有 段 使 用 while 循环 的 代码 的 行为 一 样 : 


init-expr; 

while (test-expr) { 
body-statement 
update-expr; 

} 


也 就 是 ， 程 序 首先 会 对 初始 表达 式 init-expr 求 值 。 然 后 进入 循环 
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， 它 会 先 对 测试 条 件 test-expr 


求人 ,如 条 调试 结 条 为 " 假 ? 就 会 退出 ,然后 执行 循环 体 body-statement, 最 后 对 更 新 表达 式 update-expr 


求 值 。 

这 段 代码 编译 后 的 形式 是 基于 前 面 讲 过 的 从 while 到 do-while 的 转换 的 ， 首 先 给 出 do-while 形 
式 : 

Init-expr; 


if (/ftest-expr) 
goto done; 
do { 
body-statement 
update-expr; 
} while (test-expr); 
done 
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然后 ， 将 它 转换 成 goto RIB: 


intt-expr; 
t = test-expr; 
1f (it) 
goto done; 
loop: 
body-statement 
update-expr; 


t = ftest-expr; 
if (t) 
goto loop; 
done: 
作为 一 个 示例 ， 下 面 这 段 代 码 给 出 了 一 个 使 用 for 循环 的 Fibonacci R BUH SE RR: 
code/asm/fib.c 
1 int fib f(int n) 
2 { 
3 int i; 
4 int val = 1; 
5 int nval = 1; 
6 
7 for (1 = l; i < r; i++) { 
8 int t = val+nval; 
9 val = nval; 
10 nval = t; 
11 } 
12 
13 return val; 
14 } 
code/asm/fib.c 


将 这 段 代 码 转 换 成 while 循环 形式 得 到 的 代码 与 图 3.14 中 给 出 的 函数 fib_w 的 代码 一 样 。 实 际 
E, GCC 对 两 个 孙 数 产生 的 汇编 代码 就 是 一 样 的 。 


练习 题 3.12 
考虑 下 面 的 汇编 代码 : 
Initially x, y, and n are offsets 8, 12, and 16 from %ebp 


movl tebx, %ecx 
imull 12/{(%ebp) , secx 


1 movl 8(%ebp), %ebx 
2 movl 16(%ebr), tedx 
3 xorl Seax, eax 

4 decl Sedx 

5 Js .L4 

6 

7 
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8 .p2align 4,,7 Inserted to optimize cache performance 
9 .Le : 

10 addl %ecx,%teax 

11 subl %tebx, tedx 

12 jns .L6 

13 .L4: 


前 面 的 代码 是 编译 下 面 形式 的 C 代码 得 到 的 : 


1 int loop({int x, int y, int n) 

2 { 

3 int result = 0; 

4 int i; 

5 for (i = i > )({ 
6 result += 

7 } 

8 return result; 

9 } 


你 的 任务 就 是 填写 C 代码 中 缺失 的 部 分 ， 使 该 程序 等 价 于 生成 的 汇编 代码 。 回 忆 一 下 ， 函 数 的 
结果 是 放 在 寄存 器 Weax 中 返回 的 。 为 了 解决 这 个 问题 ， 你 可 能 需要 对 寄存 器 的 使 用 进行 一 点 猜测 ， 
然后 看 看 这 些 猜 测 是 否 合理 。 

A. 程序 值 result 和 i 应 该 放 在 哪些 寄存 器 中 ? 

B. i 的 初始 值 是 多 少 ? 

C. i 的 测试 条 件 是 什么 ? 

D. 是 如 何 更 新 i 的 ? 

E. 描述 如 何在 循环 体内 增加 result 的 C 表 达 式 ， 不 会 在 一 次 循环 到 下 一 次 循环 之 间 改 变 其 值 ，。 
编译 全 发 现 了 这 个 情况 ， 将 它 的 计算 移 到 了 循环 之 前 。 这 个 表达 式 是 什么 ” 

F. 填写 出 C 代码 缺失 的 部 分 。 


3.6.6 switch 语句 

switch (FAP) 语句 提供 了 根据 一 个 整数 索引 值 进行 多 重 分 支 (multiway branching) 的 能 力 。 
人 在 处 理 共 有 多 种 可 能 结果 的 测试 时 ， 这 种 语句 特别 有 用 。 它 们 不 仅 提 高 了 C 代码 的 可 读 性 ， 而 且 通 
过 使 用 一 种 称 为 跳 转 表 (jump table) 的 数据 结构 使 得 实现 更 加 高 效 。 跳 转 表 是 一 个 数组 ， 表 项 i 是 
一 个 代码 段 的 地 址 ， 这 个 代码 段 实现 的 是 当 开 关 索 引 值 等 于 i 时 程序 应 该 采取 的 动作 。 程 序 代码 用 
开关 索引 值 来 执行 一 个 跳 转 表 内 的 数组 引用 ， 确 定 跳 转 指 令 的 目标 。 和 使 用 一 组 很 长 的 让 else 语句 
相 比 ， 使 用 跳 转 表 的 优点 是 执行 开关 语句 的 时 间 与 开关 情况 (switch cases) 的 数量 无 关 。GCC 根据 
开关 情况 的 数量 和 开关 情况 值 的 稀少 程度 (sparsity) 来 翻译 开关 语句 。 当 开关 情况 数量 比较 多 ( 例 
如 ， 四 个 或 更 多 )， 并 且 值 的 范围 跨度 比较 小 时 ， 就 会 使 用 跳 转 表 。 

图 3.15 (a) 给 出 了 一 个 C switch 诸 句 的 示例 。 这 个 例子 有 些 非常 有 意思 的 特征 ， 包 括 情 况 标 
写 (case labels) 是 不 连续 的 (对 于 情况 101 和 105 是 没有 标号 的 )， 有 些 情况 有 多 个 标号 (情况 
104 和 106)， 而 有 些 情 况 则 会 落 入 其 他 情况 (情况 102)， 因 为 对 应 该 情况 的 代码 段 没有 以 break 
语句 结尾 。 
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— c codeée/asm/switch.c 
/* Next line is not legal C */ 


1 
2 code *jt[7] = { 
3 loc_A, loc_def, loc_B, loc_C, 
4 loc _ D, loc_def, loc_D 
5 bj 
6 
7 int switcn_eg_impl {int x) 
8 { 
9 unsigned xi = x - 100; 
— m Code/asm/switch.c 10 int result = x; 
1 int switch_leg({int x) 11 
2 { 12 if (xi > 6) 
3 int result = x; 13 goto loc_def; 
< 14 
5 switch (x) { 15 /* Next goto is not legal C */ 
6 16 goto 3t [x1i]; 
7 case 100: 17 
8 result *= 13; 18 loc_A: /* Case 100 */ 
9 break; 19 result *= 13; 
10 20 goto done; 
11 case 102: 21 
12 result += 10; 22 loc_B: /* Case 102 */ 
13 /* Fall through */ 23 result += 10; 
14 24 /* Fall through */ 
15 case 103: 25 
16 result += 11; 26 loc_c: /* Case 103 */ 
17 oreak; 27 result += 11; 
18 28 goto done; 
19 case 104: 29 
20 case 106: 30 loc_D: /* Cases 104, 106 */ 
21 result *= result; 31 result *= result; 
22 break; 32 goto done; 
23 33 
24 default: 34 loc _def: /* Default case */ 
25 result = 0; 35 result = Q; 
26 } 36 
2 7 37 done: 
28 return result; 38 return result; 
29 } 39 } 
~ code/asm/switch.c —— C code/asm/switch.c 
(a) switch 语句 Cb) 到 扩展 C 的 翻译 


3.15 switch 语句 示例 以 及 到 扩展 C 的 翻译 
到 扩展 C (extended C》 的 翻译 给 出 了 跳 转 表 jt 的 结构 ， 以 及 是 如 何 访问 它 的 。 实 际 上 C 中 是 不 允许 这 样 的 表 和 访问 的 。 


图 3.16 是 编译 switch_eg 时 产生 的 汇编 代码 ,这 段 代 码 的 行为 用 CC 的 扩展 形式 来 描述 就 是 图 3.15 
(b) 中 的 过 程 switch_eg_impl。 我 们 说 “扩展 的 ”是 因为 C 本 身 并 不 提供 支持 这 种 跳 转 表 所 需 的 结 
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14] 


构 ， 因 此 我 们 的 代码 并 不 是 合法 的 C。 数 组 让 包含 了 个 表 项 ， 每 个 都 是 一 个 代码 块 的 地 址 。 为 此 ， 
我 们 扩展 了 C， 增 加 了 数据 类 型 code。 


œ iw Bo Fe 


Co ~J MH WW 


20 


Set up the jump table access 
lea. -100 (%edx) , teax 
cmp. $6, %eax 

ja .L9 

jmp *.L10(, eax, 4) 


Case 100 


„L4: 


leal (edx, %edx, 2), %eax 
leal (%edx,%eax, 4), %edx 
Imp . L3 


Case 102 


.LD: 


addl $10, %edx 


Case 103 


„L6: 


addl $11, %edx 
jmp .L3 


Cases 104, 106 


.L8: 


imull %edx,%t%edx 
jmp .L3 


Default case 


-L9: 


xorl %*edx, tedx 


Return result 


„L3: 


movi %*edx, teax 


Compute xi = x-100 
Compare xi:6 

if >, goto loc_def 
Goto jt[xi] 


loe A: 
Compute 3*x 
Compute x+4*3 *x 


Goto done 


loc_B: 
result += 10, Fall through 


oc_C: 
result+= 11 
Goto done 


loc_D: 
result *= result 
Goto done 


loc_def: 
result = 0 


done: 
Set result as return value 


3.16 3.15 switch 语句 示例 的 汇编 代码 


第 1 一 4 行 建立 起 了 跳 转 表 的 入 口 。 为 了 保证 当 x 的 值 小 于 100 或 大 于 106 时 会 执行 default FF 
关 情 况 指 定 的 计算 ， 代 码 生 成 了 一 个 等 于 x-100 的 无 符号 值 xi。 对 于 介 于 100~106 之 间 的 x 的 值 ， 
xi 的 值 在 0 一 6 之 间 ， 因 为 x-100 的 负 值 会 绕 回 成 非常 大 的 无 符号 数 。 因 此 ， 当 xi 大 于 6 时 ， 代 码 
用 ja (AMSAT) 指令 来 跳 转 到 默认 开关 情况 的 代码 。 用 it 来 指 回 跳 转 表 ， 代 码 会 执行 一 个 跳 转 ， 
转移 到 表 中 表 项 xi 处 的 地 址 。 注 意 ， 这 种 形式 的 goto 不 是 合法 的 C 语句 。 指 令 4 实现 的 是 到 跳 转 
表 中 茶 个 表 项 的 转移 。 因 为 是 间接 跳 转 ， 目 标 是 从 存储 器 中 读 出 的 。 读 的 有 效 地 址 是 由 标号 .L10 指 
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定 的 基地 址 加 上 变量 xi( 放 在 寄存 器 %eax 中 ) 的 伸缩 值 (伸缩 因子 值 为 4， 因 为 跳 转 表 的 每 个 表 项 
都 是 4 PS) MER. 
在 汇编 代码 中 ， 跳 转 表 是 用 下 面 这 样 的 声明 表示 的 ， 我 们 添加 了 一 些 注释 : 


1 .section .rodata 

2 .align 4 Align address to multiple of 4 
3 .L10: 

4 .long .L4 Case 100: loc_A 

5 .long .L9 Case 101: loc_def 

6 .long .LS Case 102: loc_B 

7 .long .L6 Case 103: loc_C 

8 .long .L8 Case 104: loc_D 

9 .long .L9 Case 105: ioc_def 

10 .long . L8 Case 106: loc_D 


这 些 声明 表明 ， 在 叫做 “.rodata”( 表 示 “ 只 读数 据 ”“Read-Only Data”〉 的 目标 代码 文件 的 段 
中 ， 应 该 有 一 组 7 个 “长 ” 字 (4 个 字 节 )， 每 个 字 的 值 都 是 与 指定 的 汇编 代码 标号 (例如 ，.L4) 
相关 的 指令 地 址 。 标 号 .L10 标志 着 这 段 分 配 的 起 始 。 与 这 个 标号 相对 应 的 地 址 会 作为 间接 跳 转 ( 指 
令 4) 的 基地 址 。 

在 Switch_eg_impl 中 (图 3.15 (b))， 从 标号 loc_A 开始 ， 一 直到 loc_D Al loc_def 的 代码 块 ， 
实现 了 swith 语句 的 五 个 不 同 的 分 支 。 可 以 观察 到 ， 当 x 超出 100 一 106 范围 时 (初始 范围 检查 )， 
或 者 当 它 等 于 101 或 105 时 (根据 跳 转 表 )， 都 会 执行 标号 为 loc_def 的 代码 块 。 注 意 标号 为 loc_B 
的 代 个 块 是 如 何 落 入 标号 为 loc_C 的 代码 块 的 。 


练习 题 3.13 


在 下 面 的 C 函数 中 ， 我 们 省 略 了 switch 语句 的 主体 。 在 CC 代码 中 ， 开 关 情 况 标 号 (case labels ) 
是 不 连续 的 ， 而 有 些 情况 还 有 多 个 标号 。 


int switch2(int x) { 
int result = Q; 
Switch (x) { 
/* Body of switch statement omitted */ 
} 
return resu_t; 


} 


在 编译 函数 时 ，GCC 为 程序 的 初始 部 分 以 及 跳 转 表 生成 了 下 面 这 样 的 汇编 代码 。 变量 x 开始 时 
是 位 于 相对 于 寄存 器 %oebp 偏 移 量 为 8 的 地 方 。 


Jump table for switch2 
1 „L11: 
2 .long .L4 
Setting up jump table access 3 .long .L10 
1 movl 8(%ebp),%eax Retrieve x 4 .long .L5 
2 addl $2,%eax 5 -long .L6 
3 cmpl $6, *eax 6 .long .L8 
4 ja .L10 7 ,Tong .L8 
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5 jmp *.L11(,%eax, 4) 8 .long .L9 
根据 前 面 的 信息 来 回答 下 列 问题 : 

A. switch 语句 体内 的 开关 情况 标号 的 值 是 多 少 ? 

B.C 代码 中 哪些 开关 情况 有 多 个 标号 ? 


3.7 Wit 


一 个 过 程 调用 包括 将 数据 〈 以 过 程 参 数 和 返回 值 的 形式 ) 和 控制 从 代码 的 一 部 分 传递 到 为 一 部 
分 。 另 外 ,， 它 还 必须 在 进入 时 为 过 程 的 局 部 变量 分 配 空间 ， 并 在 退出 时 释放 这 些 空间 。 大 多 数 机 器 ， 
包括 IJA32， 只 提供 简单 的 转移 控制 到 过 程 和 从 过 程 中 转移 出 控制 的 指令 。 数 据 传递 、 局 部 变量 的 分 
配 和 释放 是 通过 操纵 程序 栈 来 实现 的 。 


3.7.1 栈 帧 结构 

IA32 程序 用 程序 栈 来 文 持 过 程 调用 。 栈 用 来 传递 过 程 参 数 、 存 储 返 回信 息 、 保 存 寄存 路 以 供 以 
后 恢复 之 用 ， 以 及 用 于 本 地 存储 。 为 单个 过 程 分 配 的 那 部 分 栈 称 为 栈 帧 (stack frame). AY 3.17 描绘 
了 栈 帧 的 通用 结构 。 栈 帧 的 最 顶端 是 以 两 个 指针 定 界 的 ， 寄 存 器 和 ebp EAMH, mA A g wesp 
作为 栈 指针 。 当 程序 执行 时 ， 栈 指针 是 可 以 移动 的 ， 因 此 大 多 数 信 息 的 访问 都 是 相对 干 巾 指 针 的 。 

假设 过 程 P GAR A) 调用 过 程 Q (被 调用 者 )。Q 的 参数 放 在 P 的 栈 帧 中 。 另 外 ， 当 中 调用 Q 
时 , P 中 的 返回 地 址 被 压 入 栈 中 ， 形 成 P 的 栈 幅 的 末尾 ， 返 回 地 址 就 是 当 程 序 从 Q 返回 时 应 该 继续 
执行 的 地 方 。Q 的 栈 帧 从 保存 的 帧 指针 的 值 〈 例 如 ，%ebp) 开始 ， 后 面 是 保存 的 其 他 寄存 器 的 值 。 

过 程 Q 也 用 栈 来 保存 其 他 不 能 存放 在 寄存 器 中 的 局 部 变量 。 这 样 做 是 因为 : 

e 寄存 髓 不 够 存放 所 有 的 局 部 变量 。 

。 有些 局 部 变量 是 数组 或 结构 ， 因 此 必须 通过 数组 或 结构 引用 来 访问 。 

。 要 对 一 个 局 部 变量 使 用 地 址 操作 符 “&&” 因此 我 们 必须 能 够 为 它 产 生 一 个 地 址 。 
最 后 ，Q 会 用 栈 帧 来 存放 它 调 用 其 他 过 程 的 参数 。 

正如 前 面 讲 过 的 那样 ， 栈 向 低地 址 方向 增长 ， 而 栈 指针 %esp 指向 栈 顶 元 素 。 可 以 通过 pushl 和 
pop! 指令 将 数据 存 入 栈 中 和 从 栈 中 取出 。 可 以 通过 将 栈 指针 的 值 减 小 适当 的 值 来 分 配 没 有 指定 初始 
值 的 数据 的 空间 。 类 似 地 ， 可 以 通过 增加 栈 指针 来 释放 空间 。 


3.7.2 ”转移 控制 
下 表 给 出 的 是 支持 过 程 调用 和 返回 的 指令 : 


Label 过 程 调用 


*Operand | 过 程 调用 
A B BIHE A tE 
从 过 程 调用 中 返回 


call 指令 有 一 个 目标 ， 指 明 被 调用 过 程 起 始 的 指令 地 址 。 同 跳 转 一 样 ， 调 用 可 以 是 直接 的 ， 也 
可 以 是 间接 的 。 在 汇编 代码 中 ,直接 调用 的 目标 是 一 个 标号 , 而 间接 调用 的 目标 是 * 后 面 跟 一 个 操作 
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数 指示 符 ， 其 语法 与 movl 指令 的 操作 数 的 语法 相同 (图 3.3). 


地 址 增 大 

mite FT 

goebp 

锌 保存 的 寄存 器 、 
本 地 变量 和 
临时 变量 当前 帧 

栈 指针 

hesp 


图 3.17 RMA 
栈 用 来 传递 参数 、 存 储 返 回信 息 、 保 存 寄存 器 ， 以 及 用 于 本 地 存储 。 


call 指令 的 效果 是 将 返回 地 址 入 栈 ， 并 跳 转 到 被 调用 过 程 的 起 始 处 。 返 回 地 址 是 紧 跟 在 程序 中 
call 后 面 的 那 条 指令 的 地 址 ,这样 当 被 调用 过 程 返回 时 ,执行 会 从 此 继续 。ret 指令 从 栈 中 弹出 地 址 ， 
并 跳 转 到 那个 位 置 。 要 正确 使 用 这 条 指令 ， 就 要 使 栈 准备 好 ， 栈 指针 要 指 同 前 面 call 指令 行 储 返 加 
地 址 的 位 置 。leave 指令 可 以 用 来 使 栈 做 好 返回 的 准备 。 它 等 价 于 下 面 的 代码 序列 ; 


1 movi %tebp, %esp 


Set stack pointer to beginning of frame 
2 popl %ebp 


Restore saved %ebp and set stack ptr 
to end of caller's frame 
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另外 ， 这 种 准备 工作 也 可 以 通过 直接 使 用 传送 和 弹出 操作 来 完成 
寄存 器 %eax AT PAAR. WR ee ee a EE eek et ATA o 


练习 题 3.14 

下 面 的 代码 片断 常常 出 现在 库 函 数 的 编译 版 本 中 : 
1 call next 

2 next: 

3 popl t#eax 

A. #43 %eax 设置 成 了 什么 值 ? 

B. 解释 为 什么 这 个 调用 没有 匹配 的 ret 指令 ， 

C. 这 段 代码 完成 了 什么 功能 ? 


3.7.3 寄存 器 使 用 惯例 

程序 寄存 器 组 是 惟一 一 个 被 所 有 过 程 共 享 的 资源 。 虽 然 在 给 定时 刻 只 能 有 一 个 过 程 是 活动 的 ， 
我 们 必须 保证 当 一 个 过 程 (调用 者 ) 调用 另 一 个 〈 被 调用 者 ) 时 ， 被 调用 者 不 会 覆盖 某 个 调用 者 稍 
后 会 使 用 的 寄存 器 的 值 。 为 此 ，IA32 采用 了 一 组 统一 的 寄存 器 使 用 惯例 ， 所 有 的 过 程 都 必须 遵守 ， 
包括 程序 库 中 的 过 程 。 

根据 惯例 ， 寄 存 器 %eax、%edx 和 %ecx 被 划分 为 调用 者 保存 (caller save) 444. “WF P 
调用 Q 时 ，Q 可 以 用 六 这 些 寄存 器 ， 而 不 会 破坏 任何 P 所 需要 的 数据 。 另 外 ， 寄 存 器 ‰ebx、%esi 
Fl %edi 被 划分 为 被 调用 者 保存 (callee save) 寄存 器 。 这 意味 着 Q 必须 在 柳 盖 它们 之 前 ， 将 这 些 寄 
存 器 的 值 保存 到 栈 中 ， 并 在 返回 前 恢复 它们 ， 因 为 P (或 某 个 更 高 层次 的 过 程 》 可 能 会 在 今后 的 计 
算 中 需要 这 些 值 。 此 外 ， 根 据 这 里 描述 的 惯例 ， 必 须 保持 寄存 器 Webp 和 %esp。 


劳 注 ， 为 什么 叫做 “被 调用 者 保存 ”和 “调用 者 保存 ”? 
考虑 下 面 这 个 场景 : 
int P() 
{ 
int x = £();  /* Some computation */ 
Q); 


return Xx; 
} 


过 程 了 希望 它 计算 出 来 的 的 值 在 调用 了 Q 之 后 仍然 有 效 . 如 时 放 在 一 个 调用 者 保存 寄存 器 
中 ,而 P (调用 者 ) 必须 在 调用 Q@ 之 前 保存 这 个 值 ， 并 在 Q@ 返回 后 恢复 该 值 。 如 果 xX. 在 一 个 被 调用 
者 保存 寄存 器 中 ，Q (被 调用 者 ) 想 使 用 这 个 寄存 器 ， 那 么 Q 在 使 用 这 个 寄存 器 之 前 ， 必 须 保存 这 


个 值 ， 并 在 返回 前 恢复 它 。 在 这 两 种 情况 中 ， 保 存 就 是 将 寄存 器 值 压 入 栈 中 ， 而 恢复 是 指 从 栈 中 弹 
出 到 寄存 器 中 。 o 


作为 一 个 示例 ， 考 虑 下 面 这 段 代 码 : 


1 int P(int x) 
2 { 


3 int y = x*x; 
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4 int z = Q(y); 
5 

6 return y + 2; 
7} 


过 程 P 在 调用 Q 之 前 计算 y， 但 是 它 必 须 保 证 y 的 值 在 Q 返回 后 是 可 用 的 。 有 两 种 方式 可 以 做 
到 这 一 点 : 

。 它 可 以 在 调用 QQ 之 前 ， 将 y 的 值 存 放 在 自己 的 栈 帧 中 ， 当 Q 返回 时 ， 它 可 以 从 栈 中 取出 y 
的 值 。 

e 它 可 以 将 y 的 值 保存 在 被 调用 者 保存 寄存 器 中 。 如 果 Q， 或 任何 其 他 Q 调用 的 程序 ， 想 使 
用 这 个 寄存 器 ， 它 必须 将 这 个 寄存 器 的 值 保 存在 栈 帧 中 ， 并 在 返回 前 恢复 该 值 。 因 此 ， 当 
Q 返回 到 P 时 , y 的 值 会 在 被 调用 者 保存 寄存 器 中 , 或 者 是 因为 衫 存 器 根本 就 没有 改变 , 或 
者 是 因为 它 被 保存 并 恢复 了 。 

最 常见 的 是 ，GCC 使 用 后 一 种 方法 ， 因 为 它 会 尽量 减少 写 和 读 栈 的 次 数 。 


练习 题 3.15 

下 面 这 段 代码 出 现在 GCC 为 一 个 CC 过 程 产 生 的 汇编 代码 的 前 部 : 
pushi %edi 

pushi %esi 

pushi %ebx 

movi 24(%ebp) , eax 
imull 16(%ebp) , teax 
movil 24(%ebp) , %ebx 
leal 0(,%eax,4),%ecx 
addi 8(%ebp), %ecx 
movi %tebx, Sedx 


我 们 看 到 ， 只 将 三 个 寄存 器 (Medi. pesi 和 %ebx ) 保存 到 了 栈 中 。 然 后 程序 会 修改 它们 ， 以 
及 另外 三 个 寄存 器 ( Geax. pecx 和 %edx )。 过程 结尾 ， 用 pop 指令 恢复 寄存 器 9%edi、%esi 和 %ebx， 
而 其 他 三 个 寄存 器 就 保持 修改 过 的 状态 。 

请 解释 这 种 在 保存 和 恢复 寄存 器 状态 中 明显 的 矛盾 。 


3.7.4 过程 示例 
作为 一 个 示例 , 考虑 图 3.18 中 定义 的 C 过 程 。 图 3.19 给 出 了 这 两 个 过 程 的 栈 帧 .注意 ,swap_add 


从 caller 的 栈 帧 中 取出 它 的 参数 。 这 些 参数 的 位 置 的 访问 都 是 相对 于 寄存 器 %ebp 中 的 帧 指针 的 。 帧 
左边 的 数字 表示 相对 于 帧 指针 的 地 址 偏 移 。 


H= 


‘DO OO ~N ea um Be w WN 


code/asm/swapadd.c 
1 int swap_add(int *xp, int *yp) 
< { 
3 int X = *xp; 
4 int y = *yp; 
5 
6 *xp = y; 
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7 *yp = X; 
8 return x + y; 
9 } 
10 
11 int caller() 
12 { 
13 int argl = 534; 
14 int arg2 = 1057; 
15 int sum = swap_add(&argl, &arg2) ; 
16 int diff = argi - arg?2; 
17 
18 return sum * diff; 
19 } 
code/asm/swapadd.c 
图 3.18 过 程 定 义 和 调 用 的 示例 
在 调用 
帧 指针 swap _add 之 用 在 savap_aad 体 中 


帧 指针 tebp ———> 0 


栈 指针 tesp 一 一 人 一 4 


3.19 caler 和 swap_add 的 栈 帧 
过 程 swap_add 从 caller 的 栈 帧 中 取出 它 的 参数 


| ES ER pi 


caller 的 栈 帧 包括 局 部 变量 arg] 和 are2 的 存储 ， 其 位 置 相对 于 帧 指针 是 -8 和 -4。 这 些 变量 必须 


存在 栈 中 ， 因 为 我 们 必须 为 它们 产生 地 址 。 接 下 来 的 这 段 来 自 caller 编译 过 的 汇编 代码 显示 出 它 是 
如 何 调用 swap_add 的 。 


Calling code in caller 


1 leal -4(%ebp) , teax Compute &arg2 

2 pushl %eax Push &arg2 

3 leal -8(%ebp) , teax Compute &arg! 

4 pushl %eax Push &argi 

5 call swap_add Call the swap_add function 


注意 ， 这 段 代码 计算 的 是 局 部 变量 arg? 和 argl 的 地 址 (用 leal 指令 )， 并 将 它们 压 入 栈 中 。 然 
后 母 调用 swap_add. 


swap_add 编译 过 的 代码 有 三 个 部 分 :“ 建 立 ” 部 分 ， 初 始 化 栈 帧 :;“ 主 体 ” 部 分 ， 执 行 过程 的 实 
际 计 算 ;“ 绪 尾 ” 部 分 ， 恢 复 栈 的 状态 和 过 程 返 回 。 
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下 面 是 swap_add 的 建立 代码 。 回 窟 一 人，call 指令 已 经 将 退回 地 址 上 讨 入 栈 中 。 


Setup code in swap_add 


1 Swap add: 

2 pushl %ebp Save old %ebp 

3 movl %esp, tebp Set Yebp as frame pointer 
4 pushl %ebx Save %ebx 


过 程 swap_add 需要 用 寄存 器 %ebx 作为 临时 存储 。 因 为 这 是 一 个 被 调用 者 保存 的 寄存 器 ， 它 会 
将 旧 值 作为 栈 帧 建立 的 一 部 分 压 入 栈 中 。 


直面 是 swap_add 的 主体 代码 : 
Body code in swap_add 


5 movl 8(%ebp), Sedx Get xp 

6 movl 12(%ebp) ,%ecx Get yp 

7 movi (%edx) , %ebx Get x 

8 mov] (%ecx) ,%eax Get y 

9 movl %eax, (%edx) Store y at *xp 

10 movil %ebx, ($ecx) Store x at *yp 

11 addl %tebx, teax Set return value = x+y 


这 段 代 码 从 caller 的 栈 帧 中 取出 它 的 参数 。 因 为 帧 指针 已 经 移动 了 了， 这 些 参数 的 位 置 已 经 从 要 


对 于 %ebp 的 旧 值 的 位 置 -12 和 -6 移 到 了 相对 于 %ebp 的 新 值 的 位 置 +12 和 +8。 注 意 ， 变 量 x 和 y 的 
和 是 存放 在 寄存 器 %eax 中 作为 返回 值 传递 的 。 
下 面 是 swap_add 的 结尾 代码 : 


Finishing code in swap_add 


12 popl %ebx Restore %ebx 
13 movl %ebp, esp Restore %esp 
14 popl %ebp Restore %ebp 
15 ret 


Return to caller 


这 段 代 码 就 是 恢复 三 个 寄存 器 %ebx、%esp 和 %ebp 的 值 ， 然 后 执行 ret 指令 。 注 意 ， 可 以 用 一 
条 leave 指令 代替 指令 13 和 14。 不 同 版 本 的 GCC 对 此 可 能 会 有 不 同 的 习惯 。 
直面 的 caller 中 的 代码 紧 跟 在 调用 swap_add 的 指令 后 面 : 


6 movl %eax, Sedx Resume here 


从 swap_add 返回 时 ， 过 程 caller 会 从 这 条 指令 开始 继续 执行 。 注 意 ， 这 条 指令 将 返回 值 从 %eax 
拷贝 到 另 一 个 寄存 器 。 


练习 题 3.16 

给 定 一 个 C BK 

1 int proc(void) 

2 { 

3 int x,y; 

4 scanf("%x x", &y, &x); 
5 return x-y; 

6 
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GCC 产生 下 面 这 样 的 汇编 代码 : 
proc: 
pushl %ebp 
movl %tesp, tebp 
subl $24,%esp 
addi $-4,%esp 
leal -4(%ebp) , teax 
pushl teax 
leal -8(%ebp) , eax 
pushl %eax 
0 pushl S$.LC0 Pointer to string "%x fox” 
1 call scant 
Diagram stack frame at this point 
12 movl -8(%ebp) , %eax 
13 movil -4(%ebp) , tedx 
14 subl %teax, edx 
15 movl %edx, eax 
16 movl %ebp, esp 
17 popl %ebp 
18 ret 


假设 过 程 proc 开始 执行 时 ， 寄 存 器 的 值 如 下 : 


tebp 0x800040 

假设 proc 调用 scanf( 第 11 47), 而 scanf 从 标准 输入 读 入 值 0x46 和 0x53. 假设 字符 束 “%x Mx” 
存放 在 存储 器 位 置 0x300070. 

A. 第 3 行 上 ，%ebp 的 值 被 设置 成 了 多 少 ? 

B. ARLE x 和 yy 的 存放 地 址 是 什么 ? 

C. 第 10 行 后 %esp 的 值 是 多 少 ? 

D. 画 出 就 在 scanf 返 回 后 proc 的 栈 帧 的 图 .请 包括 尽 可 能 多 的 关于 栈 帧 元 素 的 地 址 和 内 容 的 信息 。 

E. 指出 proc 未 使 用 的 栈 帧 区 域 〔( 分 配 这 些 浪 曲 了 的 区 域 是 为 了 改进 高 速 缓存 的 性 能 ) 


3.7.5 V4 

上 一 节 中 描述 的 栈 和 链接 惯例 使 得 过 程 能 够 递归 地 调用 它们 自身 。 因 为 每 个 调用 在 栈 中 都 有 它 
目 己 的 私有 空间 ， 多 个 未 完成 调用 的 局 部 变量 不 会 相互 影响 。 此 外 ， 栈 的 原则 很 自然 地 就 提供 了 适 
当 的 策略 ， 当 过 程 被 调用 时 分 配 局 部 存储 (storage)， 当 返回 时 释放 存储 。 

图 3.20 给 出 了 递归 的 Fibonacci 函数 的 CRE. GER, BRR RSI RE 
为 一 个 说 明示 例 ， 这 不 是 一 个 很 聪明 的 算法 .) 完整 的 汇编 代码 如 图 3.21 所 示 。 


ere O Or Tm ue w N e 


code/asmffib.c 
1 int fib rec(int n) 
2 


3 int prev_val, val; 
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ae G O ~ HAH UO be 


m Cn 心 a bo 


21 


23 


if (n <= 2) 

return 1; 
prev_val = filb rec(n-2): 
val = fib_rec(n-1); 


return prev_val + val; 


3.20 递归 的 Fibonacci 程序 的 C 代码 


fib rec: 
Setup code 
puski %ebp 
movi %esp,tebp 
subl $16, %esp 
pushl %esi 
pushl %ebx 


Body code 

movi 8 (%ebp) , tebx 
cmpl $2, %ebx 

Jle .L24 

addl $-12,%esp 
leal -2(%ebx) , teax 
pushl %eax 

call fib rec 

movl %eax, tesi 
addl $-12,%esp 
leal -1(%ebx) , %eax 
pushl %*eax 

call fib rec 

addi %esi,%eax 

Imp .L25 


Terminal condition 
.L24: 
mov. $1, %eax 
Finishing code 
~L25: 
leal 
pop l 
popl 
movi 
popi 
ret 


-24 ($ebp), gesp 
ebx 

Tesi 

sebp, $esp 

$ebp 


3.21 


Save old %ebp 

Set %ebp as frame pointer 
Allocate 16 bytes on stack 
Save Pesi (offset -20) 
Save Yebx (offset -24) 


Get n 

Compare n:2 

if <=, goto terminate 
Allocate 12 bytes on stack 
Compute n-2 

Push as argument 

Call fib_rec(n-2) 

Store result in %esi 
Allocate 12 bytes on stack 
Compute n-1 

Push as argument 

Call fib_rec(n-1) 
Compute val+nval 

Goto done 


terminate: 


Return value l 


done: 


Set stack to offset -24 
Restore Yebx 
Restore %esi 
Restore stack pointer 
Restore Yebp 
Return 


3.20 中 递归 的 Fibonacci 程序 的 汇编 代码 
里 然 代 码 有 点 长 ,但 还 是 值得 仔细 研究 一 下 的 。 建 立 代 码 (第 2~6 IT) 创建 一 个 栈 帧 ， 其 中 包 


code/asm/fib.c 
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含 %ebp 的 旧 值 、 未 使 用 的 16 个 字 节 “、 保 存 的 被 调用 者 保存 寄存 器 %esi 和 %ebx 的 值 ， 如 图 3.22 
左边 所 示 。 然 后 ， 它 用 寄存 器 %ebx 来 保存 过 程 参数 n (第 7 行 )。 一旦 满足 中 止 条 件 ， 代 码 会 跳 转 
到 第 22 行 ， 在 此 将 返回 值 设 为 1。 


在 第 一 次 
在 创建 后 递归 调用 前 


调用 过 程 
的 栈 帧 


fib rec 


Be) Be 


3.22 递归 的 Fibonacci 函数 的 栈 帧 
左边 是 初始 建立 之 后 的 帧 状态 : 右边 是 第 一 次 递归 调用 之 前 的 帧 状态 。 


对 于 不 满足 中 止 条 件 的 情况 ,指令 10 一 12 会 进行 第 一 次 递归 调用 。 这 包括 在 栈 中 分 配 不 会 被 使 
用 的 12 个 字 节 ， 然 后 将 计算 出 来 的 值 n2 压 入 栈 中 。 此 时 ， 栈 帧 如 图 3.22 右边 所 示 。 然 后 ， 它 会 
进行 递归 调用 ， 引 起 一 连 串 的 调用 、 分 配 栈 帧 、 对 局 部 存储 进行 操作 ， 等 等 。 每 次 调用 返回 时 ， 它 
都 会 释放 栈 空间 ， 恢 复 所 有 被 修改 过 的 被 调用 者 保存 寄存 器 。 因 此 ， 当 我 们 返回 到 当前 调用 时 第 
14 行 )， 我 们 可 以 假设 寄存 器 %eax 包含 着 递归 调用 返回 的 值 ， 而 寄存 器 %ebx 包含 函数 参数 n 的 值 。 
BEE CC 代码 中 的 局 部 变量 prev_val) 存放 在 寄存 器 %esi 中 (第 14 行 )。 通 过 使 用 被 调用 者 保存 
寄存 器 ， 我 们 能 保证 在 第 二 次 递归 调用 后 这 个 值 仍 然 是 可 用 的 。 

指令 15S~ 17 进行 第 二 次 递归 调用 。 它 会 再 次 分 配 不 会 被 使 用 的 12 个 字 节 ， 并 将 值 n-1 EAR 
中 。 在 这 个 调用 之 后 (第 18 行 )， 计 算出 来 的 结果 会 放 在 寄存 器 %eax 中 ， 而 我 们 假设 前 一 次 调用 的 
结果 放 在 寄存 器 %esi 中 。 两 者 相 加 得 到 返回 值 (第 19 行 )。 

完成 代码 恢复 寄存 器 和 释放 栈 帧 。 它 首先 将 栈 帧 设置 为 保存 的 %ebx 值 的 位 置 。 注 意 ， 通 过 计 
算 相 对 于 %ebp 值 的 栈 的 位 置 ， 无 论 是 否 满足 中 止 条 件 ， 计 算 都 会 是 正确 的 。 


2 不 清楚 为 什么 C 编译 器 会 为 这 个 函数 在 栈 中 分 配 这 人 么 多 的 未 使 用 存储 (storage). 
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3.8 数组 分 配 和 访问 


C 中 数组 是 一 种 将 标量 型 数据 绢 集成 更 大 数据 藉 型 的 方式 。C 用 来 实现 数组 的 方式 非常 简单 ， 
因此 很 容易 翻译 成 机 器 代码 。C 的 一 个 不 同 寻 常 的 特点 是 可 以 对 数组 中 的 元 素 产 生 指 针 ， 并 对 这 些 
指针 进行 运算 。 这 些 运算 会 在 汇编 代码 中 翻 详 成 地 址 计算 。 

优化 编译 器 非常 善于 简化 数组 索引 所 使 用 的 地 址 计算 ,不 过 这 使 得 C RIGA BALES US 
详 之 间 的 对 应 关系 很 难 理解 。 


3.8.1 基本 原则 

对 于 数据 类 型 和 整 常数 N， 声 明 

T ALN]; 
有 了 两 个 效果 。 首 先 ， 它 在 存储 器 中 分 配 了 LL .NN 字 节 的 连续 区 域 ， 这 里 工 是 数据 类 型 TT 的 大 小 ( 单 
WAZ). RIA ana 来 表示 起 始 位 置 。 其 次 ， 它 引入 了 标识 符 A, A 可 以 用 来 作为 指 由 数组 开头 
的 指针 。 这 个 指针 的 值 就 是 x, FAM O~N-1 之 间 的 整数 索引 来 访问 数组 元 素 。 数 组 元 素 i 的 
存放 地 址 为 x,+ 上 .i。 

作为 示例 ， 让 我 们 来 看 看 下 面 这 样 的 声明 : 

char A[12]; 

char *B[B}; 

double Clo]; 

double *D[5]; 


这 些 声 明 会 产生 带 下列 参 数 的 数组 : 


数组 元 素 大 小 总 大 小 起 始 地 址 TA i 


数组 A 由 12 个 单字 节 (char) 元 素 组 成 。 数 组 C 由 6 个 双 精 度 浮 点 值 组 成 ， 每 个 值 需要 8 个 
Fi. BAID 都 是 指针 数组 ， 因 此 每 个 数组 元 素 都 是 4 个 字 节 。 

IA32 的 存储 器 引用 指令 被 设计 用 来 简化 数组 访问 。 例 如 ,假设 E 是 一 个 整数 数组 ， 而 我 们 想 计 
算 Eli]， 在 此 ，E 的 地 址 存放 在 寄存 器 %edx 中 ， 而 i 存放 在 寄存 器 W%ecx 中 。 然 后 ， 指 令 

movl (%*edx,%tecx,4),%eax 
会 执行 地 址 计算 xs + 4i， 在 该 存储 器 位 置 执行 读 操 作 ， 并 将 结果 存放 在 寄存 器 %eax 中 。 提 示 : 伸缩 
因子 1、2、4 和 8 适用 于 基本 数据 类 型 的 大 小 。 


练习 题 3.17 
考虑 下 面 的 声明 ， 

short S[7}; 
short *T [3]; 
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short **U[6]; 
long double V[8]; 
long double *W[4]; 


填写 下 表 ， 描 述 每 个 数组 的 元 素 大 小 、 整 个 数组 的 大 小 以 及 元 素 i 的 地 址 : 


3.8.2 ”指针 运算 

C 允许 对 指针 进行 运算 ， 而 计算 出 来 的 值 会 根据 该 指针 引用 的 数据 类 型 的 大 小 进行 调整 。 也 束 
是 说 ， 如 朵 p 是 一 个 指向 类 型 的 数据 的 指针 ，p 的 值 为 x。， 表 达 式 pi 的 值 为 x,。 + 上. i KEL 
是 数据 类 型 了 的 大 小 。 

单 操作 数 的 操作 符 人 让 和 * 可 以 产生 指针 和 间接 引用 指针 。 也 就 是 ， 对 于 一 个 表示 某 个 对 象 的 表达 
式 Expr, &Expr 表示 一 个 地 址 。 对 于 表示 一 个 地 址 的 表达 式 Addr-Expr，*Addr-Expr 表示 该 地 址 中 
的 值 。 因 此 ， 表 达 式 Expr 与 *&Expr 是 等 价 的 。 可 以 对 数组 和 指针 应 用 数组 下 标 操作 ， 如 数组 引用 
A 四 与 表达 式 *(A+i) 是 一 样 的 。 它 计算 第 i 个 数组 元 素 的 地 址 ， 然 后 访问 这 个 存储 器 位 置 。 

扩充 一 下 我 们 前 面 的 例子 ， 假 设 整数 数组 E 的 起 始 地 址 和 整数 索引 i 分 别 存 放 在 寄存 器 %edx 
和 %ecx 中 。 下 面 是 一 些 与 E 有 关 的 表达 式 。 我 们 还 给 出 了 每 个 表达 式 的 汇编 代码 实现 ， 结 果 存 放 
在 寄存 器 ‰eax 中 。 


E movl *edx, %eax 

E[Q] Mi[Ixe] | movi (%edx), *eax 

E [i] j M[xe+4i] | movl (%edx, %ecx, 4), *eax 
&E[2] ; xet8 | leal 8(%edx), %eax 

E+i-1 j XE+4i-4 | leal -4(%edx, %ecx, 4), %eax 
*(E[i]+i} j M[xet4i+4i] 1 movl (%edx, %ecx), %eax 


&E(i]-E j i | movl %ecx, %teax 


在 这 些 例子 中 ，leal 指令 用 来 产生 地 址 ， 而 movl 用 来 引用 存储 器 (除了 在 第 一 种 情况 中 ， 那 里 
它 是 拷贝 一 个 地 址 )。 最 后 一 个 例子 表明 我 们 可 以 计算 同一 个 数据 结构 中 的 两 个 指针 之 差 , 结果 值 是 
除 以 数据 类 型 大 小 后 的 值 。 


练习 题 3.18 
假设 短 整 型 数组 S 的 地 址 和 整数 索引 i 分别 存 放 在 寄存 器 %edx 和 %ecx 中 ,对 下 面 每 个 表达 式 ， 
给 出 它 的 类 型 、 值 表达 式 和 汇编 代码 实现 。 如 果 结 果 是 指针 的 话 ， 要 保存 在 寄存 器 %eax 中 ， 如 果 是 
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短 整 数 ， 就 保存 在 寄存 器 元 素 %ax P. 


3.8.3 ”数组 与 循环 

在 往 环 代码 内 ， 对 数组 的 引用 通常 有 非常 规则 的 模式 ， 优 化 编译 器 会 使 用 这 些 模式 。 例 如 ， 
图 3.23 Ca) PATR RI A% decimal5， 计 算 的 是 一 个 由 $5 个 十 进 制 数 字 的 数组 表示 的 整数 。 在 把 这 
个 黄 数 转换 成 汇编 代码 的 过 程 中 , 编译 器 产生 的 代码 类 似 于 图 3.23(b)( 中 的 C A% decimal5_opt. 
首先 ， 它 不 会 使 用 循环 变量 i， 而 是 用 指针 运算 来 依次 遍历 数组 元 素 。 它 计算 出 最 后 一 个 数组 元 素 
的 地 址 ， 并 且 把 与 这 个 地 址 的 比较 作为 循环 测试 。 最 后 ， 它 能 使 用 do-while 循环 ， 因 为 至 少 要 执 
行 一 次 循环 体 。 

图 3.23 Cc) 中 所 示 的 代码 给 出 了 一 个 进一步 的 优化 ， 以 避免 使 用 整数 乘法 指令 。 特 别 地 ， 它 使 


用 leal (第 5 行 ) 来 计算 5*val 作为 val+4*val。 然 后 ， 用 伸缩 因子 值 为 2 的 leal (第 7 行 ) 使 之 扩展 
为 10*val。 


code/asm/decimal5.c 

1 int decimal5(int *x) 
< 
3 int i; 
4 int val = Q; 
5 
6 for (1 = 0; i < 5; i++) 
7 val = {10 * val) + x[i]; 
8 
9 return val; 
10 } 

code/asm/decimalS.c 

Ca) 原始 的 C 代码 

code/asm/decimalS.c 
1 int decimal5_opt(int *x) 
< 
3 int val = 0; 
4 int *xend = x + 4; 
5 
6 do { 
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7 val = {10 * val) + *x; 
8 X++; 
9 } while (x <= xend); 
10 
11 return val; 
12 } 
code/asm/decimalS.c 
Cb) 等 价 的 指针 代码 
Body code 
1 movl 8(%ebp) , tecx Get base addr of array x 
2 xorl Seax, teax val = 0; 
3 leal 16(%ecx) , $ebx xend = x+4 (16 bytes = 4 double words) 
4 .L12: loop: 
5 leal (%eax, eax, 4), %edx Compute 5*val 
6 movl (%ecx),%eax Compute *x 
7 leal (%eax, tedx, 2), teax Compute *x + 2*(5*yal) 
8 addl $4,%ecx X++ 
9 cmpl %ebx, tecx Compare x:xend 
10 jbe .L12 if <=, goto loop 


Co) AB BIC RAIS 
3.23 ”数组 循环 示例 的 C 和 汇编 代码 


编译 器 产生 的 代码 类 似 于 decimal5_opt 中 所 示 的 指针 代码 。 


旁 注 ， 为 什么 要 避免 使 用 整数 酌 法 ? 
在 较 老 的 1A32 处 理 器 模 至 中 ， 整 数 到 法 指令 要 花费 30 个 时 钟 周期 ， 所 以 编译 器 要 尽 可 能 地 避 
免 使 用 它 。 而 在 大 多 数 新 近 的 处 理 器 模型 中 ， 乘 法 指令 只 需要 3 个 时 钟 周期 ， 所 以 不 一 定 会 进行 这 


样 的 优化 了 ， 


3.8.4 WEAH 
即使 是 创建 数组 的 数组 时 ， 数 组 分 配 和 引用 的 通用 原则 也 是 有 效 的 。 例 如 ， 声 明 
int A[4] [3]; 


等 价 于 声明 


typedef int row3_t[3]; 
row3_t A[4]; 


数据 类 型 row3_t 被 定义 成 一 个 三 个 整数 的 数组 。 数 组 A 包含 有 四 个 这 样 的 元 素 ， 每 个 都 需要 
12 个 字 市 来 存放 三 个 整数 。 所 以 ， 总 的 数组 大 小 为 4.4.3=48 字 节 。 

数组 A 还 可 以 看 成 是 一 个 4 行 3 列 的 二 维 数 组 ， 从 A[0][0] 到 A[3][2]。 数 组 元 素 在 存储 器 中 是 
按照 “ 行 优先 ”的 顺序 排列 的 ， 这 就 意味 着 先是 行 0 的 所 有 元 素 ， 后 面 是 行 1 的 所 有 元 素 ， 依 此 类 


推 。 
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XA 


元 素 地 址 
[0] 


| 


A[3] [i] 


ROP HERP ATE ERIE BHR. HA 看 成 一 个 四 元 素数 组 ， 每 个 元 素 又 是 一 个 三 个 int 
的 数组 ， 我 们 先 有 AO 〈 也 就 是 行 0)， 后 面 是 A[1]， 依 此 类 推 。 

要 访问 多 维 数 组 中 的 元 素 ， 编 译 器 产生 的 代码 要 计算 竺 访问 元 素 的 偏 黎 ， 然 后 再 用 movi 指令 ， 
以 数组 的 起 始 作 为 基地 址 ， 偶 移 〈 可 能 需要 乘 以 伸缩 因子 ) 作为 索引 。 通 常 ， 对 一 个 声明 如 下 的 数 
组 : 

T DIR] [C]; 


数组 元 素 D[i]f] 是 位 于 存储 器 地 址 z + LUC :i+ 门 的 ,这 里 工 是 用 字 节 表示 的 数据 类 型 了 的 大 小 。 
看 看 下 面 这 个 例子 ， 考 虑 前 面 定 义 的 4 x 3 的 整数 数组 。 假 设 寄存 器 Weax 包含 xa peds 保存 
看 i， 而 %ecx 保存 看 j。 然 后 ， 下 面 的 代码 将 拷贝 数组 元 素 AIifj] 到 寄存 器 %eax: 


A in %eax, i in %edkx, j in Wecx 


Xa+4 

Xa+8 

Xat12 
xa+16 
xx+20 
%,~24 
Xa +28 
Xat3e 
Xa+36 
Xa+40 
Xa+44 


1 sall $2, %ecx J*4 

2 leal (edx, $edx, 2), %edx 1 * 3 

3 leal (%ecx, tedx, 4) , tedx j*4+i*]2 

4 movl] (%eax, $edx), eax Read Mixa + 4(3 :i+ 站 
练习 题 3.19 

考虑 下 面 的 源 代 码 ， 此 处 ，M 和 NN 是 用 #define 声明 的 常数 : 
#define: 


1 int mat1l[(M] [N]; 
int mat2[N fM]: 


int sum_element (int i, int j) 
{ 
return mati[i](j] + mat2[j][i]; 


编译 这 个 程序 时 ，GCC 会 产生 下 面 这 样 的 汇编 代码 : 


2 

3 

4 

5 

6 

7 } 
在 

1 movl 8(%ebp), tecx 
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movl 12(%ebp), teax 

leal O(, %eax,4), Sebx 

leal 0({,%ecx,8),%edx 

subl tecx, tedx 

addl tebx, eax 

sall $2,%teax 

movl mat2 (Seax, Secx,4), eax 
addl matl(%tebx,tedx, 4), eax 


运用 你 的 北向 工程 技能 ， 根 据 这 段 汇编 代码 来 确定 M FN 的 值 。 


3.8.5 固定 大 小 的 数组 
对 国定 大 小 的 多 维 数 组 进行 操作 的 代码 ，C 编译 器 能 够 进行 多 种 优化 。 例 如 ， 假 设 我 们 将 数据 
类 型 fx_matrix 声明 为 16 x 16 的 整数 数组 : 


1 #define N 16 

2 typedef int fix_matrix[N] [N]; 

图 3.24 (a) 中 的 代码 计算 矩阵 A 和 B 的 乘积 的 元 素 i、k。C 编译 器 产生 的 代码 类 似 于 图 3.24 
Cb) 中 所 示 的 那样 ， 这 段 代 码 包 含 很 多 聪明 的 优化 。 编 译 器 认 出 循环 会 依次 访问 数组 A 的 元 素 
Afil[0l]，Afil[1]，…，AD[1S$]。 这 些 元 素 占 据 的 是 存储 器 中 从 数组 元 素 A 利 [0] 的 地 址 开始 的 相 邻 的 
位 置 。 因 此 ， 程 序 可 以 用 指针 变量 Apr 来 访问 这 些 连 续 的 位 置 。 循 环 会 依次 访问 数组 B 的 元 素 
B[O][kl]，B[1][kl]，…，B[1$][kj。 这 些 元 素 占据 的 是 存储 器 中 从 数组 元 素 B[0][k] 的 地 址 开始 的 位 置 ， 
分 别 相距 64 个 字 节 。 因 上 此， 程序 可 以 用 指针 变量 Bptr 来 访问 这 些 连续 的 位 置 。 在 C 中 ， 这 个 指针 
会 增加 16， 尽 管 实际 上 真实 的 指针 会 增加 4. 16 = 64。 最 后 ， 代 码 可 以 用 一 个 简单 的 计数 器 来 记录 
涯 要 循环 的 次 数 。 


wo O J- aoa Be w N 


code/asm/array.c 
1 #define N 16 
2 typedef int fix_matrix[N][N]; 
3 
4 /* Compute 1,k of fixed matrix product */ 
5 int fix prod ele {fix matrix A, fix matrix B, int i, int k) 
6 { 
7 int J; 
8 int result = Q0; 
9 
10 for (J = 0; j < N; j++) 
11 result += A[i][j] * B[il] [kl]: 
12 
13 return result; 
14 } 
code/asm/array.c 
(a) RRR C 代码 
code/asm/array.c 
1 /* Compute i,k of fixed matrix product */ 


2 int fix_prod_ele_opt(fix_matrix A, fix_matrix B, int i, int k) 
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3 i 

4 int *Aptr = &A[i][0]; 
5 int *Botr = &BlQ][k]; 
6 int cnt = N - 1; 

7 int result = 0; 

8 

9 do { 

10 result += (*Aptr) * (*Bptr); 
11 Aptr += l; 

12 Botr += N; 

13 cnt--; 

14 } while (cnt >= 0); 

15 

16 return result; 

17 } 


code/asm/array.c 
(b) 优化 过 的 C 代码 


图 3.24 原始 的 和 优化 过 的 代码 ， 该 代码 计算 固定 长 度数 组 的 矩阵 乘积 的 元 素 i、 
编译 器 会 目 动 完成 这 些 优化 。 
我 们 给 出 了 fix_prod_ele_opt 的 C 代码 ， 来 说 明 C 编译 器 在 产生 汇编 时 所 使 用 的 优化 。 下 面 是 
这 个 循环 的 实际 的 汇编 代码 ; 


Aptr is in %edx, Bptr in %ecx, result in %esi, cnt in Yebx 


1 .L23: loop: 

2 movl (%edx) , teax Compute t = *Aptr 

3 imull (%ecx) , eax Compute v = *Bptr * t 
4 addl %eax,%esi Add v result 

5 addl $64, %ecx Add 64 to Bptr 

6 addl $4, %edx Add 4 to Aptr 

7 decl %ebx Decrement cnt 

8 jns .L23 if >=, if >=, goto loop 
注意 ， 在 上 面 的 汇编 代码 中 ， 所 有 的 指针 增加 量 均 乘 以 伸缩 因子 值 4。 
练习 题 3.20 


下 面 的 C 代码 将 一 个 国定 大 小 的 数组 的 对 角 线 元 素 设 置 为 val: 


A[i] [i] = val; 


1 /* Set all diagonal elements to val */ 

2 void fix_set_diag(fix_matrix A, int val) 
3 { 

4 int i; 

5 for (1 = 0; i < N; i++) 

6 

7 
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当 编 译 时 ，GCC 产生 如 下 汇编 代码 : 


movl 12(%ebp) ,各 eqQX 
movl 8{%ebp), teax 
movl $15, %ecx 
addl $1020, %eax 
._p2align 4,,7 Added to optimize cache performance 
„L59: 
movl %edx, (%eax) 
addl $-68, %eax 
decl %ecx 
0 jns .L50 


创建 一 个 C 代码 程序 ， 它 使 用 类 似 于 这 段 汇 编 代 码 中 所 使 用 的 优化 ， 风 格 与 图 3.24 (b) 中 的 
代码 一 致 。 
3.8.6 ”动态 分 配 的 数组 

C 只 文 持 大 小 在 编 详 时 就 能 知道 的 多 维 数组 (对 于 第 一 维 可 能 有 些 例 外 )。 在 许多 应 用 程序 中 ， 
我 们 需要 代 取 能 够 对 动态 分 配 的 任意 大 小 的 数组 进行 操作 。 为 此 ， 我 们 必须 显 式 地 写 出 从 多 维 数组 
到 一 维 数组 的 瑞 射 。 我 们 可 以 将 数据 类 型 var_matrix 简单 地 定义 为 int *: 

typedef int *var_matrix; 


我 们 用 Unix AY FE pe RL calloc 来 为 一 个 nxn 的 整数 数组 分 配 和 初始 化 存储 : 


e o © Juy ooN e w NH FF 


1 var_matrix new_var_matrix{int n) 
2 { 
3 return {var_matrix) calloc(sizeof{tint), n * n); 
4 } 

calloc PREY CANSIC 文 悄 的 一 部 分 [32，40]) 有 两 个 参数 ， 每 个 数组 元 素 的 大 小 和 所 需 数组 元 
素 的 数目 。 它 试 着 为 整个 数组 分 配 空间 。 如 果 成 功 ， 它 会 将 整个 存储 器 区 域 初始 化 为 0， 并 返回 指 
同 第 一 个 字 节 的 指针 。 如 果 没 有 足够 的 可 用 空间 ， 它 就 返回 空 (null)。 


给 C 语言 初学 者 ，C、C++ 和 Java 中 的 动态 存储 器 分 配 和 释放 

在 C 中,， 堆 (一 个 可 以 用 来 存放 数据 结构 的 存储 器 池 ) 中 的 存储 分 配 是 用 的 库 函 数 malloc 或 
calloc。 它 们 的 效果 类 似 于 C++ 和 Java 中 的 new RHE. C 和 C++ 都 要 求 程序 显 式 地 用 free HARA 
放 已 分 配 的 空间 。 在 Java 中 ， 释 放 是 由 运行 时 系统 通过 一 个 称 为 garbage collection ( 垃圾 回收 ) 的 
进程 自动 完成 的 ， 第 10 章 中 会 讨论 这 个 话题 。 

然后 ， 我 们 用 行 优先 顺序 的 数组 下 标 计算 方法 确定 矩阵 元 素 坟 PMA i ny: 
1 int var_ele(var_matrix A, int i, int j, int n) 
2 { 
3 return A[(i*n) + j]; 
4 } 
BA TE IL Sa CES EE R: 
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1 movl 8(%ebp) ,geqQx Get A 

2 movi 12(%ebp),%teax Get i 

3 imull 20(%ebp),%eax Compute n*i 

4 addi 16(%ebdp) , teax Compute n*i + j 
5 movl (%edx,teax,4), teax Get A[i*n + j] 


将 这 段 代 码 与 用 来 计算 固定 大 小 数组 的 下 标的 代码 相 比 ， 我 们 看 到 动态 版 本 更 加 复杂 。 它 必 纲 
用 一 条 乘法 指令 来 将 i 增 大 nm 倍 ， 而 不 是 用 一 组 称 位 和 加 法 指令 。 在 现代 处 理 器 中 ， 这 种 乘法 并 不 
会 带 来 严重 的 性 能 损失 。 

在 许多 情况 中 ， 编 译 器 可 以 使 用 相同 于 我 们 已 描述 的 固定 大 小 数组 的 优化 原则 ， 来 简化 大 小 吕 
变数 组 的 下 标 计算 。 例 如 ， 图 3.25 (a) 给 出 的 C RES, WHAT A) eee A 和 B 的 乘积 
的 元 素 i、k。 在 图 3.25 b) 中， 我 们 给 出 了 一 个 优化 过 的 版 本 ， 它 是 根据 编译 原始 版 本 产生 的 汇编 
代码 逆向 生成 的 。 编 译 器 可 以 利用 由 循环 结构 产生 的 顺序 访问 模式 ， 消 除 整 数 乘法 i*n 和 j*n。 在 这 
种 情况 中 ， 编 译 器 不 会 产生 指针 变量 Bptr， 而 是 创建 一 个 我 们 称 为 nTjPk (KR “n HO Mk”) 
的 整数 变量 ， 因 为 相对 于 原始 代码 ， 它 的 值 等 于 n*j+k。 最 开始 时 ，nTjPk 等 于 k， 每 次 循环 时 都 增 
加 n。 


code/asm/array.c 
typedef int *var_matrix; 


/* Compute i,k of variable matrix product */ 
int var_prod_ele(var_matrix A, var_matrix B, int 1, int k, int n) 
{ 

int jJ; 

int result = 0; 


‘DO O ~ nA UW PW N Fr 


for (jJ = 0; j < n; j++) 
result += A[i*n + j] * B[j*n + k]; 


= e 
e © 


m 
BJ 


return result; 


= 
Lad 
we 


code/asm/array.c 
Ca) 原始 的 C 代码 


code/asm/array.c 
/* Compute i,k of variable matrix product */ 
int var_prod ele opt(var_matrix A, var_matrix B, int i, int k, int n) 
{ 
int *Aptr = &A[i*n]; 
int nT Pk 
int cnt = n; 


I; 


int result = 2; 


Lio mM ~) mW th Be W HN Fe 


if (n <= 0) 
return result: 


= 
a) 
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11 

12 do { 

13 result += (*Aptr) * B[nTJPk]; 
14 Aptr += 1; 

15 nTjPk += n? 

16 cnt--; 

17 } while (cnt); 

18 

19 return result; 

20 } 


code/asm/array.c 


(b) 优化 过 的 C 代码 
3.25 计算 可 变 长 数组 的 乍 阵 乘积 的 元 素 仆 的 尺 始 和 优化 过 的 代码 
编译 器 会 自动 完成 这 些 优化 。 


编译 器 为 循环 产生 代码 ， 其 中 寄存 器 %edx 保存 cnt，%ebx 保存 Aptr，%ecx 保存 nTjPk, M pesi 
保存 结果 。 这 段 代码 如 下 : 


1 . L37: loop: 

2 movl 12(%ebp), teax Get B 

3 movl ({(%ebx),%edi Get *Aptr 

4 addi $4, %ebx Increment Aptr 

5 imull (%eax, tecx,4) ,%edi Multiply by B[nTjPk] 
6 addl tedi,%esi Add to result 

7 addl 24(%ebp) ,tecx Add n to nTjPk 

8 decl %edx Decrement cnt 

9 jnz .L37 If cnt != 0, goto loop 


注意 , 每 次 循环 时 , 变量 B 和 n 都 必须 从 存储 器 中 读 出 。 这 是 一 个 寄存 器 溢出 (register spilling ) 
的 例子 。 没 有 足够 的 寄存 器 来 保存 所 有 需要 的 临时 数据 ， 因 此 编译 器 必须 将 某 些 局 部 变量 放 在 存储 
种 中 。 此 时 ， 编 译 器 会 选择 溢出 变量 B 和 n， 因 为 它们 只 用 读 一 次 一 一 在 循环 里 ， 它 们 的 值 不 变 。 
Ay FF a die tH Fe IA32 一 个 很 常见 的 问题 ， 因 为 处 理 器 的 寄存 器 数量 太 少 了 。 


3.9 弄 类 的 数据 结构 


C 提供 了 两 种 将 不 同类 型 的 对 象 结合 到 一 起 来 创建 数据 类 型 的 机 制 ， 结 构 〔stmcture )， 用 关键 
F struct 来 声明 ， 将 多 个 对 象 集合 到 一 个 单位 中 ， 联 合 union), MXF union 来 声明 ， 人 允许 用 几 
种 不 同 的 类 型 来 引用 一 个 对 象 。 


3.9.1 结构 

C 的 struct 声明 创建 一 个 数据 类 型 ， 将 可 能 不 同类 型 的 对 象 论 合 到 一 个 对 象 中 。 结 构 的 各 个 组 
成 部 分 是 用 名 字 来 引用 的 。 结 构 的 实现 类 似 于 数组 的 实现 ， 因 为 结构 的 所 有 组 成 部 分 都 存放 在 存储 
髓 中 连续 的 区 域内 ， 而 指向 结构 的 指针 就 是 结构 第 一 个 字 节 的 地 址 。 编 译 器 保存 关于 每 个 结构 类 型 
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的 信息 ， op 它 以 这 些 偏 移 作 为 存储 器 引用 指令 中 的 位 移 ， 从 而 产生 
对 结构 元 素 的 引 


给 C 语言 初学 者 ; 将 一 个 对 象 表 示 为 struct 
struct 数据 类 型 的 构造 函数 ( constructor) 是 C 提供 的 与 CtH+ 和 Java 对 象 最 为 接近 的 东西 ， 它 多 
许 程序 员 保 存 关 于 一 个 数据 结构 中 某 些 实体 的 信息 ， 并 用 名 字 来 引用 这 些 信 息 . 
例如 ， 一 个 图 形 程序 可 能 要 用 结构 来 表示 一 个 长 方形 : 


struct rect { 


int ilx; /* X coordinate of lower-left corner */ 
int lly; /* Y coordinate of lower-left corner */ 
int color; /* Coding of color */ 

int width; /* Width (in pixels) */ 

int height; /* Height (in pixels) */ 


}; 
我 们 可 以 声明 一 个 struct rect 类 型 的 变量 f， 并 将 它 的 域 值 设置 为 下 面 这 样 : 


struct rect r; 
r.ijlx = r.lly = Q; 
r.color = OxFFOOFF; 
r.width = 10; 
r.height = 20; 
这 里 表达 式 rllx 就 是 结构 r 的 ]ix 域 . 
将 指向 结构 的 指针 从 一 个 地 方 传 递 到 另 一 个 地 方 ， 而 不 是 找 贝 它们 ， 是 很 常见 的 。 例 如 ， 下 面 
的 函数 计算 长 方形 的 面积 ， 这 里 ， 传 递 给 函数 的 就 是 一 个 指向 长 方形 struct 4484: 


int area(struct rect *rp} 
{ 
return (*rp).width * (*rp). height; 

} 

MIA K(*rp).width 间接 引用 了 这 个 指针 ， 并 上 且 选取 所 得 结构 的 width 域 。 这 里 必须 要 用 括号 ， 
因为 编译 器 会 将 表达 式 *rp.width 解释 为 *(rp.width)， 而 这 是 非法 的 。 间接 引用 和 域 选取 的 联合 使 用 
非常 常见 , 以 至 于 C 提供 了 一 种 作为 替代 的 标识 符 ->, Be rp->width 等 价 于 表达 式 (+rp).width。 例如 ， 
我 们 可 以 写 一 个 函数 ， 它 将 一 个 长 方形 向 左旋 转 90 度 : 

void rotate_left(struct rect *rp) 

{ 


/* Exchange width and height */ 

int t = rp->height; 
rp->height = rp->width; 
rp->width = t; 


} 


C++ 和 Java 的 对 象 比 C 中 的 结构 要 复杂 精细 得 多 , 因为 它们 将 一 组 可 以 被 调用 以 执行 计算 的 方 


法 与 一 个 对 象 联系 起 来 。 在 C 中 ， 我 们 可 以 简单 地 把 这 些 方法 写成 首 通 画 数 ， BBE iy A TT a) ak 
area 和 rotate_left. 
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让 我 们 来 看 看 这 样 一 个 例子 ， 考 虑 下 面 这 样 的 结构 声明 ， 
struct rec { 
Int i; 
int J; 
int af3]; 
int *p; 
}; 
这 个 结构 包括 四 个 域 一 一 两 个 4 字 节 int、 一 个 由 三 4 字 节 int 组 成 的 数组 和 一 个 4 字 节 的 整数 
指针 一 一 总 共 是 24 SHG: 


偏 移 0 4 8 20 
Ae | i | | ato) al al | p | 
注意 ， 数 组 a 是 嵌入 到 这 个 结构 中 的 。 圭 图 中 顶部 的 数字 给 出 的 是 各 个 域 相对 结构 开始 处 的 字 
节 偏 移 ， 
为 了 访问 结构 的 域 , 编译 器 产生 的 代码 要 将 结构 的 地 址 加 上 适当 的 偏 移 。 例如 ,假设 struct rec * 
类 型 的 变量 r 放 在 寄存 器 %edx P. 然后 ， 下 面 的 代码 将 元 素 r->i 拷贝 到 元 素 rj: 
1 movi (%edx) ,%eax Get r->i 
2 movl %teax, 4(%edx) Store in r->j 
因为 域 i 的 坑 移 量 为 0， 所 以 这 个 域 的 地 址 就 是 r 的 值 。 为 了 存储 到 域 j， 代 码 要 将 r 的 地 址 加 上 偏 
移 量 4。 
要 产生 一 个 指向 结构 内 部 对 象 的 指针 ， 我 们 只 需 将 结构 的 地 址 加 上 该 域 的 偏 移 量 。 例 如 ， 我 们 
公用 加 上 仿 移 量 8+4.1= 12, 就 可 以 得 到 指针 &(r->a[1])。 对 于 在 寄存 器 %eax 中 的 指针 r 和 在 寄存 
an Yoedx 中 的 整数 变量 i， 我 们 可 以 用 一 条 指令 产生 指针 &(r>a[i) 的 值 : 


rin %eax, i in edx 
1 leal 8(%eax,tedx,4),%ecx %ecx= &r->afi] 


还 有 最 后 一 个 例子 ， 下 面 的 代码 实现 的 是 语句 ， 


r->p = &r->alr->1 + r->j]; 


开始 时 r 在 寄存 器 %edx 中 : 

1 movl 4(%edx), %teax Get r->j 

2 addl (%edx}),%eax Add r->i 

3 leal 8(%edx, eax, 4), teax Compute &r->[r->i+ r->j] 
4 movl %$eax, 20(%edx) Store in r->p 


正如 这 些 示 例 表 明 的 那样 ， 对 结构 的 各 个 域 的 选取 完全 是 在 编译 时 处 理 的 。 机 器 代码 不 包含 关 
于 域 声 明 或 域名 字 的 信息 。 


练习 题 3.21 
考虑 下 面 的 结构 声明 : 


Struct prob { 
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int *p; 
struct { 
int x; 
int y; 
} S; 
struct prob *next; 
}; 
这 个 声明 说 明 一 个 结构 可 以 峰 套 在 另 一 个 结构 中 ， 就 像 数 组 可 以 诺 套 在 结构 中 、 数 组 可 以 髋 大 
在 数组 中 一 样 
下 面 的 过 程 〈《 省 略 了 某 些 表达 式 ) 是 对 这 个 结构 进行 操作 的 : 


void sp_init(struct prob *sp) 


{ 
Sp->S._xX = 
Sp->p = 
sp->next = 


} 
A. 王 列 域 的 偏 移 量 是 多 少 〔【 用 字 节 表示 ) ? 


p: 
S.X: 
S. y: 
next: 
B. 这 个 结构 总 共 需 要 多 少 字 节 ? 
C. 编译 器 为 spinit 的 主体 产生 的 汇编 代码 如 下 : 
movi 8(%ebp), %eax 
movi 8(%eax), tedx 
movi tedx, 4 (teax) 
leal 4(%eax), tedx 
movi tedx, (eax) 
movl teax,12(%*eax) 


根据 这 些 信息 ， 填 写 出 sp init 代码 中 缺失 的 表达 式 。 


3.9.2 联合 

联合 提供 了 一 种 方式 ， 能 够 规避 C 的 类 型 系统 ， 人 允许 以 多 种 类 型 来 引用 一 个 对 象 。 联 合 声 明 的 
语法 与 结构 的 语法 一 样 ， 只 不 过 语义 相差 比较 大 。 它 们 不 是 用 不 同 的 域 来 引用 不 同 的 存储 器 块 ， 而 
是 引用 的 同一 存储 器 块 。 

看 看 下 面 的 声明 : 


struct 83 { 
char c; 
int 1[2]; 
double y; 
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y; 


union U3 { 
char c; 
int 1[2]; 
double v; 


b; 
域 的 偏 移 数据 类 型 S3 和 U3 的 整个 大 小 如 下 表 所 示 : 


(一 会 儿 我 们 会 看 到 为 什么 S3 中 i 的 偏 移 量 为 4， 而 不 是 1。) 对 于 类 型 union U3 * 的 指针 p, 
p->c、p->if0] 和 p->v 引用 的 都 是 数据 结构 的 起 始 位 置 。 还 要 注意 ， 一 个 联合 的 总 的 大 小 等 于 它 最 
大 域 的 大 小 。 

在 一 些 情况 中 ， 联 合十 分 有 用 。 但 是 ， 它 也 引起 了 一 些 讨厌 的 错误 ， 因 为 它们 绕 过 了 C 类 型 系 
统 提供 的 安全 措施 。 一 种 应 用 情况 是 ， 我 们 事先 知道 对 一 个 数据 结构 中 的 两 个 不 同 域 的 使 用 是 互 斥 
的 ， 那 么 将 这 两 个 域 作为 联合 的 一 部 分 ， 而 不 是 结构 的 一 部 分 ， 会 减 小 分 配 空间 的 总 量 。 

例如 ， 假 设 我 们 想 实现 一 个 二 叉 树 的 数据 结构 ， 每 个 叶子 节点 都 有 一 个 double 的 数据 值 ， 而 每 
个 内 部 节点 都 有 指 办 两 个 孩子 节点 的 指针 ， 但 是 没有 数据 。 如 果 我 们 像 这 样 声明 : 


struct NODE { 
struct NODE *left; 
struct NODE *right; 
double data; 

}; 


那么 每 个 节点 需要 16 个 字 市 ， 每 种 类 型 的 节点 都 要 浪费 一 半 的 字 节 。 相 反 ,， 如 果 我 们 这 样 来 声明 一 


OSHS As 


union NODE { 
Struct { 
union NODE *left; 
union NODE *right; 
} internal; 
double data; 
j3 
那么 ， 每 个 节点 就 只 需要 8 个 字 节 。 如 果 n 是 一 个 指针 ， 指 向 union NODE * 类 型 的 节点 ， 我 们 用 
n->data 来 引用 叶子 节点 的 数据 ， 而 用 n->internal.left 和 n->internal-right 来 引用 内 部 节点 的 孩子 。 


不 过 ， 如 有 宁 这 样 编码 ， 就 没有 办 法 来 确定 一 个 给 定 的 节点 到 底 是 叶子 节点 ， 还 是 内 部 节点 。 通 
苗 的 方法 是 引入 一 个 附加 的 标志 域 : 


struct NODE { 
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int is_leaf; 
union { 
struct { 
struct NODE *left; 
Struct NODE *right; 
} internal: 
double data; 
} info; 


}; 

这 里 ， 对 叶子 节 后 来 说 ， 域 is_leaf 是 1， 而 对 内 部 节点 来 说 ， 该 域 的 值 是 0。 这 个 结构 总 共 需 
要 12 SH: is_leaf 要 4 个 ，info.intemalleft fl info.internal.right 各 要 4 个 , 成 者 info.data 要 8 个 。 
在 这 种 情况 中 ， 相 对 于 给 代码 造成 的 麻烦 ， 使 用 联合 带 来 的 好 处 是 很 小 的 。 对 于 有 较 多 域 的 数据 结 
构 ， 这 样 的 节省 会 更 加 吸引 人 一 些 。 

联合 还 可 以 用 来 访问 不 同 数据 类 型 的 位 的 形式 .例如 ,下 面 这 段 代 码 返 回 一 个 float 作 为 unsigned 
的 位 表示 : 


1 unsigned float2bit (float f) 


2 { 

3 union { 

4 float £; 

5 unsigned u; 
6 } temp; 

7 temp.f = f; 

8 return temp.u; 
9 }; 


在 这 段 代 码 中 ， 我 们 以 一 种 数据 类 型 来 存储 联合 中 的 参数 ， 又 以 另 一 种 数据 类 型 来 访问 它 。 有 
趣 的 是 ， 为 此 过 程 产生 的 代码 与 为 下 面 这 个 过 程 产生 的 代码 是 一 样 的 : 


1 unsigned copy(unsigned u) 


2 { 

3 return u; 

4 } 

这 两 个 过 程 的 主体 只 有 一 条 指令 : 
1 movl 8({%ebp),%eax 


这 束 证 明 汇 编 代码 中 缺乏 类 型 信息 。 无 论 参数 是 一 个 float， 还 是 一 个 unsigned， 它 部 在 相对 于 
%ebp Wie eA 8 的 地 方 。 过 程 只 是 简单 地 将 它 的 参数 拷贝 到 返回 值 ， 不 修改 任何 位 。 

当 用 联合 来 将 各 种 不 同 大 小 的 数据 类 型 结合 到 一 起 时 ， 字 节 顺 序 问 题 就 变 得 很 重要 了 。 例 如 ， 
假设 我 们 写 了 一 个 过 程 ， 它 会 以 两 个 4 字 节 的 unsigned 的 位 的 形式 ， 创 建 一 个 8 宁 节 的 double: 


1 double bit2double (unsigned word0, unsigned wordl) 
2 { 

3 union { 

4 double d; 

5 unsigned u[2]; 

5 } temp; 
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7 
8 temp.u[0] = word0; 
9 temp.u[l} = wordl; 
10 return temp.d; 

11 } 


在 像 IA32 这 样 的 小 端 法 (little-endian) 机 器 上 ， 参 数 word0 会 是 d MK MPA. m wordl 
会 是 高 位 四 个 字 节 。 在 大 端 法 (big-endian) 机 器 上 ， 这 两 个 参数 的 角色 刚好 相反 。 


练习 题 3.22 
考虑 下 面 的 联合 声明 
union ele 1 
Struct { 
int *p; 
int y; 
} el; 
struct { 
int x; 
union ele *next; 
} e2; 
}; 
àA BAAS AT AREARS FH. 
下 面 的 过 程 (省 略 了 某 些 表达 式 ) 是 对 一 个 链表 进行 操作 的 ， 而 链表 的 元 素 是 这 些 联 合 : 
void proc (union ele *up) 
{ 
up->__ C= OC * Cp  ) -upr> ——;} 


} 


A. 下 列 域 的 偏 移 量 是 多 少 ( 用 守节 表示 ) ? 
el.p: 
el.y: 
eZ .X: 
e2.next: 


B. 这 个 结构 总 共 需 要 多 少 字 节 ? 

C. 编译 器 为 proc 的 主体 产生 的 汇编 代码 如 下 : 
1 movl 8(%ebp) ,%eax 

movl 4(%eax) , tedx 

movl (%edx) , tecx 

movl %ebp, esp 

movl (%teax), %eax 

movl (Secx) ,Tecx 

subl %eax, tecx 

movl %ecx,4 (%edx) 


根据 这 些 信息 , 填写 出 proc 代码 中 缺失 的 表达 式 . 提示 : 有 些 联合 引用 可 以 有 多 种 意思 的 解释 。 
正如 你 看 到 的 那样 ,在 进行 引用 的 地 方 ， 能 解决 这 种 歧义 。 只 有 一 种 答案 不 需要 进行 任何 类 型 转换 ， 


0O ~w e U oA w W 
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也 不 会 违反 任何 类 型 限制 。 


3.10 ”对齐 Calignment) 


许多 计算 机 系统 对 基本 数据 类 型 的 可 允许 地 址 做 出 了 一 些 限 制 ， 要 求 某 种 类 型 的 对 象 的 地 址 必 
须 是 茶 个 值 k (通常 是 2、4 或 8) 的 倍数 。 这 种 对 齐 限制 简化 了 处 理 器 和 存储 器 系统 之 间接 口 的 硬 
件 设计 。 例 如 ， 假 设 一 个 处 理 器 总 是 从 存储 器 中 取 8 个 字 节 出 来 ， 则 地 址 必须 为 8 的 倍数 。 如 果 我 
们 能 保证 所 有 的 double 都 将 它们 的 地 址 对 齐 成 8 的 倍数 ,那么 就 可 以 用 一 个 存储 器 操作 来 读 或 者 写 
值 了 。 否 则 ， 我 们 可 能 需要 执行 两 次 存储 器 访问 ， 因 为 对 象 可 能 分 放 在 两 个 8 字 节 存储 器 块 中 。 

无 论 数 据 是 否 对 齐 ，IA32 硬件 都 能 正确 工作 . 不 过 ，Intel 还 是 建议 要 对 齐 数据 以 提高 存储 器 系 
统 的 性 能 。Linux 沿用 的 对 齐 策略 是 2 字 节 数据 类 型 (例如 short) 的 地 址 必须 是 2 的 倍数 ， 而 较 大 
的 数据 类 型 《例如 int、int *、float 和 double) 的 地 址 必须 是 4 的 倍数 。 注 意 ， 这 个 要 求 就 意味 着 一 
个 short 类 型 对 象 的 地 址 的 最 低位 必须 等 于 0。 类 似 地 ， 任 何 int 类 型 的 对 象 或 指针 的 地 址 的 最 低 两 
位 必须 都 是 0。 

旁 注 ，Microsoft Windows 的 对 齐 

Microsoft Windows 对 对 齐 的 要 求 更 严格 一 一 任何 大字 节 (基本 ) 对 象 的 地 址 都 必须 是 大 的 倍数 ， 
特别 地 ， 它 要 求 一 个 double 的 地 址 应 该 是 8 的 局 数 。 这 种 要 求 提高 了 存储 器 性 能 ， 代 价 是 浪 沉 了 一 
些 空 间 。Linux 中 的 设计 决策 可 能 对 1386 很 好 ， 以 前 存储 器 十 分 缺乏 ， 而 存储 器 总 线 只 有 4 个 字 节 
宽 。 对 于 现代 处 理 器 来 说 ，Microsoft 的 对 齐 策略 就 是 更 好 的 选择 了 。 

命令 行 选项 -malign-double 会 使 Linux 上 的 GCC 为 double 类 型 的 数据 使 用 8 字 节 的 对 齐 ， 这 会 
提高 存储 器 性 能 ， 但 是 在 与 用 4 字 节 对 齐 方 式 下 编译 的 库 代 码 链 接 时 ， 会 导致 不 兼容 ， 


确保 每 种 数据 类 型 都 是 按照 指定 方式 来 组 织 和 分 配 的 , 即 每 种 类 型 的 对 象 都 满足 它 的 对 齐 限制 ， 
斌 可 保证 实施 对 齐 。 编 译 器 在 汇编 代码 中 放 入 命令 ， 指 明 全 局 数据 所 需 的 对 齐 。 例 如 ，3.6.6 小 节 中 
焉 转 表 的 汇编 代码 声明 的 第 2 行 就 包含 下 面 这 样 的 命令 《directive); 


.align 4 


BRE SC mB 〈 在 此 ， 是 跳 转 表 的 开始 ) 会 从 以 4 为 倍数 的 地 址 处 开始 。 因 为 每 个 
表 项 长 4 个 字 节 ， 后 面 的 元 素 都 会 遵守 4 字 节 对 齐 的 限制 
分 配 存储 器 的 库 例 程 〈 例 如 malloc) 的 设计 必须 使 得 它们 返回 的 指针 能 满足 最 糟糕 情况 的 对 齐 
限制 ， 通 第 是 4 或 者 8。 对 于 有 结构 的 代码 ， 编 译 器 可 能 需要 在 域 的 分 配 中 插入 间隙 ， 以 保证 每 个 
结构 元 素 都 满足 它 的 对 齐 要 求 ， 而 结构 本 身 对 它 的 起 始 地 址 也 有 一 些 对 齐 要 求 。 
比如 说 ， 考 虑 下 面 的 结构 声明 
struct Si { 
int i; 
char c; 
int J; 
bi 
假设 编译 器 用 的 是 最 小 的 9 字 节 分 配 ， 画 出 图 来 是 这 样 的 ; 


程序 的 机 器 级 表示 169 


mE Q 4 5 


Ae 


它 是 不 可 能 满足 域 ABA OD Aj REA 5 的 4 OTH. ATLL, Save ee EM c 
Al j 之 间 插 入 一 个 3 FATA ERR “XXX” R7): 


mi 0 4 5 8 
内 容 


结果 ，j 的 偏 移 量 为 8， 而 整个 结构 的 大 小 为 12 字 节 。 此 外 ， 编 译 器 必须 保证 任何 struct Sl * 
类 型 的 指针 p 都 满足 4 字 节 对 齐 。 用 我 们 前 面 的 符号 ， 让 指针 p HEN x. MA, x, 必须 是 4 的 俏 
数 。 这 就 保证 了 p->i 地 址 x.) A p-> Chik xt) 都 满足 它们 的 4 字 节 对 齐 要 求 。 

另外 ， 编 译 器 可 能 需要 添加 一 些 填充 到 结构 的 末尾 ， 这 样 结 构 数 组 的 每 个 元 素 都 会 满怀 它 的 对 
齐 要 求 。 例 如 ， 看 看 下 面 这 个 结构 声明 ，; 

struct 52 { 

Int i; 
int jJ; 
char c; 

bj 

如 果 我 们 将 这 个 结构 打包 成 9 SSE, RR UE RO eee ee 4 ST Bk, BAN 
然 能 够 保证 满足 域 1 和 j 的 对 齐 要 求 。 不 过 ， 考 虑 下 面 的 声明 : 

struct S2 d[4}; 

分 配 9 SAT, 是 不 可 能 满足 d 的 每 个 元 素 的 对 齐 要 求 的 , EAA SP x 
x+9、2 二 18 和 x+27。 

编译 器 会 为 结构 S1 分 配 12 个 字 节 ， 最 后 3 个 字 节 是 浪费 的 空间 : 

偏 移 0 4 8 9 
内 容 

这 样 一 来 ， d 的 元素 的 地 址 分 别 为 Xas Xa +t 12. Xq +24 和 Xa + 36. 只 要 Xa tt 4 的 倍数 ， 所 有 的 

对 齐 限制 就 都 可 以 满足 了 ， 


练习 题 3.23 

对 下 面 每 个 结构 声明 ,确定 每 个 域 的 偏 移 量 、 结构 总 的 大 小 以 及 在 Linux/IA32 下 它 的 对 齐 要 求 。 
A. struct P1 { int i; char c; int j; char d; }; 

B. struct P2 { int i; char c; char d; int J; },; 

C. struct P3 { short w[3];: char c[3] }; 

D. struct P4 { short w[3)]; char *c[3] }; 

E, struct P3 { struct Pl a[2]; struct P2 *p }; 


3.11 4S: 理解 指针 
指针 是 C 语言 的 一 个 重要 特色 。 它 们 提供 一 种 统一 方式 ， 能 够 远程 访问 数据 结构 。 对 于 编程 新 
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手 来 说 ， 指 针 总 是 会 带 来 很 多 的 困惑 ， 但 是 基本 的 概念 其 实 非 常 简单 。 图 3.26 中 的 代码 说 明了 许多 
这 样 的 概念 。 


1 struct str { /* Example Structure */ 


2 int t; 

3 char v; 

4 }; 

5 

6 union uni { /* Example Union */ 

7 int t; 

8 char v; 

9 } u; 

10 

11 int g = 15; 

12 

13 void fun(int* xp) 

14 { 

15 void (*f£) (int*) = fun; /* fisa function pointer */ 
16 

17 /* Allocate structure on stack */ 

18 struct str s = {1,'a'}; /* Initialize structure */ 
19 

20 /* Allocate union from heap */ 

21 union uni *up = (union uni *) malloc(sizeofiunion uni)) ; 
22 

23 /* Locally declared array */ 

24 int *ip[2} = {xp, &g}; 

25 

26 up->v = s.ve4l]1; 

27 

28 printfi“ip = %p, *ip = %p, **ip = %d\n", 
29 ip, *1p, **ip}; 

30 printf ("ip+l = tp, ip[1] = %p, *ip[1] = d\n", 
31 ipt+i, ip[l], *ip[i]); 

32 printfi"&s.v = $p, S.v = '$c'\n", &S.v, S.V); 
33 printf ("&up->v = %p, up->v = ‘Sc'\n", &up->v, up->v); 
34 printf("f = %p\n", Ë); 

35 iÉ (--(*xp) > 0) 

36 £(xp); /* Recursive call of fun */ 
37 } 

38 

39 int test() 

40 { 

41 int X = 2; 

42 fun (&xX); 

43 return x; 

44 } 


图 3.26 用 来 说 明 C 中 指针 使 用 的 代码 
在 C 中 ， 指 针 可 以 指向 任何 数据 类 型 。 
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。 每 个 指针 都 有 一 个 类 型 。 这 个 类 型 表明 指针 指向 的 对 象 是 哪 一 类 的 。 在 我 们 的 示例 代码 中 ， 
我 们 看 到 了 下 面 这 样 一 些 指针 类 型 : 


int * int xp,ip[0],ip![1] 
union uni * union uni up 


ER, CERMAK, RABBI TI TEAR, ia T EAH RIT RA 
类 型 。 通 常 ， 如 果 对 象 类 型 为 T， 那 么 指针 的 类 型 为 * 了 7。 特 殊 的 void * 类 型 代表 通用 指针 。 
ch ani, malloc 蔷 数 返回 一 个 通用 指针 , 然后 它 再 被 强制 类 型 转换 成 一 个 有 类 型 的 指针 《第 
21 行 )。 

。 每 个 指针 都 有 一 个 值 。 这 个 值 是 某 个 指定 类 型 的 对 象 的 地 址 。 特 殊 的 NULL (0) 值 表 示 该 

指针 没有 指向 任何 地 方 。 待 会 儿 ， 我 们 会 看 看 我 们 的 指针 的 值 。 
© 指针 是 用 & 运 算 符 创建 的 。 这 个 运算 符 可 以 应 用 到 任何 lvalue 类 的 C 表达 式 上 ， 也 就 是 可 以 
出 现在 赋值 语句 左边 的 表达 式 ， 这 样 的 例子 包括 变量 以 及 结构 、 联 合 和 数组 的 元 素 。 在 我 们 
的 示 鲍 代码 中 ， 我 们 看 到 这 个 操作 符 应 用 到 全 局 变量 g 上 【第 24 行 )， 应 用 到 结构 元 素 5.9 
上 (第 32 行 )， 应 用 到 联合 元 素 up->v 上 (第 33 行 )， 以 及 应 用 到 局 部 变量 x 上 (第 42 行 )。 
。 * 操 作 符 用 于 指针 的 间接 引用 。 其 结果 是 一 个 值 ， 它 的 类 型 与 该 指针 的 类 型 相关 。 我 们 看 
到 间接 引用 应 用 到 ip 和 *ip 上 《第 29 行 )， 应 用 到 ip[1] 上 《第 31 行 )， 以 及 应 用 到 xp 上 
(第 35 行 )。 此 外 ， 表 达 式 up->v (第 33 行 ) 既 间 接 引 用 了 指针 up， 同 时 还 选取 了 域 v。 

© 数组 与 指针 是 紧密 联系 的 。 可 以 引用 一 个 数组 的 名 字 (但 是 不 能 修改 )， 就 好 像 它 是 一 个 指 
针 变 量 一 样 。 数 组 引用 (例如 ，a[3]) 与 指针 运算 和 间接 引用 《例如 ，*(a+3)) 有 一 样 的 效 
果 。 我 们 可 以 在 第 29 行 看 到 这 一 点 ， 我 们 打印 出 数组 ip 的 指针 值 ， 并 用 *ip 引用 它 的 第 一 
项 (元素 0)。 

© 指针 也 可 以 指 同 函数 。 这 提供 了 一 个 很 强大 的 存储 (storing) 和 传递 代码 引用 的 功能 ， 这 些 
代码 可 以 被 程序 的 某 个 其 他 部 分 调用 。 看 看 变量 f (第 IST), CREAMER RAH 
ee, HRMS int* 作 为 参数 ， 并 返回 void。 赋 值 语句 使 指向 fon。 当 在 后 面 我 们 使 
用 f (第 36 行 ) 时 ， 我 们 是 在 进行 递归 调用 。 

给 C 语言 初学 者 : 函数 指针 

加 数 指针 声明 的 语法 对 程序 员 新 手 来 说 是 特别 难以 理解 的 。 对 于 这 样 一 个 声明 : 

void (*f£) (int*); 

要 从 里 (从 “f” 开 始 ) 往外 读 。 因此， 我 们 看 到 像 “(*f)” 表 明 的 那样 ,了 是 一 个 指针 。 像 “(*f) 
(int*)” 表 明 的 那样 ， 它 是 一 个 指针 ， 指 向 一 个 以 一 个 int * 作 为 参数 的 函数 。 RE, RNAI, CA 
一 个 指向 一 个 以 int * 作 为 参数 并 返 同 void 的 函数 的 指针 。 

“f 两 边 的 括号 是 必须 的 ， 因 为 否则 声明 

void *f(int*); 

RIE RM, 


(void *) f(int*); 


172 第 3 章 


也 就 是 ， 它 会 被 解释 成 一 个 函数 原型 ， 声 明了 一 个 函数 f， 它 以 一 个 int * 作 为 参数 并 返回 一 个 
void *。 
Kernighan 和 Ritchie [40, 5.12 节 ] 给 出 了 一 个 有 关 阅 读 C 声明 的 很 有 帮助 的 教程 。 


我 们 的 代码 包含 很 多 对 printf 的 调用 ， 打 印 出 一 些 指针 《用 指令 %p》 和 值 。 在 执行 时 ， 产 生 下 
面 这 样 的 笑 出 ; 


1 ip = Oxbfffefa8, *ip = Oxbfffefed, **ip = 2 ip/0] =xp. Sp=x=2 

2 ip+l = Oxbfffefac, ipÍl] = 0x804965c, *ip[1] = 15 pflj/=&g.g=15 

3 &s.v = Oxbfffefb4, s.v = ‘a’ s in stack frame 

4 &up->v = 0x8049760, up->v = 'b' up points to area in heap 

5 f = 0x8048474 f points to code for fun 

6 ip = Oxbfffef68, *ip = Oxbfffefe4d, **ip = 1 Ipinnewframe,x=1 

7 ip+1 = Oxbfffeféc, ip[l} = 0x804965c, *ip[1] = 15 p[i] same as before 

8 &S.v = Oxbfffef74, s.v = 'a' Sin new frame 

9 &Uup->V = 0x8C49770, up->v = 'b' up points to new area in heap 
10 f = 0x8048414 f points to code for fun 


我 们 看 到 ， 这 个 函数 执行 了 两 次 一 一 第 一 次 是 从 tet 中 直接 调用 (第 42 行 )， 而 第 二 次 是 间接 
的 递归 调用 (第 36 行 )。 我 们 可 以 看 出 ， 打 印 出 来 的 指针 值 都 对 应 于 地 址 。 那 些 从 0xbfffef 开始 的 
指针 指向 栈 中 的 位 置 ， 而 其 他 的 是 全 局 存储 的 一 部 分 (0x804965c )， 或 是 可 执行 代码 的 一 部 分 
(Ox8048414)， 或 者 是 堆 中 的 位 置 (0x8049760 和 0x8049770). 

数组 ip 被 初始 化 了 两 次 一 一 每 次 调用 fun 都 初始 化 一 次 。 第 二 次 的 值 (OQxbfffef68) 小 于 第 一 次 
的 值 (0Qxbfffefa8 ), 这 是 因为 栈 是 向 下 增长 的 。 不 过 , 数组 的 内 容 两 次 都 是 一 样 的 。 数 组 元 素 (tip) 
是 一 个 指向 test 栈 帧 中 变量 x 的 指针 ， 元 素 ! 是 一 个 指向 全 局 变量 g 的 指针 。 

我 们 可 以 看 到 结构 s 也 被 初始 化 了 两 次 , 两 次 都 是 在 栈 中 , 而 变量 up 指向 的 联合 是 在 扒 中 分 配 
的 。 

最 后 ， 变 量 f 是 一 个 指 回 通 数 fun 的 指针 。 在 反 汇 编 代码 中 ， 我 们 看 到 如 下 fun 的 初始 化 代码 : 


1 08048414 <fun>: 

2 8048414: 55 push %ebp 

3 8048415: 89 e5 mov esp, tebp 
4 8048417: 83 ec le sub SOxlc, esp 
5 804841la: 57 push edi 


打印 出 来 的 指针 工 的 值 0x8048414 就 是 fun 的 代码 中 第 一 条 指令 的 地 址 。 


给 C 语言 初学 者 : 和 函数 传递 参数 

其 他 语言 (例如 Pascal) 提供 两 种 方式 来 向 过 程 传递 参数 一 一 传 值 (by value) 和 引用 (by 
reference )。 传 值 是 指 调用 者 提供 实际 的 参 教 值 ， 而 引用 是 指 调用 者 提供 一 个 指向 该 值 的 指针 。 在 C 
中 ， 所 有 的 参数 都 是 传 值 的 ， 但 是 我 们 可 以 通过 显 式 地 产生 一 个 指向 一 个 值 的 指针 ， 并 把 该 指针 传 
递 给 过 程 ， 从 而 实现 了 引用 参数 的 效果 。 函 数 fun (&x) (图 3.26) 中 的 参数 xp 就 是 这 样 的 。 第 一 
次 调用 fun(&x) 时 (第 4247), 给 了 函数 一 个 对 test 中 局 部 变量 x 的 引用 。 每 次 调用 fun 时 ， 这 个 
变量 都 会 减 小 ， 从 而 在 两 次 调用 之 后 ， 递 归 会 停止 ， 
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3.12 WER: 使 用 GDB 调试 器 


GNU 的 调试 器 GDB 提供 了 许多 有 用 的 特性 来 支持 对 机 器 级 程序 的 运行 时 评估 和 分 析 。 我 们 试 
图 用 本 书 中 的 示例 和 练习 ， 通过 阅读 代码 ， 来 推 炳 出 程序 的 行为 。 有 了 GDB， 通 过 观察 正在 运行 的 
程序 ， 同 时 又 对 程序 的 执行 有 相当 的 控制 ， 这 就 使 得 研究 程序 的 行为 变 为 可 能 。 

图 3.27 给 出 了 一 些 GDB 命令 的 例子 ,在 使 用 机 器 级 IA32 程序 时 ,会 有 所 帮助 。 先 运行 OBJDUMP 
来 获得 程序 的 反 汇编 版 本 ， 是 很 有 好 处 的 。 我 们 的 示例 都 是 基于 对 文件 prog 运行 GDB 的 ， 程 序 的 
描述 和 反 汇 编 都 在 第 110 页 。 我 们 用 下 面 的 命令 行 来 牛 动 GDB: 


unix> gdb prog 


通常 的 方法 是 在 程序 中 感 兴趣 的 地 方 附近 设置 断 点 。 断 点 可 以 设置 在 函数 入 口 后 面 ， 或 是 设置 
在 一 个 程序 的 地 址 处 。 在 程序 执行 过 程 中 ,直到 一 个 断 点 时 ,程序 会 停 下 来 ， 并 将 控制 返回 给 用 三 。 
在 断 点 处 ， 我 们 能 够 以 各 种 方式 查看 各 个 寄存 器 和 人 存储 器 位 置 。 我 们 也 可 以 单 步 跟 踩 程序 ， 一 次 只 
执行 几 条 指令 ， 或 是 前 进 到 下 一 个 断 点 。 


命令 效果 
开始 和 停止 
quit Exit GDB 
run Run your program (give command line arguments here) 
kill Stop your program 
OT A 


break sum 
break *0x80483c3 


Set breakpoint at entry to function sum 
Set breakpoint at address 0x80483c3 


delete 1 Delete breakpoint 1 
delete Delete all breakpoints 
执行 
stepi Execute one instruction 
stepi 4 Execute four instructions 
nexti Like stepi, but proceed through function calls 
continue Resume execution 
finish Run until current function returns 
检查 代码 
disas Disassemble current function 
disas sum Disassemble function sum 
disas 0x80483b7 Disassemble function around address 0x80483b7 
disas 0x80483b7 0x80483c7 Disassemble code within speci.ed address range 
print /x Seip Print program counter in hex 
检查 数据 
print Seax Print contents of %eax in decimal 
print /x Seax Print contents of %eax in hex 
print /t Seax Print contents of %eax in binary 
print 0x100 Print decimal representation of 0x 100 
print /x 555 Print hex representation of 555 
print /x (Sebp+8) Print contents of %ebp plus 8 in hex 
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print *(int *) Oxbffff890 
print *(int *) (Sebp+8) 
x/2w Oxbfff£f890 


x/20b sum 

有 用 的 信息 
info frame 
info registers 
help 
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Print integer at address Oxbffff890 
Print integer at address %ebp + 8 


Examine two (4-byte) words starting at 


Oxb-ffff890 
Examine .rst 20 bytes of function sum 


Information about current stack frame 
Values of all the registers 
Get information about GDB 


图 3.27 GDB 命令 示例 


这 些 例 子 说 明了 几 种 GDB 支持 机 器 级 程序 调试 的 方式 。 


address 


正如 我 们 的 示例 表明 的 那样 ，GDB 的 命令 语法 有 点 含混 星 深 ,但 是 在 线 帮助 信息 《用 GDB 的 


help 命令 调用 〉 能 克服 这 些 毛病 。 


3.13 ”存储 器 的 越界 引用 和 缓冲 区 溢出 


我 们 已 经 看 到 ，C 对 于 数组 引用 不 进行 任何 边界 检查 ， 而 且 局 部 变量 和 状态 信息 〈 例 如 寄存 器 
(AAR ET 都 存放 在 栈 中 。 这 两 种 情况 结合 到 一 起 就 能 导致 严重 的 程序 错误 ， 一 个 对 越界 的 数 
组 元 素 的 号 操作 破坏 了 存储 在 栈 中 的 状态 信息 。 然 后 ， 当 程序 使 用 这 个 被 破坏 的 状态 ， 试 图 重新 加 
载 寄存 器 或 执行 ret 指令 时 ， 就 会 出 现 很 严重 的 错误 。 


一 种 特别 常见 的 状态 破坏 称 为 缓冲 区 洲 出 (buffer overflow)。 通 常 ， 


在 栈 中 分 配 某 个 字数 组 来 


保存 一 个 字符 串 , 但 是 字符 串 的 长 度 超出 了 为 数组 分 配 的 空间 。 下 面 这 个 程序 示例 就 说 明了 这 个 问题 : 


1 /* Implementation of library function gets() */ 

2 char *gets(char *s) 

3 { 

4 int c; 

5 Char *dest = sg; 

6 while ({c = getchar()) '= '\n' && c != FOF) 
7 *dest++ = C; 

8 *dest++ = '\0'; /* Terminate String */ 
9 if (c == EOF) 

10 return NULL; 

11 return s; 

12 } 

13 

14 /* Read input line and write it back */ 

15 void echo() 

16 { 

17 Char buf[4]; /* Way too small! */ 

18 gets (buf); 

19 puts (buf); 
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20 } 


前 面 的 代码 给 出 了 一 个 库 函数 gets 的 实现 ， 用 来 说 明 这 个 函数 的 严重 问题 。 它 从 标准 答 入 读 入 
一 行 ， 在 遇 到 一 个 “m ”字符 或 某 个 错误 情况 时 停止 。 它 将 这 个 字符 串 拷贝 到 参数 s 指明 的 位 置 ， 
并 在 字符 串 结 尾 加 上 null 字符 。 在 函数 echo 中 ， 我 们 使 用 了 gets， 这 个 函数 只 是 简单 地 从 标准 输入 
中 读 入 ， 再 回 送 到 标准 输出 。 

gets 的 问题 是 它 没有 办 法 确定 是 否 为 保存 整个 字符 串 分 配 了 足够 的 空间 ,在 我 们 的 echo 不 例 中 ， 


我 们 故意 将 缓冲 区 设 得 非常 小 一 一 只 有 四 字 节 长 ,任何 长 度 超过 3 个 字符 的 字符 串 都 会 导致 写 越界 。 
研究 echo 汇编 代码 的 这 一 部 分 ， 看 看 栈 是 如 何 组 织 的 : 
1 echo: 
2 pushl %ebp Save %ebp on stack 
3 movl %esp, sebp 
4 subl $20,%esp Allocate space on stack 
5 pushl %ebx Save #ebx 
6 addl $-12,%esp Allocate more space on stack 
7 leal -4(%ebp) , $ebx Compute buf as %ebp-4 
8 pushl %ebx Push buf on stack 
9 call gets Call gets 


在 这 个 例子 中 ， 我 们 可 以 看 到 ， 程 序 总 共 为 局 部 存储 (storage) 分 配 了 32 个 字 节 《第 4 行 和 第 
6 行 )。 Pit, 字符 数组 buf 的 位 置 在 %ebp 下 方 四 个 字 节 处 (第 7 行 )。 图 3.28 给 出 了 得 到 的 栈 结构 。 
正如 看 到 的 那样 ， 所 有 对 buf[4]~~buff7] 的 写 都 会 导致 %ebp 的 保存 值 被 破坏 。 当 程序 随后 试图 以 它 
为 栈 指 针 进行 恢复 时 ， 所 有 后 来 的 栈 引 用 都 会 是 非法 的 。 所 有 对 buff8]~~buf{11] 的 写 都 会 导致 返回 
地 址 被 破坏 。 当 在 函数 结尾 执行 ret 指令 时 ， 程 序 会 “返回 ”到 错误 的 地 址 。 像 这 个 示例 说 明 的 那 
样 ， 绥 冲 区 滥 出 可 能 导致 程序 出 现 严 重 的 错误 。 


调用 者 
A Ea 
返回 地 址 
echo 
的 栈 帧 


图 3.28 echo 函数 的 栈 组 织 
字符 数组 buf 就 在 保存 的 状态 下 面 ， 对 buf 的 写 越界 会 破坏 程序 的 状态 ， 


我 们 的 echo 代码 很 简单 ， 但 是 有 点 太 随 意 了 。 更 好 一 点 的 版 本 是 使 用 fgets 函数 ， 它 包括 一 个 
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一 个 参数 ， 限 制 待 读 入 的 最 大 字 节 数 。 家 庭 作 业 3.37 要 求 你 写 出 一 个 能 处 理 任意 长 度 输入 字符 串 的 
echo PAIX. Jae. (PAA gets 或 其 他 能 导致 存储 洲 出 的 滑 数 ， 都 是 不 好 的 编程 习惯 。 当 编译 一 个 含有 
调用 gets 的 文件 时 ，C 编译 器 甚至 会 产生 这 样 的 出 错 信 息 :“the gets function is dangerous and should 
not be used (gets HAARE, AMEH.” 


code/asm/bufovf.c 
1 /* This 1s very iow quality code. 
2 It is intended to illustrate bad programming practices. 
3 See Practice Problem 3.24. */ 
4 char *getline() 
5 { 
6 char buf [8]; 
7 char *result; 
8 gets (buf); 
9 result = malloc(strlen(buf)); 
10 strcpy (result, buf); 
11 return (result); 
12 } 
code/asm/bufovf.c 
C 代码 
1 08048524 <getline>: 
2 8048524: 55 push %ebp 
3 8048525: 89 e5 mov %esp, tebp 
4 8048527: 83 ec 10 sub $0x10,%esp 
5 804852a: 56 push %esi 
6 804852b: 53 push %ebx 
Diagram stack at this point 
7 804852c: 83 c4 f4 add sOxfrfrtrf4, tesp 
8 804852f: 8Q 5q £8 lea Oxfffffff8'(%ebp), sebx 
9 8048532; 53 push %ebx 
10 8048533: e8 74 fe ff ff Call 80483ac <_init+Ox50> gets 
Modify diagram to show values at this point 
对 gets 调用 的 反 汇 编 
图 3.29 ”练习 题 3.24 的 C 和 反 汇 编 代码 
练习 题 3.24 


图 3.29 给 出 了 一 个 函数 的 (不 太 好 的 ) 实现 ， 这 个 函 数 从 标准 输入 读 入 一 行 ， 将 字符 串 措 贝 到 
新 分 配 的 存储 ， 并 返回 一 个 指向 结果 的 指针 。 

考虑 下 面 这 样 的 场景 :过 程 getline 被 调用 ,返回 地 址 等 于 0x8048643, 寄存 器 Webp 等 于 Oxbffffc94， 
寄存 器 9oesi 等 于 0x1， 而 寄存 器 9%oebx 等 于 0x2。 输 入 字符 串 为 “012345678901”， 程 序 会 因为 段 错 误 
(segmentation fault) 而 中 止 。 运行 GDB， 确 定 出 错误 是 在 执行 getline 4 ret 指令 时 发 生 的 。 

A. 填写 下 图 , 说 出 尽 可 能 多 的 关于 在 执行 完 反 汇编 代码 中 第 6 行 指令 后 栈 的 信息 。 在 右边 标注 
出 存储 在 栈 中 的 数字 的 意思 (例如 ,“ 返 回 地 址 ” )， 在 方 框 中 写 出 它们 的 十 六 进 制 值 . 每 个 方 框 都 代 
表 4 个 字 节 。 另 外 ， 还 需 指 出 %ebp 的 位 置 。 
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B. 修改 你 的 图 ， 以 展现 调用 gets 的 影响 (第 10 行 ). 

C. 程序 应 该 试图 返回 到 什么 地 址 ? 

D. 当 getline RAM, MN (E) 寄存 器 被 破坏 了 ? 

E. 除了 可 能 会 缓冲 区 溢出 以 外 ，getline 的 代码 还 有 哪 两 个 错误 ? 


缓 神 区 溢出 的 一 个 更 加 致命 的 使 用 就 是 让 程序 执行 它 本 来 不 愿意 执行 的 函数 。 这 是 一 种 最 利多 
的 通过 计算 机 网 络 攻击 系统 安全 的 方法 。 通 常 ， 输 入 给 程序 一 个 字符 串 ， 这 个 字符 串 包 含 一 些 可 执 
行 代 码 的 字 节 编码 ， 称 为 exploit code， 另 外 ， 还 有 一 些 字 节 会 用 一 个 指 同 缓冲 区 中 那些 可 执行 代码 
的 指针 覆盖 掉 返 回 指针 。 所 以 ， 执 行 ret 指令 的 效果 就 是 跳 转 到 exploit code. 

在 一 种 攻击 形式 中 ，exploit code 会 使 用 系统 调用 启动 一 个 shel 程序 ， 提 供给 攻击 者 一 组 操作 
系统 的 函数 。 在 另 一 种 攻击 形式 中 ，exploit code 执行 一 些 未 授权 的 任务 ,修复 对 栈 的 破坏 ， 然 后 第 
二 次 执行 ret 指令 ，( 看 上 去 好 像 ) 正常 返回 给 调用 者 。 

让 我 们 来 看 一 个 例子 , 著名 的 Internet 蠕虫 病毒 在 1988 年 11 月 通过 Internet 以 四 种 不 同 的 方法 获 
取 对 许多 计算 机 的 访问 。 一 种 是 对 finger 守护 进程 fingerd 的 缓冲 区 溢出 攻击 ，fingerd 是 通过 FINGER 
命令 来 服务 请 求 的 。 通 过 以 一 个 适当 的 字符 串 调用 FINGER， 奸 虫 可 以 使 远程 的 守护 进程 缓冲 区 滥 出 
并 执行 一 段 代 码 ， 该 代码 能 让 蠕虫 访 问 远程 系统 。 一 旦 蠕虫 获得 了 对 系统 的 访问 ， 它 就 能 自我 复制 ， 
几乎 完全 地 消耗 掉 机 器 上 所 有 的 计算 资源 。 因 此 ， 在 安全 专家 抓 住 如 何 消除 这 种 蠕虫 的 方法 之 前 ,成 
百 上 干 的 机 器 实际 上 都 瘫痪 了 。 这 种 蠕虫 的 始作俑者 最 后 被 抓 住 并 被 起 诉 。 他 被 判处 三 年 徒刑 (缓期 
执行 )、400 个 小 时 的 社区 服务 以 及 10500 美元 的 罚款 。 不 过 ， 即 使 到 今天 ， 人 们 还 是 在 不 断 地 发 现 使 
他 们 容易 遭受 缓冲 区 滥 出 攻击 的 系统 安全 漏洞 ， 这 更 加 突显 了 小 心 仔细 编写 程序 的 必要 性 。 任 何 到 外 
部 环境 的 接口 都 应 该 是 “防弹 的 ?”， 这 样 ， 外 部 agent 的 行为 才 不 会 导致 系统 出 现 错误 。 


CLEA ERAREAATE AMEN CHR ab Bed cient 
(worm) 是 这 样 一 种 程序 ， 它 可 以 自己 运行 ， 并 且 能 够 将 一 个 完全 有 效 的 自 艺 传播 到 其 他 机 器 .与 
此 相应 地 ， 病 毒 (virus ) 是 这 样 一 段 代码 ， 它 能 将 自己 添加 到 包括 操作 系统 在 内 的 其 他 程序 中 ， 但 
它 不 能 独立 运行 ， 在 一 些 大 众 媒体 中 ， 术 语 AR MAREA REA hA RARER 
略 ， 所 以 你 可 能 会 听 到 人 们 把 本 来 应 该 叫做 “时 虫 ”的 末 西 称 为 了 “病毒 ”。 


在 家 庭 作 业 3.38 中 ， 你 可 以 获得 准备 缓冲 区 溢出 攻击 的 第 一 手 经 验 。 注 意 ， 我 们 不 能 原谅 任何 
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用 这 种 或 其 他 任何 方法 来 获得 对 系统 的 未 被 授权 的 访问 。 未 经 许可 阅 入 计算 机 系统 与 阅 入 一 幅 建 筑 
是 一 样 的 一 一 是 一 种 犯罪 行为 ， 即 使 犯 绯 者 并 没有 恶意 。 我 们 给 出 这 样 一 个 作业 有 两 个 原因 :上 自 先 ， 
它 要 求 对 机 器 语言 编程 有 很 深 的 了 解 ， 将 许多 问题 结合 了 起 来 ， 例 如 栈 的 组 织 、 字 市 排序 以 及 指令 
编码 。 其 次 ， 通 过 讲解 缓冲 区 游 出 攻击 是 如 何 进行 的 ， 我 们 希望 你 能 了 解 到 编写 不 允许 这 种 攻击 的 
代码 的 重要 性 。 


Sit: fA Ab S Microsoft 作战 

在 1999 年 7 A, Microsoft 提出 了 一 种 即时 消息 (JIM ) 系统, 其 客户 端 与 流行 的 美国 在 线 (AOL ) 
的 IM 服务 器 兼容 。 这 就 使 得 Microsoft 的 IM 用 户 可 以 和 AOL 的 IM 用 户 聊天 ，。 不过， 一 个 月 后 ， 
Microsoft 的 IM 用 户 突然 神秘 地 不 能 与 AOL 的 IM ALP WAT. Microsoft 发 布 了 更 新 的 客户 端 ， 恢 
复 了 对 AOL IM 系统 的 服务 , 但 是 几 天 之 内 ， 这些 客 户 端 也 又 不 能 工作 了 。 尽管 Microsoft MAME 
户 端 不 断 地 尝试 模仿 AOL IM 的 协议 ,不知 怎么 地 ， AOL 就 是 能 够 确定 一 个 用 户 是 否 运 行 的 是 AOL 
版 本 的 IM 客户 端 。 

AOL 客户 端 代码 容易 唱 党 缓冲 区 溢出 hak. 这 很 可 能 是 AOL 代码 中 一 个 因 玖 忽 所 致 的 “特色 ”， 
AOL 刹 用 它 自 己 代码 中 的 这 个 错误 ,通过 在 用 户 登 陆 时 攻击 客户 端 ， 来 发 现 假冒 者 。AOL 的 exploit 
code 从 客户 端的 存储 器 映像 中 取出 很 少量 的 位 置 祥 本 ， 将 它们 打 成 一 个 网 络 包 ,发送 回 服务 器 。 如 
灯 服 净 器 没有 收 到 这 样 的 包 ， 或 者 如 果 政 到 的 包 与 预期 的 AOL 客户 端的 “足迹 ”不 匹配 ， 那 么 服 
务 器 就 会 假定 这 个 客户 端 不 是 AOL 的 客户 端 ， 并 拒绝 它 的 访问 。 所 以 ， 如 果 其 他 JIM 客户 端 ， 例 如 
Microsoft 的 客户 端 ， 想 访问 AOL 的 JM 服务 器 ， 他 们 不 仅 要 加 入 AOL EPR PAAGA E 
错误 ， 而 且 在 适当 的 存储 器 位 置 中 ， 还 要 有 完全 相同 的 二 进 射 代码 和 数据 。 但 是 ， 一 旦 他 们 使 这 些 
位 置 相 匹配 了 ， 将 他 们 新 的 客户 端 程序 向 用 户 分 发 了 ，AOL 只 需 简单 地 修改 它 的 exploit code, Rik 
客户 端 存 储 器 映像 中 不 同 的 位 置 料 本 。 很 明显 ， 这 是 一 场 非 AOL 客户 端 永远 也 不 可 能 赢 的 战争 | 

- 整个 事件 是 一 波 三 折 的 ， 关于 客户 端 错误 和 :AOL 利用 这 个 错误 的 消息 最 早 港 露 出 来 ， 是 有 人 
W ÈZ A Phil Bucking 的 独立 咨询 顾问 ， 向 有 名 的 安全 专家 Richard Smith 发 了 一 封 电 子 邮 件 ， 讲 述 
了 这 个 消息 . Smith #477 — E I, 发 现 这 封 邮件 实际 上 是 从 Microsoft 内 部 发 出 的 ,后 来 Microsoft 
承认 它 的 一 个 订 员 发 了 这 封 邮 件 [5 时 ， 而 在 这 场 论 线 的 另 一 方 ，AOL 既 不 承认 有 这 样 一 个 错误 ， 也 
不 承认 他 们 利用 这 个 错误 ， 即 使 是 在 澳大利亚 的 Geoff Chapel 将 结论 性 的 证 据 公 之 于 众 之 后 ， 

那么 ， 在 这 个 事件 中 ， 谁 违反 了 哪些 行为 规范 呢 ? FH, AOL 没有 义务 向 非 AOL 客户 端 开 发 
它 的 JM 系统 ， 所 以 他 们 阻止 Micresoft 是 正当 的 。 另 一 方面 ， 使 用 缓冲 区 溢出 是 件 很 辐 手 的 事情 . 
一 个 很 小 的 错误 可 能 就 会 导致 客户 端 计 算 机 秀 溃 ， 而 且 它 使 得 系统 更 容易 唱 受 外 部 主体 的 攻击 〈 虽 
然 没有 证 据 显示 SERE 了 这 样 的 BH). Microsoft 将 AOL 故意 使 用 缓冲 BRAS RTE 


Hee 


RA, MEARE | 


3.14 “*; 浮 点 代码 


处 奸 秀 点 值 的 指令 集 是 IA32 体系 结构 最 不 优美 的 特性 之 一 。 在 最 早 的 mne 机 器 中 ， 浮 点 是 由 
一 个 独立 的 协 处 理 器 来 完成 的 ， 这 个 部 件 有 它 自己 的 寄存 器 和 处 理 能 力 ， 能 够 执行 一 部 分 指令 。 这 
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个 协 处 理 器 是 由 名 为 8087. 80287 和 1387 的 独立 芯片 实现 的 ， 且 伴随 着 处 理 器 心 片 8086、80286 和 
i386。 在 这 些 产 品 的 开发 过 程 中 ， 芯 片 的 容量 已 经 不 足以 在 一 块 艺 片上 既 包 括 主 处 理 器 又 包括 浮 点 
协 处 理 器 的 。 男 外 ， 廉 价 的 机 器 会 省 去 浮 点 硬件 ， 只 用 软件 来 完成 浮 点 操作 非常 慢 —!)。 从 i486 H 
始 ， 浮 点 就 作为 [A32 CPU 芯片 的 一 部 分 了 。 

1980 年 , 最 早 的 8087 协 处 理 器 的 问世 赢得 了 很 高 的 赞誉 。 它 是 第 一 个 单 芯片 浮 点 单元 《FPU)， 
同时 也 是 EEE 浮 点 的 第 一 个 实现 。 作 为 协 处 理 器 运行 时 ， 在 主 处 理 器 取出 浮 点 指令 后 ，FPU 会 接 
过 它们 完成 执行 。FPU 和 主 处 理 器 之 间 有 最 少 限度 的 连接 。 将 数据 从 一 个 处 理 器 传递 到 万 一 个 ， 需 
要 发 送 方 处 理 器 写 存 储 器 ， 接 收 方 处 理 器 再 从 存储 器 中 读 取 。 直 到 今天 IA32 浮 点 指令 集中 还 保留 
有 这 些 设计 的 遗迹 。 男 外 ，1980 年 的 编译 技术 比 今天 的 简陋 得 多 。 对 于 优化 编译 器 来 说 ，IA32 浮 
点 的 许多 特性 都 是 很 难 的 目标 。 


3.14.1 Rare 

浮 点 单元 包括 8 个 浮 点 寄存 器 ， 但 是 和 普通 寄存 器 不 一 样 ， 这 些 寄存 器 是 被 当成 一 个 浅 栈 
(shallow stack) 来 对 竺 的。 这些 寄 存 器 分 别 标识 为 %st(0)、%st(1)， 等 等 ， 直 到 %st(7)。 其 中 ，96st(0) 
在 栈 项 。 当 庄 入 栈 中 的 值 超 过 8 个 时 ， 栈 底 的 那些 值 就 会 消失 。 

大 多 数 算 本 指令 不 会 直接 引用 寄存 器 ， 而 是 从 栈 中 弹出 它们 的 源 操作 数 ， 计 算 结 果 ， 笛 将 结果 
KARP. Æ 20 世纪 70 年 代 ， 栈 结构 还 被 认为 是 很 聪明 的 想法 ， 因 为 它们 提供 了 一 种 简单 的 对 算 
本 指令 求 值 的 机 制 ， 同 时 它们 也 人 允许 指令 的 密集 编码 (dense coding)。 随 独 编译 技术 的 进步 ， 同 时 ， 
指令 编码 所 需要 的 存储 器 也 不 再 是 很 关键 的 资源 ， 这 些 属性 就 不 再 重要 了 。 写 编译 器 的 人 会 更 遍 兴 
有 一 组 更 大 的 、 使 用 方便 的 浮 点 寄存 器 。 


旁 注 ， 其 他 基于 栈 的 语言 
基于 栈 的 解释 器 仍然 被 广泛 用 做 高 级 语言 和 它 到 实际 机 器 上 的 有 映 射 之 闽 的 中 间 表 示 。 其 他 基于 栈 
的 求 值 程序 的 示例 包括 Java 字 节 代码 、Java 编译 器 产生 的 中 间 客 式 , 以 及 PostScript 页 面 格式 化 语言 。 


将 浮 点 寄存 器 组 织 成 一 个 有 界 的 栈 ， 使 得 编译 器 很 难 用 这 些 寄存 器 来 存放 一 个 调用 其 他 过 程 的 过 
程 的 局 部 变量 。 对 于 局 部 变量 的 存放 , 我 们 已 经 看 到 ， 有 些 通 用 寄存 器 可 以 被 指定 为 由 被 调用 者 保存 ， 
因此 ， 可 以 用 来 保存 路 过 程 调 用 的 局 部 变量 。 这 种 指定 对 IA32 浮 点 寄存 器 来 说 是 不 可 能 的 ， 因 为 它 
的 标识 随 着 值 压 入 栈 中 和 从 栈 中 弹出 是 变化 的 。 一 个 压 栈 操 作 会 使 %st(0) 中 的 值 现在 在 %st(1) 中 。 

万 一 方面 ， 它 会 将 序 点 寄存 器 作为 真正 的 栈 来 对 待 ， 每 次 过 程 调用 时 ， 都 将 本 地 值 压 入 其 中 。 
AN cz, RRA FARA, AAR ABMS 个 值 的 位 置 。 作 为 代替 ， 编 译 器 产生 的 代码 会 在 
调用 为 一 个 过 程 之 前 ， 将 每 个 本 地 浮 点 值 都 压 入 到 主 程序 栈 中 ， 然 后 在 返回 时 把 它们 取出 来 。 这 样 
引起 的 存储 器 访问 操作 会 降低 程序 的 性 能 。 

像 2.4.6 节 中 说 明 的 那样 ，IA32 浮 点 寄存 器 的 宽 都 是 80 位 。 它 们 以 家 庭 作业 2.58 中 描述 的 扩 
展 精 度 格 式 来 对 数字 编码 。 当 从 存储 器 加 载 到 浮 点 寄存 器 时 ， 所 有 的 单 精度 和 双 精 度数 都 转换 成 这 
种 格式 。 运 算 总 是 以 扩展 精度 格式 执行 的 。 当 存 回 存储 器 中 时 ， 数 字 会 从 扩展 精度 转换 成 单 精 度 或 
双 精 度 格 式 。 


3.14.2 栈 的 表达 式 求 值 
为 了 理解 1A32 是 如 何 用 它 的 浮 点 寄存 器 作为 栈 的 ， 让 我 们 来 看 看 基于 栈 来 求 值 的 一 个 更 加 抽 
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象 的 版 本 。 假 设 我 们 有 一 个 算术 单元 ， 它 用 栈 来 保存 中 间 结 果 ， 其 指令 集 如 图 3.30 所 示 。 比 如 说 ， 
所 谓 的 RPN (Reverse Polish Notation, Wyk Rm) 袖珍 计算 器 就 提供 了 这 种 特性 。 除 了 这 个 栈 ， 
硫 单 元 还 有 一 个 可 以 保存 值 的 存储 器 ,我们 用 名 字 来 引用 这 些 值 , 例如 a、b 和 x。 如 图 3.30 表明 的 ， 
我 们 能 够 用 load 指令 将 存储 器 值 压 入 这 个 栈 中 。storep 操作 弹出 栈 项 元 素 ， 并 将 结果 存放 到 存储 器 
中 。 单 操作 数 的 操作 ， 例 如 neg〈 求 反 )， 将 栈 顶 元 素 作为 它 的 参数 ， 并 用 结果 宪 六 这 个 元 素 。 双 操 
作 数 的 操作 ， 例 如 addp 和 muitp， 以 栈 顶 两 个 元 素 作 为 参数 。 它 们 会 将 两 个 参数 都 弹出 ， 然 后 将 结 
果 讨 回 栈 中 。 我 们 在 存储 、 加 法 、 减 法 、 乘 法 和 除法 指令 后 面 加 上 后 绎 “p”， 是 为 了 强调 这 些 指令 


弹出 了 它们 的 操作 数 。 


load $ 
storep D 
neg 

addp 
subp 
multp 


div 


将 $ 处 的 值 压 入 栈 中 
弹出 栈 项 元 素 并 存储 在 忆 处 
栈 顶 元 素 取 负 

弹出 两 个 栈 顶 元 素 : 
弹出 两 个 栈 顶 元 素 ; 
弹出 两 个 栈 顶 元 素 ; 
弹出 两 个 栈 顶 元 素 ; 


压 入 它们 的 和 
压 入 它们 的 差 
讨 入 它们 的 积 
讨 入 它们 的 比值 


图 3.30 假设 的 栈 指令 集 


这 些 指令 用 来 说 明基 于 栈 的 表达 式 求 值 。 


作为 一 个 示例 ， 考 虑 表达 式 x=(a-b})/(-b+c)。 我 们 可 以 将 这 个 表达 式 翻译 成 下面 的 代码 ， 在 每 


一 行 代 伺 旁 边 ， 剖 给 出 了 浮 扣 寄存 器 栈 的 内 容 。 
下 增长 的 ， 所 以 栈 顶 实际 上 是 在 最 底部 。 


1 Load c 


Ay S25 BRANT Ti TB RE BS RATE A BS E 


Le Teseo 6 toad a tst (2) 

a O st 

2 load b est (1 a | tt (0) 
sco) 

7 subp tst (1) 

> neg ast (1 hst (0) 
èst (01 

aaap TTT cer YP Cetero T tseo 

9 storep x 

5 load b st (1 
ee OOO eo 


头像 这 个 例子 说 明 的 那样 ， 将 一 个 算术 表达 式 转 换 成 栈 代 码 是 一 个 天 然 的 递归 过 程 。 我 们 的 表 
达 式 记 法 规定 四 种 类 型 的 表达 式 ， 且 有 下 列 翻译 规则 ; 

1. 格式 为 Var 的 变量 引用 。 是 用 指令 load Var 来 实现 的 。 

2. 格式 为 -Expr 的 单 操作 数 操作 。 这 是 用 先 产 生 Expr 的 代码 , 然后 再 跟 一 条 neg 指令 来 实现 的 。 

3. 格式 为 Expri + Expr. Expr;-Expr,. Expr, * Expr #& Expr, / Expr: 的 双 操 作 数 操作 。 它 的 实 
现 是 产生 Expr 的 代码 ， 然 后 是 Expr 的 代码 ， 然 后 是 一 条 addp. subp. multp 或 divp 指令 。 

4. 格式 为 Var = Expr 的 赋值 操作 。 这 是 通过 先 产生 Expr 的 代码 ， 然 后 跟 一 条 storep Var 指令 来 


实现 的 。 
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作为 一 个 示例 ， 看 看 这 样 一 个 表达 式 x=a-b/c。 因 为 除法 的 优先 级 高 于 减法 ， 这 个 表达 式 加 
上 括号 就 变 成 了 x =a--(b/c)。 因 此 递归 过 程 会 像 这 样 进行 : 
1. 产生 Expr=a- (b/c) 的 代码 : 
(a) 产生 Expn= b/c 的 代码 : 
i， 用 指令 load c 产生 Expr = c 的 代码 。 
ii. 用 指令 loadb 产生 Expr, +b 的 代码 。 
iii. 产生 指令 divp。 
(b) 用 指令 load a 产生 Expr +a 的 代码 。 
(c) 产生 指令 subp。 
2. 产生 指令 storep x. 


束 体 效果 岗 是 产生 下 面 这 样 的 栈 代 伍 : 
$st(0) 
2 toad b bst (1) 
Oo o b | %st(0) 5 SUP èst (0) 
3 divp b/c %5t (0) 6 storep x 
练习 题 3.25 


产生 表达 式 x = akb/c* - (a+bxc) 的 栈 代 码 。 画 出 每 一 步 代码 的 栈 内 容 ， 记 住 要 遵守 C 的 有 关 优 
先 级 和 结合 性 规则 。 


当 我 们 想 多 次 使 用 某 些 计算 结果 时 ， 栈 求 值 就 变 得 更 加 复杂 了 。 例 如 ， 考 虑 这 样 的 表达 式 x = 
(a*b)*(-(a*b)+c)。 为 了 效率 ， 我 们 想 只 计算 a*b 一 次 ， 但 是 我 们 的 栈 指 令 不 提供 一 种 方式 将 值 保 存 
在 栈 中 , 一 旦 这 个 值 被 用 过 。 因此, 使 用 图 3.30 中 列 出 的 这 样 一 组 指令 , 我 们 会 需要 将 中 间 结 果 a*b 
存储 在 存储 器 中 某 个 位 置 ， 比 如 说 t， 每 次 要 使 用 时 就 取出 这 个 值 。 得 到 下 面 这 样 的 代码 : 


1 load c 


[Le Teo 7 mi PP ty 
Cb) | o 
2 load OTT seem 
bb jsst(0) 8 adap bst (0) 
3 load a vet (2) 9 load t =-@ bte | ssa) 
bb ü Oes ab Bt (0) 
ey ae o 
10 multp a-b-(-(a:b)+c) st (0) 
4 multp %st{1) 11 StOreD x PS 
CO ab | eo orep 
6 load t Oe TTT sen 
|] sst(o0) 


这 种 方法 的 缺点 就 是 增加 了 额外 的 存储 器 访问 操作 ， 即 使 是 在 寄存 器 栈 有 足够 的 容量 存放 中 间 
结果 时 。IA32 浮 点 单元 避免 了 这 种 低 效率 ， 引 入 了 算术 指令 的 变种 ， 将 它们 的 第 二 个 操作 数 留 在 栈 
中 ， 可 以 用 任意 栈 值 作为 它们 的 第 二 个 操作 数 。 另 外 ， 它 还 提供 一 条 指令 ， 可 以 将 栈 顶 元 素 与 任何 
其 他 元 素 进行 交换 。 虽 然 这 些 扩展 可 以 用 来 产生 更 有 效 的 代码 ， 但 是 将 算术 表达 式 翻 译 成 栈 代 码 的 
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简单 而 优 天 的 算法 丢失 了 。 


3.14.3 iF RRA TE KPIS RRF 

用 记 符 %stti) 来 引用 浮 点 寄存 器 ， 这 里 i 代表 相对 于 栈 顶 的 位 置 。 值 i 的 范围 为 0 一 7。 寄 人 存 器 
%st(0) 是 栈 顶 元 素 ，%st(]) 是 第 二 个 ， 依 此 类 推 。 也 可 以 用 %st 来 引用 栈 顶 元 素 。 当 一 个 新 值 床 入 栈 
中 时 ， 和 等 存 器 %st(7) 中 的 值 就 丢失 了 。 当 从 栈 中 弹出 时 ，%st(7) 中 的 新 值 是 不 可 预测 的 。 编 详 器 产 牛 
的 代码 必须 能 在 寄存 器 栈 有 限 的 容量 中 工作 。 

图 3.31 给 出 的 指令 集 是 用 来 将 值 压 入 浮 点 寄存 器 栈 中 的 。 第 一 组 指令 从 存储 器 位 置 中 读 ， 这 里 
参数 Addr 是 存储 器 地 址 ， 它 按照 图 3.3 中 列 出 的 某 种 存储 器 操作 数 格 式 给 出 。 这些 指令 是 以 假定 的 
源 操作 数 的 格式 来 区 分 的 ， 因 此 必须 从 存储 器 中 读 出 一 组 字 节 。 回 忆 一 下 符号 Mu[Addr]， 表 示 对 起 
始 地 址 为 Addr 的 b 个 字 节 的 访问 。 在 将 操作 数 压 入 栈 中 之 前 ， 所 有 这 些 指令 都 会 将 它 转 换 成 扩展 
精度 格式 。 最 后 的 加 载 指 令 fd 用 来 复制 一 个 栈 的 值 。 也 就 是 ， 它 将 浮 点 寄存 器 %st(i) 的 一 个 副本 压 
入 栈 中 。 例 如 ， 指 令 fld %st(0) 将 栈 顶 元 素 的 一 个 副本 压 入 栈 中 ，。 


M, [Addr] 
M3[Adar] 


M of Addr] 
a 


T 


A331 浮 点 加 载 指令 
所 有 的 指令 将 操作 数 转换 成 扩展 精度 格式 ， 然 后 压 入 寄存 器 栈 中 。 
图 3.32 给 出 了 将 栈 顶 元 素 存 储 在 存储 器 或 男 一 个 浮 点 寄存 器 中 的 指令 。“ 弹 出 ”有 两 个 版 本 ， 
一 种 是 将 栈 顶 元 素 弹 出 栈 (类 似 于 我 们 假设 的 栈 求 值 器 中 的 storep 指令 ), 一 种 是 非 弹出 版 本 , 将 源 
值 留 在 栈 项 上 上 。 同 浮 点 加 载 指令 一 样 ， 指 令 的 不 同 变种 产生 的 结果 格式 也 不 同 ， 因 而 会 存储 不 同 数 
目的 字 斑 。 第 一 组 指令 是 将 结果 存 到 存储 器 中 。 地 址 是 用 图 3.3 中 列 出 的 存储 器 操作 数 格式 中 的 某 
一 种 指定 鸭 。 第 二 组 指令 是 将 栈 项 元 素 拷贝 到 另外 一 个 浮 点 寄存 器 中 。 


MalAddr] 
M,|Addr] 
M,[ Addr] 
M,[ Addr] 


M iof Addr] 
M \olAddr] 
M, [Addr] 
M, [Addr] 
$st (2) 
$st(i) 


St (i) 
fstp st (i) 


3.32 浮 点 存储 指令 
所 有 的 指令 将 结果 从 扩展 精度 格式 转换 成 目标 格式 。 带 后 绥 “p” 的 指令 将 栈 顶 元 素 弹出 栈 。 
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练习 题 3.26 


为 下 面 这 段 代 码 做 如 下 假设 ， 寄 存 器 Goeax 包含 整数 变量 X， 而 栈 顶 两 个 元 素 分 别 对 应 于 变量 a 
Fab, 在 方 框 中 写 出 每 条 指令 后 栈 的 内 容 。 


1 testl teax, teax 


: inem TT tt 
a] so 


4 jmp LÌ 
5 L11; 
7 LG: 


写 出 一 个 用 x、a 和 日 表示 的 C 表 达 式 ， 描 述 这 段 代码 序列 结束 之 后 ， 栈 顶 元 素 的 内 容 。 


最 后 的 浮 点 数据 传送 操作 允许 交换 两 个 浮 点 寄存 器 的 内 容 。 指 令 Exch Sst (1) 交换 浮 点 寄存 
器 96st(0) 和 %st(D) 的 内 容 。 不 带 参 数 的 符号 fxch 等 价 于 fxch %st(1)， 也 下 是 ， 交 换 两 个 栈 顶 元 素 。 


3.144 浮 点 算术 指令 

图 3.33 说 明了 一 些 最 常见 的 浮 点 算术 操作 。 第 一 组 中 的 指令 没有 操作 数 。 它 们 将 某 上 毕 常 数 数字 
的 浮 点 表示 压 入 栈 中 。 对 像 XT、e 和 1og210 这 样 的 常数 ， 也 有 类 似 的 指令 。 第 二 组 中 的 指令 有 一 个 操 
作 数 。 这 个 操作 数 总 是 栈 顶 的 元 素 ， 类 似 于 假设 的 栈 求 值 器 中 的 neg 拘 作 ， 它 们 会 用 计算 出 的 值 取 
代 这 个 元 素 。 第 三 组 中 的 指令 有 两 个 操作 数 。 对 每 个 这 样 的 指令 ， 都 有 关于 如 何 指定 操作 数 的 许多 
不 同 的 变种 ， 待 会 儿 会 谈 到 。 对 不 可 交换 操作 ， 例 如 减法 和 除法 ， 有 前 向 〈 例 如 fsub) AR] Cp 
如 fsubr) 两 个 版 本 ， 这 样 就 可 以 按照 两 种 顺序 中 的 和 任 一 种 来 使 用 参数 。 


图 3.33 浮 点 算术 操作 


每 个 双 操 作 数 操作 都 有 多 个 变种 。 


在 图 3.33 中 ， 我 们 只 给 出 了 减法 操作 fsub 的 一 种 形式 。 实 际 上 ， 这 个 操作 有 多 个 变种 ， 如 图 
3.34 所 未。 这 些 指 令 部 是 计算 两 个 操作 数 之 差 : Op1 - Op,， 并 将 结果 存放 到 某 个 浮 点 寄存 器 中 。 除 
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了 为 假设 的 栈 求 值 器 考虑 的 简单 subp 指令 以 外 , IA32 还 有 一 些 指 令 是 从 存储 器 或 某 个 除 %st(1) 以 外 
的 浮 点 寄存 此 中 读 出 它们 的 第 三 个 操作 数 的 。 男 外 ， 它 们 也 都 有 弹出 和 不 弹出 这 两 个 变种 。 第 一 组 
日 令 从 存储 规 中 读 出 第 二 个 操作 数 ， 这 个 数 可 以 是 单 精度 、 双 精度 或 整数 格式 的 。 然 后 ， 它 册 把 这 
个 数 转 换 成 扩展 精度 格式 ,将 栈 顶 元 素 减 去 这 个 数 ， 并 覆盖 栈 顶 元 素 。 这 可 以 看 成 是 一 个 浮 点 加 载 ， 
后 面 跟 一 个 基于 栈 的 减法 操作 的 组 合 。 


fsubs Addr tst (0) M,[Addr} 单 精度 | 
fsubl Addr Ms[Adadr] NAR 
sdubt Addr MiolAddr] | 扩展 精度 


fisubl Addr M,.[Adar] 整数 
*st(1),%st 


*st(i),%st(1) 
$st(1),%st(1) 


3.34 ” 浮 点 减法 指令 
所 有 的 指令 都 将 结果 以 扩展 精度 格式 存放 到 一 个 浮 点 寄存 器 中 。 带 后 缓 “p” 的 指令 会 弹出 栈 项 元 素 。 


第 二 组 减法 指令 以 栈 项 元 素 作为 一 个 参数 ， 以 另外 一 个 栈 元 素 作 为 另 一 个 参数 ， 但 是 它们 的 参 
数 顺序 、 结 果 所 使 用 的 目的 ， 以 及 是 否 会 弹出 栈 顶 元 素 都 是 不 一 样 的 。 注 意 ， 汇 编 代 但 行 fsubp 
Æ fsubp g%st，s%sst(1) 的 简写 。 这 一 行 对 应 于 我 们 假设 的 栈 求 值 器 的 subp 指令 。 也 就 是 ， 它 计 
算 栈 顶 两 元 素 之 差 ， 将 结果 存放 在 %st(1) 中 ， 然 后 弹出 %stt0)， 这 样 计 算出 的 值 就 在 栈 顶 了 。 

图 3.33 中 列 出 的 所 有 双 操 作 数 操作 ， 都 有 图 3.34 中 列 出 的 fsub 的 所 有 变种 。 例 如 ， 我 们 可 以 
用 IA32 指令 与 出 表达 式 x = (a-b)*(-b+c) 的 代码 。 为 了 说 明 方 便 ， 我 们 仍然 使 用 存储 器 位 置 的 符号 
和 名字， 并 假设 这 些 都 是 双 精 度 值 。 


1 fldl b 


$st(0) 


? fes [ 2 O T lso 


1 fala est 11 
a ts 00) 

5 feubl b est (1) 
st (Q) 

6 fmulp (a — b)(—b + c) st (0) 


7 fstpl x 


再 来 看 一 个 例子 ， 考 虑 表达 式 x = (a*b)+(-(a*b)+c)。 注 意 是 如 何 用 指令 fld Sst (0) 在 栈 中 创 
建 akb 的 两 个 副本 的 ， 这 样 避免 了 在 临时 存储 器 位 置 中 保存 这 个 值 ， 
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fldl a st (0) 


gid est(0) Tab O T eseo 
Tab) tt 00) 


fchs 


a ts) 
est (0) 

faaie | Td stn 
—(a -b) +c %st (0) 


fmulp (~(a-b)+c).a-b st (0) 


练习 题 3.27 
画 出 下 述 代码 每 一 步 之 后 栈 的 内 容 : 


6 


7 


fldl a $st(1) 
st (Q) 
fmul $st(1),%st st(1) 
st (0) 
fxch st (1) 
$st(0) 
fdivrl c $st(1) 
st (0) 


fstp x 


用 一 个 C 表 达 式 来 描述 这 个 计算 。 


3.145 ”在 过 程 中 使 用 浮 点 
同 整数 参数 一 样 ， 浮 点 参数 是 通过 栈 传递 给 调用 过 程 的 。 每 个 float 类 型 的 参数 需要 4 个 字 节 的 

栈 空 间 ， 而 每 个 doube 类 型 的 参数 需要 8 个 字 节 。 对 于 返回 值 为 float 或 double 类 型 的 函数 ， 结 果 

是 以 扩展 精度 格式 在 浮 点 寄存 器 栈 顶 部 返回 的 。 
作为 一 个 示例 ， 看 看 下 面 这 个 函数 ; 


1 
2 
3 
4 


相对 于 %ebp， 参 数 a、x、b 和 i 的 位 置 分 别 为 8、16、20 和 28: 


double funct (double a, float x, double b, int i) 


{ 
return a*x - b/i; 


} 
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{ha #4 8 16 20 28 


a a EA 


产生 代码 的 主体 ， 以 及 得 到 的 栈 值 如 下 所 示 ; 


3 fds 16(%ebp) st (1) 
èst (0) 
4 fmull 8 (ebp) est (1 
èst (0) 


练习 题 3.28 
at ft BH a. x. bb 和 j (以 及 与 funct 不 同 的 声明 ) 的 函数 funct2， 编 译 器 为 函数 体 产 生 下 面 
这 样 的 代码 ， 


1 movl 8(%ebp), Seax 
2 fldl 12 (%ebp) 

3 flds 20 (%ebp) 

4 movl $eax,-4(%ebp) 
5 fildl] -4(%ebp) 

6 fxch st (2) 

7 faddp %st,%st(1} 
8 fdivrp %st,%st (1) 
9 fldl 

10 flds 24(%ebp) 

11 faddp %$st,%st (1) 


返回 值 的 类 型 为 double。 写 出 funct2 4 C 人 代码。 注意 要 保证 正确 声明 参数 的 类 型 。 


3.14.6 MAA EUF AE 

类 似 于 整数 的 情况 ， 确 定 两 个 浮 点 数 的 相对 值 包括 用 比较 指令 来 设置 条 件 码 ， 然 后 再 测试 这 些 
RG. BH, WAR, 条件 码 是 浮 点 状态 字 的 一 部 分 ， 浮 点 状态 字 是 一 个 16 位 寄存 器 ， BAK 
于 浮 点 单元 的 各 种 标志 。 必 须 将 这 个 状态 字 转 换 成 整数 字 ， 然 后 测试 某 些 特殊 的 位 。 

如 图 3.35 所 示 ， 有 很 多 不 同 的 浮 点 比较 指令 。 所 有 这 些 指令 执行 的 都 是 操作 数 Op, 和 Op, 之 
间 的 比较 ， 这 里 Op, 是 栈 顶 元 素 。 表 中 每 一 行 说 明了 两 条 不 同 的 比较 指令 : 一 个 是 有 序 比 较 ， 用 
于 像 < 和 < 这 样 的 比较 ， 而 男 一 个 是 无 序 比 较 ， 用 于 相等 的 比较 。 两 种 比较 的 区 别 只 在 于 它们 对 待 
NaN H EDER, AA NaN 值 和 其 他 值 之 间 没 有 相对 顺序 。 例 如 ， 如 果 变 量 x 是 一 个 NaN, THE 
By ERDHE, BARER x <y 和 x=y 都 应 该 产生 0。 


3 关于 NaN 的 解释 见 2.4.3 节 的 末尾 。 一 一 译 者 
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Addr Ma,[Addr] 0 
Addr M,[Addr] 0 
$st (2) st (i) 0 

0 


$st(i) 
feomps Addr | fucomps Addr M,[Addr] 
fcompl Addr fucompl Addr Ms[Addr] 
fcomp $st(2) fucomp $st(i) Estiz) 


fcomp | fucomp $stil) 


W335 浮 反 比较 指令 
有 序 和 无 序 比较 不 同 之 处 在 于 它们 对 待 Na 值 是 不 同 的 。 


比较 指令 的 各 种 形式 的 不 同 之 处 还 在 于 操作 数 Op 的 位 置 是 不 同 的 ， 类 似 于 浮 点 加 载 和 浮 点 算 
术 指 令 的 各 种 形式 。 最 后 ， 各 种 形式 的 不 同 之 处 还 在 于 ， 在 比较 完成 后 从 栈 中 弹出 的 元 素 的 个 数 。 
表 中 所 示 的 第 一 组 指令 根本 不 会 改变 栈 。 即 使 是 对 于 一 个 参数 在 存储 器 中 的 情况 ， 最 终 这 个 值 也 不 
会 放 在 栈 中 。 第 二 组 中 的 操作 会 将 元 素 Op 弹出 栈 。 而 最 后 一 个 操作 则 会 将 Op, 和 Op? 都 弹出 栈 。 

指令 fnstsw 将 浮 点 状态 字 传 送 到 一 个 整数 寄存 器 。 这 条 指令 的 操作 数 是 图 3.2 中 所 示 的 16 位 寄 
存 器 标识 付 中 的 一 个 ， 例 如 %ax。 状 态 字 中 ， 对 比较 结果 编码 的 位 是 状态 字 的 高 位 字 节 的 0、2 和 6 
位 。 例 如 ， 如 果 我 们 用 指令 fnstw wax 传送 状态 字 ， 那 么 相应 的 位 就 在 %ah 中 。 选 择 这 些 位 的 典型 
代 但 序列 是 这 样 的 : 

1 fnstsw %ax Store floating point status word in %ax 

2 andb $69, %ah Mask all but bits 0, 2, and 6 

注意 ，69io 的 位 表示 为 [00100101]， 也 就 是 ， 三 个 相应 位 上 的 值 均 为 1。 图 3.36 给 出 了 由 这 段 代 
码 序 列 得 到 的 字 节 %ah 可 能 的 值 。 注 意 ， 对 于 比较 操作 数 Op, 和 Op 只 有 四 种 可 能 的 结果 : 第 一 个 
数 人 和 人 于、 小于、 等 于 第 二 个 数 ， 或 是 两 者 不 能 比较 ， 只 有 当 一 个 值 为 NaN 时 ， 才 会 出 现 最 后 一 种 结 
FR o 


图 3.36 HeACRERN eS 
结果 编码 在 浮 点 状态 字 的 高 位 字 节 ， 屏 项 了 除 0、2 和 6 以 外 的 其 他 位 。 


看 看 下 面 这 个 过 程 示例 : 


1 int less(double x, double y) 
2 { 


3 return X < Yy; 

4 3} 

这 个 函数 体 的 编译 后 代码 是 这 样 的 : 

1 fldl 16(%ebp) Push y 

2 fcompl 8(%ebp) Compare y:x 

3 fnstsw %ax Store floating point status word in Yoax 

4 andb $69, %ah Mask all but bits 0, 2, and 6 

5 sete tal Test for comparison outcome of 0 (>) 

6 movzbl %al,%eax Copy low order byte to result, and set rest to 0 
练习 题 3.29 


请 说 明 ， 如 何 通 过 在 前 面 的 代码 序列 中 插入 一 行 汇编 代码 ， 就 能 实现 下 面 的 函数 : 


1 int greater (double x, double y) 


2 { 
3 return x > Y; 
4 } 


现在 ， 我 们 就 讲 完了 用 IA32 进行 汇编 级 浮 点 编程 。 即 使 是 有 经 验 的 程序 员 也 会 觉得 这 些 代码 
很 神秘 ， 难 以 阅读 。 基 于 栈 的 操作 ， 将 状态 结果 从 FPU 读 到 主 处 理 器 的 笨拙 ， 以 及 浮 点 计算 的 许多 
细微 之 处 ， 都 使 得 机 器 代码 元 长 而 星 汲 。 值 得 注意 的 是 ， 如 果 数 字 程 序 被 编码 为 指定 格式 ， 则 Intel 
和 它 的 竞争 者 们 生产 的 现代 处 理 器 就 能 够 使 这 些 数字 程序 达到 相当 高 的 性 能 ， 


3.15 “在 C 程序 中 其 入 汇编 代码 


在 早期 的 计算 中 ， 大 多 数 程序 都 是 用 汇编 代码 写 的 ， 即 使 是 很 大 型 的 操作 系统 也 是 在 没有 局 级 
语 吉 帮助 的 情况 下 编写 的 。 就 程序 的 复杂 性 来 说 ， 这 就 变 得 难以 管理 了 。 因 为 汇编 代码 不 提供 任何 
形式 的 类 型 检查 ， 所 以 很 容易 犯 基 本 的 错误 ， 例 如 将 指针 作为 整数 来 用 ， 而 不 是 间接 引用 指针 。 更 
糟 的 是 ， 用 汇编 写 代 码 会 将 整个 程序 限制 在 某 一 类 机 器 上 了 。 重 写 一 个 汇编 语言 程序 ， 使 它 能 在 不 
同 的 机 器 上 运行 ， 与 从 头 写 整个 程序 是 一 样 困难 的 。 


旁 注 ， 用 汇编 代码 编写 大 型 程序 

Frederick Brooks, Jr.， 一 位 计算 机 系统 的 先驱 ， 编 写 了 关于 OS/360 开发 的 说 明 。OS/360 X IBM 
机 器 的 一 个 早期 操作 系统 [5]， 直 到 今天 它 还 提供 了 很 多 重要 的 经 验 、 通 过 写 这 些 东 西 ， 他 成 为 了 用 
高 级 语言 进行 系统 编程 的 衷心 拥护 者 。 不 过 ， 令 人 惊奇 的 是 ， 有 一 组 活跃 的 程序 员 ， 他 们 很 高 兴 为 
IA32 写 汇编 代码 ,。 他 们 通过 Internet 新 闻 组 comp.lang.asm.x86 来 彼此 联系 . 他们 中 的 大 多 数 为 DOS 
操作 系统 编写 计算 机 游戏 。 


早期 的 高 级 编程 语言 的 编译 器 不 能 产生 非常 有 效 的 代码 ， 也 不 能 提供 系统 程序 员 营 利 需 要 的 对 
(RA RE) 表示 的 访问 。 要 求 高 性 能 或 需要 访问 目标 〈 代 码 ) 表示 的 程序 通常 还 是 用 汇编 代 
码 来 写 的 。 不 过 现在 ， 优 化 编译 器 基本 上 使 得 性 能 优化 不 再 是 用 汇编 代码 写 程序 的 一 个 原因 了。 一 
个 高 质量 的 编译 器 产生 的 代码 通常 和 手工 编写 的 一 样 好 ， 甚 至 于 更 好 。 而 C 语言 基本 上 使 得 机 器 访 
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问 不 再 使 用 汇编 代码 了 。C 语言 能 够 通过 联合 和 指针 运算 访问 低级 数据 表示 ， 以 及 能 对 位 级 数据 表 
示 进 行 操作 ， 这 就 为 大 多 数 程序 员 提 供 了 足够 多 访问 机 器 的 能 力 。 例 如 ， 像 Linux 这 样 的 现代 操作 
系统 ， 几 乎 每 个 部 分 都 是 用 C 写 的 。 

尽管 如 此 ， 有 时 候 用 汇编 写 代 码 仍 然 是 惟一 的 选择 ， 特 别 是 实现 操作 系统 时 就 更 是 这 样 。 比 如 
说 ， 操 作 系 统 必须 访问 一 些 特 殊 的 寄存 器 ， 它 们 存放 着 进程 状态 信息 。 热 行 输入 和 输出 操作 要 使 用 
特殊 的 指令 或 是 访问 特殊 的 存储 器 位 置 。 即 使 是 对 应 用 程序 员 来 说 ， 也 有 一 些 机 器 特性 ， 例 如 条 件 
码 的 值 ， 是 不 能 直接 用 C 访问 的 。 

现在 的 问题 是 要 将 主要 由 C 组 成 的 代码 与 少量 汇编 代码 集成 到 一 起 。 一 种 方法 是 用 汇编 代码 写 
一 些 关 键 图 数 ， 使 用 的 参数 传递 和 寄存 器 使 用 规则 与 C 编译 器 遵守 的 一 样 。 这 些 汇编 未 数 保 存在 独 
立 的 文件 中 ， 由 链接 器 将 编译 好 的 C 代码 和 汇编 好 的 汇编 代码 结合 起 来 。 例 如 ， 如 果 文 件 pl.c 包含 
C 代码 ， 而 文件 p2.s 包含 的 是 汇编 代码 ， 那 么 编译 命令 


unix> gcc -O p pi.c p2.s 


会 编译 文件 pl.c 和 汇编 文件 p2.s， 并 将 得 到 的 目标 代码 链接 形成 可 执行 程序 p。 


3.15.1 EKHAR (inline assembly) 

GCC 还 可 以 将 汇编 与 C RIGIBA BOR. A RIC Be IT BP Be hg PE BB PE Se PA, 
RAAB. AP EASE GEE. FRET SPEER Al a et SE Sats > ee a a. 
然 , 得 到 的 代码 是 与 机 器 高 度 相 关 的 ,因为 不 同类 型 机 器 的 机 器 指令 是 不 兼容 的 .asm 命令 (directive ) 
也 是 与 GCC 相关 的 ， 它 与 很 多 其 他 编译 器 是 不 兼容 的 。 尽 管 如 此 ， 这 还 是 一 种 有 效 的 方式 ， 将 与 
机 器 相关 的 代码 数量 降低 到 绝对 小 。 

ARYL EEA GCC 信息 档案 的 一 部 分 来 说 明 的 ， 在 任何 安装 了 GCC 的 机 器 上 执行 命令 info 
gcc， 会 得 到 一 个 分 层 的 文档 阅读 器 。 沿 看 名 为 “C Extensions ”的 链接 ， 然 后 是 名 为 “Extended Asm” 
的 链接 ， 束 能 找到 内 散 汇 编 的 文档 。 不 六 的 是 ， 这 个 文档 有 扣 不 完全 ， 也 不 太 准 确 。 

内 檐 汇编 的 基本 格式 是 像 过 程 调 用 一 样 写 代 码 : 

asm( code-string ) ; 


AN ve code-string 表示 一 个 以 带 括 与 的 字符 串 形式 给 出 的 汇编 代码 序列 。 编 译 器 会 将 这 个 字符 串 
一 字 不 差 地 插入 到 产生 的 汇编 代码 中 , 因此 , 编译 器 提供 的 汇编 和 用 户 提供 的 汇编 就 合并 到 一 起 了 。 
编译 右 不 会 检查 字符 串 是 否 出 错 ， 因 此 ， 要 等 到 汇编 器 才 会 报告 错误 。 

我 们 以 一 个 项 要 访问 条 件 码 的 例子 来 说 明 asm 的 使 用 。 考 虑 原型 如 下 的 函数 : 

int ok_smul (int x, int y, int *dest); 

int ok_umul (unsigned x, unsigned y, unsigned *dest); 

每 个 函数 都 用 来 计算 参数 x Aly 的 乘积 ， 并 将 结果 存放 到 参数 dest 指定 的 存储 器 位 置 中 。 至 于 
退回 值 ， 当 乘法 谥 出 时 会 返回 0， 否则 返回 1。 有 符号 乘 和 无 符号 乘 是 两 个 函数 ， 因 为 它们 的 溢出 情 
况 左 不 同 的 。 

分 析 IA32 乘法 指令 mul 和 imul 的 文档 ， 我 们 看 到 在 溢出 时 ， 两 个 指令 都 会 设置 进位 标志 CF. 
RAR 3.10, 我 们 看 到 指令 setae 可 以 用 来 在 CF 标志 设 为 1 时 ,将 一 个 寄存 器 的 低位 字 节 设置 为 0， 
合 则 就 尼 置 为 1。 因 此， 我 们 希望 将 这 条 指令 插入 到 编译 器 产生 的 序列 中 。 
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企 试 图 使 用 尽 可 能 少 的 汇编 代码 和 详细 分 析 后 ， 我 们 试 着 用 下 面 的 代码 来 实现 ok_smul: 


code/asm/okmul.c 
/* First attempt. Does not work */ 
int ok_smull(int x, int y, int *desz) 
{ 


int result = Q; 


*cest = x*y; 
asm("setae %alLl"); 
return result; 


Oo worn uo FP w N ke 


code/asm/okmut.c 


这 里 的 策略 利用 的 是 寄存 器 %eax ADK BORMAN. moe as Hk ae ER 
result， 第 一 行 束 会 将 这 个 寄存 器 设置 为 0。 内 向 汇 编 会 插入 正确 设置 这 个 寄存 器 低位 字 世 的 代码 ， 
而 这 个 寄存 器 会 用 来 作为 返回 值 。 

AERE, GCC 有 它 目 己 的 关于 代码 产生 的 想法 。 产生 的 代码 并 不 会 在 函数 一 开始 时 就 将 寄存 
peax 设置 为 0， 而 是 到 最 后 才 这 么 做 ， 所 以 函数 总 是 返回 0。 最 根本 的 问题 是 ， 编 译 器 无 法 知道 
程序 员 的 意图 是 什么 ， 也 无 法 知道 汇编 语句 应 该 如 何 与 其 他 产生 的 代码 交互 。 

通过 一 系列 符 放 〈 行 会 儿 我 们 会 详细 介绍 更 加 系统 的 方法 )， 我 们 能 生成 可 行 的 代码 ,但 是 这 也 
ARHI: 


code/asm/okmul.c 
1 /* Second attempt. Works in limited contexts */ 
2 int dummy = 0; 
3 
4 int ok_smul2(int x, int y, int *dest) 
D { 
6 int result; 
7 
8 *dest = x*y; 
9 result = dummy; 
10 asm("“setae al"); 
11 return result; 
12 } 
code/asm/okmul.c 


这 段 代 码 使 用 的 是 和 前 面 一 样 的 策略 ， 但 是 它 用 全 局 变量 dummy 的 值 来 将 result 初始 化 为 0。 
对 于 产生 包含 全 局 变量 的 代码 ， 编 译 器 通常 会 比较 保守 ， 所 以 不 太 可 能 会 重新 排列 计算 的 顺序 。 

本 而 的 代码 依赖 于 编译 器 能 够 处 理 得 当 。 实 际 上 ， 只 有 当 编 译 器 的 优化 选项 (命令 行 选项 -O) 
是 打开 的 时 候 ， 这 段 代 码 才 能 正常 工作 。 当 不 带 优 化 编译 时 ， 它 会 将 result 存放 在 栈 中 ， 在 返回 之 
WEH, Ai setae 指令 设置 的 值 。 编 译 器 无 法 知道 插入 的 汇编 语言 与 其 他 代码 之 间 的 关系 ， 因 为 
我 们 没有 提供 给 编译 器 这 样 的 信息 。 
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3.15.2 asm 的 扩展 格式 

GCC 提供 了 asm 的 一 个 扩展 版 本 ， 它 允许 程序 员 指 定 哪些 程序 值 要 作为 汇编 代码 序列 的 操作 
数 ， 以 及 哪些 寄存 器 要 被 汇编 代码 覆盖 。 有 了 这 些 信 息 ， 编 译 器 产生 的 代码 就 能 正确 建立 所 需要 的 
源 值 ， 执 行 汇 编 指令 ， 并 使 用 计算 出 的 值 。 这 些 信息 中 还 包括 编译 器 所 需 的 关于 寄存 器 使 用 的 信息 ， 
这 样 一 来 ， 重 要 的 程序 值 就 不 会 被 汇编 代码 指令 覆盖 了 。 

扩展 的 汇编 序列 的 通用 语法 是 这 样 的 : 

asm( code-string | : output-list | : input-list { : overwrite-list | | ] ); 

这 里 ， 方 括号 表示 可 选 参数 。 这 个 声明 包含 一 个 描述 汇编 代码 序列 的 字符 串 ， 后 面 是 可 选 的 列 
表 ， 包 括 输出 《也 就 是 汇编 代码 产生 的 结果 )、 输 入 〈 也 就 是 汇编 代码 的 产值 )， 以 及 汇编 代码 会 柳 
六 的 寄存 器 。 这 些 列 表 以 冒 与 (:; ) 分 隔 。 正 如 方 括号 表明 的 那样 ， 我 们 只 包含 到 最 后 一 个 非 空 的 列 
Ko 

代码 串 的 语法 让 人 想起 printf 语句 中 格式 化 字符 串 的 语法 。 它 是 由 一 个 用 分 号 (“;”) MRENE 
编 代码 指令 序列 组 成 的 。 输 入 和 输出 操作 数 由 引用 %0，%1，…，%9 表示 。 操 作 数 是 根据 它们 第 一 
次 在 输出 列表 和 输入 列表 中 出 现 的 顺序 编号 的 。 像 “%eax” 这 样 的 寄生 器 名 字 必 须要 多 加 一 个 “%” 
他 写 ， 也 就 是 写成 “%%eax”。 

下 面 是 ok_smul 的 一 个 更 好 的 实现 ， 它 使 用 扩展 的 汇编 语句 来 告诉 编译 器 汇编 语句 是 为 变量 
result 产生 的 值 : 


code/asm/okmul.c 
1 /* Uses extended asm to get reliable code */ 
2 int ok_smul3 (int x, int y, int *dest) 
3 { 
4 int result: 
5 
6 *dest = x*y; 
7 
8 /* Insert the following assembly code: 
9 setae %bl # Set low-order byte 
10 movzb] %bl, result # Zero extend to be result 
11 ¥/ 
12 asm("Setae $%bl; movzbl %%b1,%0"” 
13 : "=r" (result) /* Output */ 
14 : /* No inputs */ 
15 : "“%ebx" /* Overwrites */ 
le E 
17 
18 return result; 
19 } 

code/asm/okmul.c 


第 一 条 汇编 指令 将 测试 结果 保存 在 单字 节 寄 存 器 %bl 中 。 然 后 ， 第 二 条 指令 对 这 个 值 进行 零 扩 
展 ， 并 找 贝 到 编译 器 选择 的 用 来 保存 result 的 随便 哪个 寄存 器 中 ，result 是 用 操作 数 %0 表示 的 。 输 
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出 列表 是 由 以 空格 分 隔 的 值 对 组 成 的 。( 在 本 例 中 ， 只 有 一 个 值 对 。) 值 对 的 第 一 个 元 素 是 一 个 字符 
串 ， 表 明 操作 数 的 类 型 ， 这 里 “r” 表 示 -- 个 整数 寄存 器 ， 而 “=” 表 示 汇 编 代 码 对 这 个 操作 数 进行 
了 赋值 。 值 对 的 第 二 个 元 素 是 用 括号 括 起 来 的 操作 数 . 它 可 以 是 任何 可 赋值 的 值 (在 C 中 称 为 左 值 ， 
lvalue)。 编 译 器 会 产生 必要 的 代码 序列 来 执行 这 个 赋值 。 输 入 列表 有 相同 的 通用 格式 ， 这 里 操作 数 
可 以 是 任意 C 表达 式 。 编 译 器 会 产生 必要 的 代码 来 对 这 个 表达 式 求 值 。 覆 盖 列 表 只 是 简单 地 给 出 会 
被 重 写 的 寄存 器 的 名 字 (作为 带 插 号 的 字符 串 )。 

无 论 编译 选项 如 何 ， 前 面 这 段 代 码 都 能 正常 工作 。 正 如 这 个 示例 表明 的 那样 ， 要 编写 允许 操作 
数 按照 要 求 的 格式 书写 的 汇编 代码 ， 可 能 还 需要 一 点 点 创造 性 的 思维 。 例 如 ， 没 有 直接 的 方法 来 指 
定 一 个 程序 值 作为 setae 指令 的 目的 操作 数 ， 因 为 这 个 操作 数 必须 是 单字 节 的 。* 因此 ， 我 们 编写 了 
一 个 基于 一 个 特殊 寄存 器 的 代码 序列 ， 然 后 用 一 个 额外 的 数据 传送 指令 来 将 得 到 的 值 拷贝 到 程序 状 
态 的 某 个 部 分 。 


练习 题 3.30 

GCC 提供 了 扩展 精度 运算 的 工具 。 它 可 以 用 来 实现 ok_smul 吨 数 ,优点 是 函数 可 以 跨 机 器 移植 . 
声明 为 类 型 “long long” 的 变量 的 大 小 为 普通 long 变量 的 两 倍 。 因 此 ， 语 名 

tong long prod = (long long) x * y; 
会 计算 X 和 y 的 全 6442 RR, ARAILE, Bh-1 TEAM asm 语句 的 ok_smul MA, 

有 人 可 能 会 想 ， 这 段 代码 序列 可 以 用 在 ok_umul 中 ,但 是 ， 对 有 符号 和 无 符号 乘法 ，GCC 用 的 
都 是 imul〈 有 符号 乘法 ) 指令 。 虽 然 它 能 为 两 个 乘法 都 产生 正确 的 值 ， 但 是 它 会 根据 有 符号 乘法 的 


规则 来 设置 进位 标志 。 因 此 ， 我 们 需要 使 用 汇编 代码 序列 ， 显 式 地 用 图 3.9 中 说 明 的 mull 指令 来 执 
行 无 符号 乘法 ， 这 段 代码 如 下 所 示 : 


code/asm/okmul.c 


1  /* Uses extended asm */ 

2 int ok_umul (unsigned x, unsigned y, unsigned *dest) 
3 d 

4 int result; 

5 

6 /* Insert the following assembly code: 

7 movl x,%eax # Get x 

8 mull y # Unsigned multiply by y 

9 moy] %eax,*dest # Store low-order 4 bytes at dest 

10 setae %d! # Set low-order byte 

11 movzbl %dl, result # Zero extend to be result 

12 */ 

13 asm("movl %$2,%%eax; mull %3; movl %%eax,%0; 
14 setae %%dl; movzbl %%dl, %1" 

15 : "=r" (*dest), "=r" (result) /* Outputs */ 


4 实际 上 ， 你 可 以 用 GCC 声明 一 个 类 型 为 char 的 变量 来 声明 一 个 单字 节操 作 数 ， 参 见 http//www.csapp.cs.cmu.edu/public/ 
byteasm.html。 一 一 译 者 
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16 : "r" (x), "r” (y) /* Inputs */ 
17 : "Seax", "%Sedx" /* Overwrites */ 
18 ); 

19 

20 return result; 

21 } 


code/asm/okmul.c 


回忆 一 下 ，mull 指令 要 求 它 的 一 个 参数 在 寄存 器 %eax 中 ， 而 第 二 个 参数 是 作为 操作 数 给 出 的 。 
为 了 说 明 这 一 点 ， 在 asm 语句 中 ， 我 们 用 movl 将 程序 值 x 传送 到 %eax， 并 指明 程序 值 y 是 mull 指 
令 的 参数 。 然 后, 指令 会 将 8 个 字 节 的 乘积 存放 在 两 个 寄存 器 中 ，5%eax 保存 低位 4 个 字 节 ， 而 ‰edx 
保存 高 位 字 节 。 然 后 我 们 用 寄存 器 %edx 来 构造 返回 值 。 正 如 这 个 示例 说 明 的 那样 ， 豆 号“,) 用 来 
在 输入 和 输出 列表 中 分 阳 操 作 数 对 ， 以 及 在 窗 盖 列表 中 分 隔 寄 存 器 名 字 。 注 意 ， 我 们 能 够 将 *dest 
指定 为 第 二 个 mol 指令 的 输出 ， 因 为 它 是 可 赋值 的 。 于 是 , 编译 器 会 产生 正确 的 机 器 代码 , 将 9%eax 
中 的 值 存储 在 这 个 存储 器 位 置 上 。 

想 了 解 编 译 器 是 如 何 产 生 关 于 asm 语句 的 代码 的 ， 下 面 是 为 ok_umul 产生 的 代码 : 


Set up asm inputs 


movi 8{%ebp) , tecx Load x into Yoecx 
2 movl 12 (%ebp) , tebx Load y into Webx 
3 movl 16(%ebp), esi Load dest into %esi 


The following instructions were generated by asm. 
Input registers: %ecx for x, Yoebx for y 
Output registers: Wecx for product, %ebx for result 


4 movl %ecx,%eax; mull %tebx; movl %teax, %tecx; 
5 setae dl; movzbl %d1,%tebx 
Process asm outputs 
6 movl %tecx, (%esi) Store product at dest 
7 movl tebx, eax Set result as return value 


这 段 代 码 的 第 1 一 3 行 取 出 过 程 参数 ， 并 将 它们 存放 到 寄存 器 中 。 注意 , 它 没 有 使 用 寄存 器 9%eax 
或 %edx， 因 为 我 们 已 经 声明 了 这 两 个 寄存 器 会 被 重 写 。 第 4 行 和 第 $ 行 是 我 们 的 内 垦 汇 编 代 码 ， 不 
过 参数 换 成 了 寄存 器 的 名 字 。 特 别 地 ， 它 会 用 寄存 器 %ecx 代替 参数 %2 (x)， 用 %ebx 代替 参数 %3 
(y)。 乘 积 会 暂时 存放 在 Wecx 中 ， 而 它 会 用 寄存 器 %ebx 代替 参数 %] (result)。 然 后 ， 第 6 行将 乘 
积 仓 储 到 dest， 完 成 了 对 参数 %0 (*dest) 的 处 理 。 第 7 行将 result 拷贝 到 寄存 器 %eax， 作 为 返回 值 。 
因此 ， 编 译 嚣 不仅 产生 了 我 们 asm 语句 指示 的 代码 ， 还 产生 了 提供 语句 输入 (第 1 一 3 行 ) 和 使 用 
输出 《第 6 一 7 行 ) 的 代码 。 

BA am 语句 的 语法 有 点 难 情 ， 而 县 它 的 使 用 也 使 代码 的 可 移植 性 变 差 了 ， 但 是 对 于 编写 用 
少量 汇编 代码 来 访问 机 器 级 特性 的 程序 ， 这 条 语句 还 是 非常 有 用 的 。 我 们 发 现 ， 要 想 代码 能 正常 
工作 ， 是 需要 进行 一 些 党 试 和 犯 点 错误 的 。 最 好 的 办 法 就 是 用 -S 选项 编译 选项 ， 然 后 检查 产生 出 
的 汇编 代码 ， 看 它 是 否 达 到 了 期 望 的 效果 。 代 码 还 应 该 用 不 同 的 选项 设置 来 测试 ， 例 如 带 和 不 带 
-O 选项 。 
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3.16 ”小结 


(EAR, RUBS RB SRAM MARE PAR, CL SOLE. he FE at 
产生 机 器 级 程序 的 汇编 代码 表示 ， 我 们 了 解 了 编 详 器 和 它 的 优化 能 力 ， 以 及 机 器 代码 、 它 的 数据 类 
型 和 它 的 指令 集 。 人 在 第 5 章 中 ， 我 们 会 看 到 ， 当 编写 能 有 效 映射 到 机 器 上 的 程序 时 ， 了 解 编译 器 的 
特性 会 有 所 帮助 。 我 们 还 看 了 一 些 高 级 语言 抽象 隐藏 有 关 程 序 操 作 重 要 细节 的 例子。 例如 ， 浮 点 代 
码 的 行为 可 能 依赖 于 值 是 保存 在 寄存 器 中 ,还 是 在 存储 器 中 。 在 第 13 章 中 , 我 们 会 看 到 许多 这 样 的 
例子 ， 我 们 需要 知 志 一 个 程序 变量 是 在 运行 时 栈 中 ， 是 在 某 个 动态 分 配 的 数据 结构 中 ， 还 是 在 茶 个 
全 局 存储 位 置 中 。 理 解 程序 是 如 何 映射 到 机 器 上 的 ， 会 让 理解 这 些 存 储 之 间 的 区 别 容易 一 些 。 

六 编 语言 与 C 代码 差别 很 大 。 在 汇编 语言 程序 中 ， 各 种 数据 类 型 之 间 的 差别 很 小 。 程 序 是 以 指 
令 序列 来 表示 的 ， 每 条 指令 都 完成 一 个 单独 的 操作 。 部 分 程序 状态 ， 如 寄 在 器 和 运行 时 栈 ， 对 程序 
员 来 说 是 再 接 可 见 的 。 仅 提供 了 低级 操作 来 支持 数据 处 理 和 程序 控制 。 编 译 嚣 必须 用 多 条 指令 来 产 
生 和 操作 各 种 数据 结构 ， 来 实现 像 条 件 、 循 环 和 过 程 这 样 的 控制 结构 。 我 们 讲述 了 C 和 如 何 编 译 C 
的 许多 不 同方 面 。 我 们 看 到 C 中 缺乏 边界 检查 ， 使 得 许多 程序 容易 出 现 缓冲 区 溢出 ， 而 这 已 经 使 许 
多 系统 容易 受到 入 侵 者 的 恶意 攻击 。 

我 们 只 分 析 了 C 到 IA32 的 上 映射， 但 是 我 们 讲 的 大 多 数 内 容 对 其 他 语言 和 机 器 组 合 来 说 也 是 类 
似 的。 例如 ， 编 详 C++ 与 编译 C 就 非常 相似 。 实 际 上 ，C++ 的 早期 实现 就 只 是 简单 地 执行 了 从 C++ 
到 C 的 源 到 源 的 转换 ， 并 对 结果 运行 C 编译 器 ， 产 生 目 标 代码 。C++ 的 对 象 用 结构 来 表示 ， 类 似 于 
C 的 struct。C++ 的 方法 是 用 指向 实现 方法 的 代码 的 指针 来 表示 的 。 相 比 而 言 ，Java 的 实现 方式 完全 
不 同 。Java 的 目标 代码 是 一 种 特殊 的 二 进 制 表示 ， 称 为 Java 字 节 代码 。 这 种 代码 可 以 看 成 是 虚拟 机 
的 机 融 级 程序 。 正 如 它 的 名 字 上 暗示 的 那样 ， 这 种 机 器 并 不 是 直接 用 硬件 实现 的 。 相 反 ， 软 件 解释 器 
处 理 字 市 代码 ,模拟 庶 拟 机 的 行为 。 这 种 方法 的 优点 是 相同 的 Java 字 节 代码 可 以 在 许多 不 同 的 机 器 
上 执行 ， 而 我 们 在 本 章 谈 到 的 机 器 代码 只 能 在 IA32 上 运行 。 


参考 文献 说 阴 

关于 IA32 最 好 的 参考 书目 来 日 于 Intel。 他 们 关于 软件 开发 的 系列 中 有 两 本 特别 有 用 。 基 本 体 
系 结构 手册 [18] 给 出 了 从 汇编 语言 程序 员 角 度 来 看 的 体系 结构 概貌 , 而 指令 集 参 考 手 册 [19] 给 出 了 各 
种 指令 的 详细 描述 。 这 些 参考 书目 包含 的 信息 远 远 超出 了 理解 Linux 代码 所 需要 的 内 容 。 特 别 地 ， 
Linux 使 用 平 甸 模式 寻 址 ， 所 有 分 段 寻 址 方法 的 复杂 性 都 可 以 不 予 考虑 了 。 

Linux 汇编 器 使 用 的 GAS 格式 与 Intel 文档 中 以 及 其 他 编译 器 (特别 是 Microsoft 生产 的 编译 器 ) 
使 用 的 标准 格式 差别 很 大 。 一 个 主要 区 别 就 是 源 和 目的 操作 数 是 以 相反 的 顺序 给 出 的 。 

在 Linux 机 器 上 ， 运 行 命令 info as 会 显示 有 关 汇 编 器 的 信息 。 其 中 一 个 小 部 分 说 明了 与 机 器 相 
夫 的 信息 ， 包 括 GAS 与 更 标准 的 Intel 表示 法 的 比较 。 注 意 ，GCC 称 这 些 机 器 为 “i386” 一 一 它 产 
生 的 代码 甚至 于 可 以 在 1985 年 的 机 器 上 运行 。 

Muchnick 的 关于 编 详 器 设计 的 著作 [$$] 被 认为 是 有 关 代 码 优化 技术 最 全 面 的 参考 文献 。 它 覆盖 
了 我 们 在 此 讨论 的 许多 技术 ， 例 如 寄存 器 使 用 规则 和 基于 do-while 格式 为 循环 产生 代码 的 优点 。 

AF WL Intemet 用 缓冲 区 溢出 来 攻击 系统 ， 已 经 有 很 多 论述 了 。Spafford[73] 出 版 了 关于 1988 
年 Internet 螨虫 的 详细 分 析 ， 帮 助 制止 这 种 蠕虫 传播 的 MIT 的 一 些 人 也 出 版 了 一 些 论著 [26]。 从 那 
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UE. PPA VE ARF AEMP ee ta BOR AIA A, Bil [20]. 


家 庭 作 业 
3.31 ¢ 
给 你 如 下 信息 。 一 个 函数 的 原型 为 
int decode2 (int x, int y, int z}; 
将 这 个 函数 编译 成 汇编 代码 。 代 码 体 为 : 
movl 16(%ebp),%eax 
movil 12(%ebp), %edx 
subl %eax, $edx 
movl %tedx, eax 
imul 1 8 (ebp), sedx 
sall $31,%eax 


sarl $31,%eax 
xorl %edx, %eax 


BR x. y 和 z 存放 在 存储 器 中 相对 于 寄存 器 %ebp 中 地 址 偏 移 量 为 8、12 和 16 的 地 方 。 代 码 将 
返回 值 存放 在 寄存 器 %eax 中 。 

写 出 等 价 于 我 们 汇编 代码 decode2 的 C 代码 。 可 以 通过 用 -S 选项 编 详 你 的 代码 来 测试 你 的 答案 。 
你 的 编 详 占 产生 的 代码 不 一 定 完全 一 样 ， 但 是 功能 应 该 等 价 。 

3.32 od 

RH C 代码 基本 上 与 图 3.12 中 的 代码 相同 : 


O Jv cA N PF WwW N Fr 


1 int absdiff2(int x, int y) 
2 d 

3 int result; 

4 

5 if (x < y) 

6 result = y-x> 

7 else 

8 result = x-y; 

9 return result; 


10 } 
不 过 编译 时 ， 它 得 到 形式 不 同 的 汇编 代码 ; 


movl 8(%ebp), %edx 

movi 12(%ebp), Secx 

movl %*edx, eax 

subl *ecx, teax 

cmpl %ecx, tedx 

jge .L3 

movl %ecx, teax 

subl %tedx, eax 
L3: 


D å o ~J cD bB w V Fr 
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A. 当 x<y 时 ， 执 行 哪个 减法 ? 24 x>y PME? 

B. 这 段 代 码 与 前 面 讲 过 的 if-else 的 标准 实现 有 什么 不 同 ? 

cC. 用 CC 语法 (包括 goto)， 给 出 这 个 翻译 的 通用 形式 。 

D. 为 了 保证 这 个 翻 详 上 共有 C 代码 指定 的 行为 ， 要 对 它 的 使 用 加 上 什么 样 的 限制 ? 

3.33 O¢ 

下 面 的 代码 给 出 了 一 个 开关 语句 中 根据 枚 举 类 型 值 进行 分 支 选 择 的 例子 。 回 忆 一 下 ，C as 
类 型 只 是 一 种 引入 一 组 与 整数 值 相对 应 的 名 字 的 方法 。 默认 情况 下 , 值 是 从 0 向 上 依次 赋 给 名 字 的 。 
在 我 们 的 代码 中 ， 省 略 了 与 各 种 情况 标号 (case labels) 相对 应 的 动作 。 


/* Enumerated type creates set of constants numbered 0 and upward */ 
typedef enum {MODE_A, MODE_B, MODE C, MODE_D, MODE_E} mode_t; 


int switch3{int *pl, int *p2, mode_t action) 
{ 

int result = 0; 

Switch({action) { 

case MODE A: 


case MODE RPR: 
case MODE C: 
case MODE _D: 
case MODE E: 
default: 


} 
return result; 


产生 的 实现 各 个 动作 的 汇编 代码 部 分 如 图 3.37 所 示 。 注 释 表 明了 存储 在 寄存 器 中 的 值 ， 以 及 各 
个 跳 转 目的 的 情况 标号 。 
A. 程序 变量 result 对 应 于 哪个 寄存 器 ? 
B. 项 与 出 C 代码 中 缺失 的 部 分 。 注意 会 落 入 其 他 情况 (cases) MTG (case). 
The jump targets 
Arguments pl and p2 are in registers %ebx and %ecx. 


1 .L15: MODE A 

2 movl (%ecx) , edx 

3 movl (%*ebx) , eax 

4 movl %teax, {%ecx) 

5 jmp .L14 

6 ._p2align 4,,7 Inserted to optimize cache performance 
7 .L16: MODE_B 

8 


movl] (%#ecx), eax 
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9 addl (%tebx) , eax 
10 mov] %teax, (%ebx) 
11 movl teax, edx 
12 jmp .L14 
13 .p2align 4,,7 Inserted to optimize cache performance 
14 ,L17: MODE_C 
15 movl $15, (%ebx) 
16 movl (%ecx) , $edx 
17 jmp .L14 
18 -_p2align 4,,7 Inserted to optimize cache performance 
19 „L18: MODE_D 
20 movl {($ecx),%eax 
21 movl %eax, (%ebx) 
22 „L19: MODE E 
23 movl $17,%edx 
24 jmp .L14 
25 .Pp2align 4,,7 Inserted to optimize cache performance 
26 .L20: 
27 movl $-1,%edx 
28 „L14: default 
29 movl %tedx, Seax Set return value 
3.37 ”作业 3.33 的 汇编 代码 
这 段 代码 实现 了 switch 语句 的 各 个 分 支 。 
3.34 Oo¢ 
对 于 从 目标 代码 进行 逆向 工程 来 说 ， 开 关 语 句 是 特别 困难 的 。 在 下 面 这 个 过 程 中 ， 去 掉 了 开关 
语句 的 主体 ; 
1 int switch_prob(int x) 
2 { 
3 int result = x; 
4 
5 Switch(x) { 
6 
7 /* Fill in code here */ 
8 } 
9 
10 return result; 
11 } 


图 3.38 给 出 的 是 这 个 过 程 的 反 汇编 目标 代码 。 我 们 只 对 第 4~ 16 行 所 示 的 代码 部 分 感 兴趣 。 在 
第 4 行 我 们 可 以 看 到 参数 x 〈 在 相对 于 %ebp 偏 移 量 为 8 的 位 置 ) 被 加 载 到 寄存 器 9oeax 中 ， 对 应 于 


程序 变量 result。 第 11 行 的 指令 lea CxO (tesi), tesi 是 一 条 宇 指 令 ， 插 入 这 条 指令 是 为 了 使 
第 12 行 的 指令 的 起 始 地 址 为 16 的 倍数 。 


55 
89 
8b 
8d 
8 3 
7] 
tf 
cl 
eb 
8d 
cl 
eb 
8d 
Of 
82 
89 
5a 
C3 
89 


e5 
45 
50 
fa 
1d 
24 
e0 
14 
b6 
f8 
09 
04 
af 
co 
ec 


f6 


08 
ce 
05 


95 
0 2 


00 
02 


40 
CO 
Oa 


080483c0 <switch_prob>: 
80483c0: 
80483cl1: 
80483c3: 
80483c6: 
80483c9: 
80483cc: 
80483ce: 
80483d5: 
S0483d8: 
$O0483da: 
S0483e0: 
80483e3:; 
80483e5: 
80483e8: 
80483eb: 
80483ee: 
80483f0: 
80483f1: 
80483f2: 


68 84 04 08 


00 00 00 


图 3.38 作业 3.34 的 反 汇 编 代 码 


push 


Mov 
mov 
lea 
cmp 
ja 

jmp 
shl 
jmp 
lea 
sar 
J] mp 
lea 


imul 


add 
mov 
pop 
ret 
mov 


%ebp 

%esp, %ebp 

0x8 (3%ebp) , eax 
Oxffffffice(%seax) , tedx 
SOx5, tedx 

80483eb <switch_prob+Ux2b> 
*0x8048468 (, edx, 4) 
SOx2,%eax 

80483ee <switch_prob+0x2e> 
0x0 (%esi1),%esi 

SOx2,%eax 

80483ee <switch_prob+0x2e> 
(teax, $eax,2) ,eax 

$eax, eax 

SOxa,teax 

sebp, esp 

%ebp 


$es1,%esi 


Whit HERES KH. Aik GDB, RNA LA AS x/6w 0x8048468 来 检查 存储 
器 中 从 地 址 0x8048468 开始 的 六 个 4 字 节 的 字 。GDB 打印 出 下 面 的 内 容 ， 


(gab) x/ow 0x8048468 

0x8048468: 0x080483d5 O0x080483eb 0x080483d5 0x080483e0 
0x8048478: 0x080483e5 0x080483e8 

(gdb) 

用 C 代码 填写 出 开关 语句 的 主体 ， 使 它 的 行为 与 上 且 标 代码 一 致 。 

3.35 o@ 


C 编译 器 为 var_prod_ele 产生 的 代码 (图 3.25(b)) 不 是 最 优 的 。 根 据 过 程 fix_prod_ele_opt (图 
3.24) 和 var_prod_ele_opt (K 3.25)， 写 出 这 个 函数 的 代码 ， 使 之 对 n 的 所 有 值 都 正确 ， 但 是 编译 
成 的 代码 要 将 它 的 所 有 临时 数据 都 放 在 寄存 器 中 。 

回忆 一 下 ， 处 理 器 只 有 六 个 寄存 器 可 用 来 保存 临时 数据 ， 因 为 寄存 器 %ebp 和 9%esp 不 能 用 于 此 
目的 ， 其 中 一 个 寄存 器 还 必须 用 来 保存 乘法 指令 的 结果 。 因 此 ， 你 必须 把 循环 中 的 局 部 变量 的 数量 
从 六 〈result、Aptr、B、nTjPk、n 和 cnt) 减少 到 五 。 


3.36 Od 


如 林 你 负责 维护 一 个 大 型 的 C 程序 ， 遇 到 下 面 这 样 的 代码 ; 


1 
2 
3 


typedef struct { 
int left; 
a struct a[CNT]: 
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int right; 
} b struct; 


{ 


9 int n = bp->left + bp->right; 
10 a_struct *ap = &bp->alil; 


11 ap->x[ap->idx] = n; 
12 | 


void test(int 1, b struct *bp) 


不 幸 的 是 ， 你 对 定义 编译 时 常数 CNT 和 结构 a_struct 的 “.h” 文 件 没 有 访问 权限 。 幸 好 ， 你 能 
够 访问 代码 的 “.o” 上 了 版本， 可 以 用 objdump 程序 来 肥 汇 编 这 些 文 件 ， 得 到 如 图 3.39 所 示 的 肥 汇 编 代 


hg. 

1 00000000 <test>: 

2 0: 55 push 
3 1 89 eb mov 
4 3: 53 push 
5 4: 8b 45 08 mov 
6 7 8b 4d Oc mov 
7 a: 8d 04 80 lea 
8 d: 8a 44 81 04 lea 
9 11: 8b 1C mov 
10 13: cl e2 02 shl 
11 16: 8b 99 b8 00 00 00 mov 
12 ile: 03 19 add 
13 le: 89 5c 02 04 mov 
14 22: 5b pop 
15 23: 89 ec mov 
16 25: 5d pop 
17 -26: Cy ret 


tebp 

esp, tebp 

%eDxX 

0x8 (Sebp) , eax 

Oxc (Sebp}) , tecx 

(eax, $eax,4), %eax 
0x4 (Secx, eax, 4) ,eax 
($eax) ,edx 

SOx2, tedx 

Oxb8 (%ecx) , $ebx 
($ecx) , $ebx 

*ebx, xå (%edx, eax, 1) 
$ebDx 

sebp, esp 

%ebp 


图 3.39 ”作业 3.36 的 反 汇编 代码 


运用 你 的 逆向 工程 技能 ， 推 断 出 下 列 内 容 : 


A. CNT 的 值 。 


B. 结构 a_struct 的 完整 声明 。 假 设 这 个 结构 中 只 有 域 idx A x. 


3.37 © 


Fa —“ IR good_echo， 它 从 标准 输入 读 入 一 行 ， 再 写 回 到 标准 输出 。 你 的 实现 必须 对 任意 
长 度 的 输入 行 都 能 正常 工作 。 可 以 使 用 库 函 数 fgets， 但 是 必须 保证 ， 你 的 函数 即使 是 在 输入 行 需 要 
比 你 为 缓冲 区 分 配 的 空间 更 大 的 空间 时 ， 仍 能 正确 工作 。 你 的 代码 还 应 该 检查 出 错 条 件 ， 当 遇 到 错 
RRE KERA VO 函数 的 定义 可 以 参考 文档 [32，40]。 


3.38 人 SSS 


住 这 个 问题 中 ， 你 要 着 手 对 你 自己 的 程序 进行 缓冲 区 溢出 攻击 。 前 面 我 们 说 过 ， 我 们 不 能 原谅 
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用 这 种 或 其 他 形式 的 攻击 来 获得 对 系统 的 未 被 授权 的 访问 ， 但 是 通过 这 个 练习 ， 你 会 学 到 许多 关于 
机 器 级 编程 的 知识 。 

从 CS: APP 的 网 站 上 下 载 文 件 bufbomb.c, 编译 它 创建 一 个 可 执行 文件 。 在 bufbomb.c 中 ， 你 会 
发 现下 面 的 函数 : 

1 int getbuf (} 


2 { 

3 char buf[12]; 
4 getxs (buf); 

5 return 1; 

6 | 

7 

8 void test() 


9 { 

10 int val; 

11 printf("*Type Hex string:”"); 

12 val = getbuf(); 

13 printft("getbuf returned 0Ox%x\n", val); 

14 3} 

PAX getxs 也 在 bufbomb.c F) ARIF FER RW gets， 除 了 它 是 以 十 六 进 制 数字 对 的 编码 方式 访 
入 字符 的 以 外 。 比 如 说 ， 要 给 它 一 个 字符 串 “0123”， 用 户 应 该 输入 字符 串 “30 31 32 33”. RAR 
数 会 忽略 空格 字符 。 回 忆 一 下 ， 十 进 制 数字 x 的 ASCI 表示 为 0x3x。 

这 个 程序 的 典型 执行 是 这 样 的 : 

unix> ./bufbomb 

Type Hex string: 20 31 32 33 

getbuf returned 0x1 


看 看 getbuf 峭 数 的 代码 ， 看 上 去 似乎 很 明显 ， 无 论 何 时 被 调用 ， 它 都 会 返回 值 1。 看 上 去 就 好 
像 调用 getxs 没有 产生 效果 一 样 。 你 的 任务 是 ， 只 简单 地 对 提示 符 输 入 一 个 适当 的 十 六 进 制 字 符 串 ， 
就 使 getbuf X} test 返回 -559038737 (Oxdeadbeef)。 

下 面 这 些 建议 可 能 会 帮助 你 解决 这 个 问题 ; 

¢ 用 OBJDUMP 创建 bufbomb 的 一 个 反 汇 编 版 本 。 人 和 仔细 研究 ， 确 定 getbuf 的 栈 帧 是 如 何 组 织 

的 ， 以 及 溢出 的 缓冲 区 会 如 何 改 变 保存 的 程序 状态 。 

。 在 GDB 下 运行 你 的 程序 。 在 getbuf 中 设置 一 个 断 点 ， 并 运行 到 该 断 点 。 确 定 像 %ebp 的 值 
这 样 的 参数 ， 以 及 已 保存 的 当 缓 冲 区 溢出 时 会 被 覆盖 的 所 有 状态 的 值 。 

“ 手工 确定 指令 序列 的 字 节 编码 是 很 枯燥 的 ， 而 且 容 易 出 错 。 可 以 用 工具 来 完成 这 些 工 作 ， 
写 一 个 汇编 代码 文件 ， 包 含 想 要 放 入 栈 中 的 指令 和 数据 。 用 GCC 汇编 这 个 文件 ， 再 用 
OBJDUMP 反 汇 编 它 ， 就 可 以 获得 要 在 提示 符 处 输入 的 字 节 序列 了 。 当 OBJDUMP 试图 反 
汇编 你 文件 中 的 数据 时 ， 它 会 产生 一 些 看 上 去 非常 奇怪 的 指令 ， 但 是 十 六 进 制 字 节 序 列 应 
该 是 正确 的 。 

要 记 住 ， 你 的 攻击 是 非常 依赖 于 机 器 和 编译 器 的 。 当 运行 在 不 同 的 机 器 上 或 使 用 不 同 版 本 GCC 
时 ， 可 能 需要 改变 你 的 字符 串 。 
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3.39 O@¢ 
用 asm EAR SEH TS BA On F IE R A RR: 


void full_umul (unsigned x, unsigned y, unsigned dest[}); 


这 个 函数 要 计算 它 的 参数 的 全 64 位 乘积 ， 并 将 结果 存储 到 目的 数组 中 ，dest[0] 存 放 低 位 4 个 字 
W, m dest[1] 存 放 高 位 4 个 字 节 。 

3.40 $% 

fscale 指令 计算 浮 点 值 x 和 yy RK 222", RE RTZ HAR OBA Cround-toward-zero) 所 
He, HIER FSA, meee LAA. fscale 的 参数 来 自 于 浮 点 寄存 器 栈 ，x 在 %st(0) 中 ， 而 y 
在 %st(1) 中 ,。, 它 将 计算 出 来 的 值 写 入 %st(0),; 不 弹出 第 二 个 参数 。( 这 个 指令 的 实际 实现 就 是 将 RTZ(y) 
加 到 x 的 指数 。) 

用 asm 实现 一 个 盟 数 ， 它 的 原型 为 

double scale(double x, int n, double *dest); 

它 用 fscale 指令 来 计算 x.2"， 并 将 结果 保存 到 由 指针 dest 指定 的 位 置 。 扩 展 的 asm 对 IA32 & 
点 的 文 持 不 是 很 好 。 不 过 ， 在 这 种 情况 中 ， 你 可 以 从 程序 栈 中 访问 参数 。 


练习 题 答案 


练习 题 3.1 答案 
这 个 练习 使 你 熟悉 各 种 操作 数 格 式 。 


练习 题 3.2 答案 

刻 问 工程 是 一 种 理解 系统 的 好 方法 。 因 此 ， 我 们 想 要 逆转 C 编译 器 的 效果 ， 来 确定 什么 样 的 C 
代码 会 得 到 这 样 的 汇编 代码 。 最 好 的 方法 是 进行 “模拟 ”， 开 始 时 ， 值 x、y Az 本 别 在 指针 xp yp 
和 zp 指定 的 位 置 。 于 是 ， 我 们 可 以 得 到 下 面 这 样 的 效果 : 

1 movi 8(%ebp) , edi xp 


2 movl 12(%ebp),%tebx yp 
3 movl l6(%ebp),%esi zp 
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movl (%edi),%eax 

(%ebx) , edx 
movl (%esi),%ecx 
movl %eax, (%ebx) *yp =X 
movl %edx, (%es1i) *7p =y 


movl %ecx, (%edi) *xp =z 


由 此 我 们 可 以 产生 下 面 这 样 的 C 代码 : 


movl 


H ‘e | 


o o ~ c N $ 


code/asm/decode l-ans.c 
void decodel(int *xp, int *yp, int *zp) 
{ 
int tx = *xp; 
int ty = *yp; 
int tz = *zp; 


code/asm/decode | -ans.c 
练习 题 3.3 答案 


这 个 练习 说 明了 leal 指令 的 多 样 性 ， 同 时 也 让 你 练习 解读 各 种 操作 数 形式 。 注意， 虽然 在 图 3.3 
中 有 的 操作 数 格式 被 划分 为 “存储 器 ”类 型 ， 但 是 并 没有 访 存 发 生 。 


x 
+y 
y 


6 
leal 7(%eax %ļeax,8 ),%edx 


ieal: OxA(, %$ecx,4 ),%edx 10+4y 


leal Vi%teax %tecx,2 ),%edx 


练习 题 3.4 答案 
这 个 练习 使 你 有 机 会 检验 你 对 操作 数 和 算术 指令 的 理解 。 


addl tecx, (%eax) 
subl %edx, 4(%eazx) 
Sub. %edx, %eax 
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练习 题 3.5 答案 


这 个 练习 使 你 有 机 会 生成 一 点 汇编 代码 。 答 案 的 代码 是 由 GCC 生成 的 。 将 参数 n 加 载 到 寄存 
器 %ecx 中 ， 它 可 以 用 字 节 寄存 器 %cl 来 指定 sarl 指令 的 移 位 量 。 


1 movl 12(%ebp),%ecx Gein 

2 movl 8(%ebp) ,%eax Get x 

3 sall $2, %eax x<<= 2 
4 sarl %cl,%eax X>>=n 
练习 题 3.6 答案 


这 个 指令 用 来 将 寄存 器 %edx 设置 为 0， 运 用 了 对 任意 x，x^x=0 这 一 属性 。 它 对 应 于 C 语句 
i = 0。 
这 是 汇编 语言 习惯 用 法 的 一 个 示例 ， 习 惯用 法 就 是 常常 用 来 完成 特殊 目的 一 段 代码 。 认 识 这 些 
习惯 用 法 ， 是 成 为 阅读 汇编 代码 能 手 的 第 一 步 。 

练习 题 3.7 答案 

这 个 例子 要 求 你 思考 不 同 的 比较 和 set 指令 。 要 注意 的 主要 问题 是 ， 如 果 将 比较 指令 一 边 的 值 


强制 类 型 转换 成 了 unsigned， 那 么 由 于 隐 式 的 强制 类 型 转换 ， 比 较 指令 的 执行 就 好 像 两 边 都 是 无 符 
‘SRE. 


1 char ctest(int a, int b, int c) 

2 { 

3 char tl = a < b; 
4 char t2 = b< (unsigned) a; 
5 char t3 = (short) C >s (short) a; 
6 char t4 = (char) a != (char) c; 

7 char t5 = C > 

8 char t6 = a > QO; 
9 return tl + t2 + t3 + t4 + t5 + t6; 

10 } 

练习 题 3.8 答案 


这 个 练习 要 求 你 仔细 检查 反 汇编 代码 , 并 推理 出 跳 转 目标 的 编码 。 它 还 使 你 练习 了 十 六 进 制 算 术 。 
A. jbe 指令 的 目标 为 0x8048dlc + 0xda。 如 原始 反 汇编 代码 所 示 ， 这 就 是 0x8048cf8。 


8048Q1c: 76 da ibe 8048cf£8 
8048dle: eb 24 J mp 8048Q44 


B. 根据 反 汇 编 占 产生 的 注释 ， 跳 转 上 朋 标 是 在 绝对 地 址 0x8048d44。 根 据 字 节 编 码 ， 这 必须 是 在 超 
过 mov 指令 地 址 0x54 字 节 地 址 的 地 方 。 减 去 0x54 就 得 到 0x8048c 了 ， 反 汇编 代码 也 证 实 了 这 一 点 ; 

8048cee: eb 54 Jmp 8048d44 

B048cfO0: c7 45 f8 10 00 mov sO0x10, Oxfffffff8($%ebp) 


C. 日 标 是 在 相对 于 0x8048907 (nop 指令 的 地 址 ) 偏 移 量 为 000000cb 的 地 方 。 对 它们 求 和 就 得 
到 地 址 0x80489d2。 
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8048902: e9 cb 00 00 00 jmp 80489d2 
8048907: 90 nop 


D. 间接 跳 转 是 用 指令 代码 ff 25 表示 的 。 将 要 被 读 出 的 跳 转 目标 的 地 址 是 由 下 和 面 4 个 字 习 明确 
编码 的 。 因 为 机 咒 是 小 端 法 的 ， 所 以 以 反 辐 顺 序 给 出 就 是 e0 a2 04 08。 


80483f0: ff 25 e0 a2 04 jmp *0x804a2e0 
80483f5: 08 


练习 题 3.9 答案 
对 汇编 代码 写 注释 ， 以 及 模仿 它 的 控制 流 来 编写 C 代码 ， 是 理解 汇编 语言 程序 很 好 的 手段 。 本 
题 使 你 能 够 练习 一 个 具有 简单 控制 流 的 示例 。 它 还 给 你 了 一 个 检查 逻辑 操作 实现 的 机 会 。 
A. 
code/asm/simple-if.c 
void cond(int a, int *p) 
{ 
if (p == C) 
goto done; 
if (a <= 0) 
goto done; 
*D += a3 
done: 


} 


DO å o DHD OM Be WN Fr 


code/asm/simple-if.c 


B. 第 一 个 条 件 分 支 是 Il 表达 式 实现 的 一 部 分 。 如 果 对 p 为 非 空 的 测试 失败 ， 代 码 会 跳 过 对 a>0 
的 测试 。 

练习 题 3.10 答案 

编 详 循环 产生 的 代码 可 能 会 难以 分 析 ， 因 为 编译 器 会 对 循环 代码 进行 很 多 不 同 的 优化 ， 还 因为 
程序 变量 与 寄存 器 的 匹配 非常 困难 。 我 们 从 非常 简单 的 循环 开始 练习 这 种 技能 。 

A. 只 要 看 看 是 如 何 取 出 参数 的 ， 就 能 确定 寄存 器 的 使 用 。 


B. body-statement 部 分 是 由 C 代码 中 的 第 4~6 行 和 汇编 代码 中 的 第 6 一 8 行 组 成 的 。test-expr 
部 分 是 C 代码 中 的 第 7 行 。 在 汇编 代码 中 ， 它 是 由 第 9 一 14 行 的 指令 以 及 第 15 行 的 分 支 条 件 组 成 
的 。 

C. 加 了 注释 的 代码 是 这 样 的 : 


Initially x, y, and n are at offsets 8, 12, and 16 from %ebp 
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1 movl 8(%ebp),%esi Put x in %esi 

2 movil 12(%tebp),%ebx Puty in %ebx 

3 movil 16(%ebp),%ecx  Putn in %ecx 

4 .p2align 4,,7 

5 .L6: loop: 

6 imull ecx, tebx y *=n 

7 addl %tecx, %esi x+=n 

8 decl tecx n-- 

9 testl tecx, tecx Test n 

10 setg sal n>0 

11 cmpl %ecx, %ebx Compare y:n 

12 setl %dl y <an 

13 andl %edx, %eax (n>0)&(y<n) 
14 testbh $1,%al Test least significant bit 
15 jne .L6 If {= 0, goto loop 


注意 ， 测 试 表 达 式 的 实现 有 点 奇怪 。 很 明显 ， 编 译 器 认 出 两 个 判定 (n > 0) 和 Cy<n) 只 可 能 
取 值 0 或 1， 因 此 分 文 条 件 只 需 测 试 它们 AND 的 最 低 字 节 。 编 译 器 还 可 以 更 聪明 一 点 ， 用 testb 指 
邻 来 执行 AND 操作 。 


练习 题 3.11 答案 


这 个 问题 提供 了 男 外 一 种 机 会 来 练习 解读 循环 代码 。C 编译 器 做 了 一 些 有 趣 的 优化 。 
A. 看 看 参数 是 如 何 取 出 的 ， 以 及 寄存 器 是 如 何 初 始 化 的 ， 就 能 确定 寄存 器 的 使 用 。 


aA 


B. test-expr 出 现在 C 代码 的 第 5 行 ,汇编 代码 的 第 10 行 ,以 及 第 11 行 的 跳 转 条 件 。body-statement 
出 现在 C 代码 的 第 6 一 8 行 , 汇编 代码 的 第 7 一 9 行 。 编 译 器 发 现 while 循环 的 初始 测试 总 是 为 真 的 ， 
因为 i 被 初始 化 为 0， 很 明显 小 于 256. 

C. 加 了 注释 的 代码 是 这 样 的 : 


1 movl 8(%ebp) , eax Put a in %eax 

2 movl 12(%ebp) , %ebx Put b in %ebx 
3 xorl tecx, tecx i=0 

4 


movi teax, edx result =a 
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5 .p2align 4,,/7 
ain %eax, b in %ebx, i in %ecx, result in Yedx 
6 .L5: loop: 
7 addl %eax, tedx result += a 
8 subl %ebx, eax a-=b 
9 addl tebx, tecx i +=b 
10 empl $255, %ecx Compare t:255 
11 jle .L5 If <= goto loop 
12 movl %edx, eax Set result as return value 


D, 等 价 的 goto AN FEY FE: 
int loop_while goto(int a, int b) 
{ 
int i = Q; 
int result = a; 


1 

2 

3 

4 

5 loop: 
6 result += a; 
7 

8 

9 


a -= b; 
1 += b; 
if (1 <= 255) 
10 goto loop; 
11 return result; 
12 } 
练习 题 3.12 答案 


一 种 分 析 汇 编 代 码 的 方法 是 试 着 逆转 编译 过 程 ， 生 成 对 C 程序 员 来 说 看 起 来 比较 “自然 的 ”C 
人 代码。 例如， 我 们 不 想 使 用 goto 语句 ， 因 为 它 在 C 中 很 少 使 用 。 很 有 可 能 我 们 也 不 使 用 do-while 
语句 。 这 个 练习 授 使 你 将 编译 逆转 成 某 种 框架 。 它 要 求 思考 for 循环 的 翻译 。 它 还 展示 了 一 种 称 为 
代码 移动 (code motion) 的 优化 技术 ， 也 就 是 当 可 以 确定 计算 结果 在 循环 中 不 会 改变 时 ， 将 计算 从 
循环 中 拿 出 来 。 

A. 我 们 可 以 看 出 result 必须 在 寄存 器 %eax 中 。 初 始 化 时 它 被 置 为 0， 循 环 结束 时 留 在 9%eax 
中 作为 返回 值 。 我 们 可 以 看 到 i 保存 在 寄存 器 %edx 中 ， 因 为 这 个 寄存 器 是 作为 两 个 条 件 测试 的 基 
tit AX) o 

B. 第 2 一 4 行 的 指令 将 %edx 设置 成 n-1。 

C. 第 5 行 和 第 12 行 的 测试 要 求 i 非 负 。 

D. Sis i 被 指令 4 减 小 。 

E. 指令 1、6 和 7 使 得 x*y 存储 在 寄存 器 %ecx H, 

FE 下 向 是 原始 代码 : 
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int loop(int x, int y, int n) 
{ 
int result = 0; 


int i; 


result += y * x; 
} 


1 

2 

3 

4 

5 for (1 = n-l; 1 >= 0; i = i-x) { 
6 

7 

8 return result; 

9 


} 


练习 题 3.13 答案 

这 个 练习 让 你 能 够 推算 出 开关 语句 的 榨 制 流 。 回 答 这 些 问题 要 求 你 将 汇编 代码 中 的 多 处 信息 综 
合 起 来 ; 

1. 汇编 代码 的 第 2 行将 x 加 上 2， 以 将 情况 (cases) 的 下 界 设置 成 0。 这 就 意味 着 最 小 的 情况 
标号 (case lable) 4-2. 

2. 当 调 整 过 的 情况 值 大 于 6 时 ,第 3 行 和 第 4 行 会 导致 程序 跳 转 到 默认 情况 。 这 就 意味 着 最 大 
情况 标号 为 -2+6=4。 

3. 在 跳 转 表 中 ， 我 们 看 到 第 二 个 表 项 (情况 标号 -1) NAN CLIO) 与 第 4 行 的 跳 转 指令 的 目 
的 一 样 ， 表 明 这 是 默认 情况 行为 。 因 此 ， 在 开关 语句 体 中 缺失 了 情况 标号 -1。 

4. 在 跳 转 表 中 ， 我 们 看 到 第 $ 和 第 6 个 表 项 的 目的 一 样 。 这 对 应 于 情况 标号 2 和 3。 

从 上 述 推理 ， 我 们 得 到 两 个 结论 : 

A. 开关 语句 体 中 的 情况 标号 值 为 -2、0、1、2、3 和 4。 

B. 目标 为 .L8 的 情况 标号 为 2 和 3。 

练习 题 3.14 答案 

这 又 是 一 个 汇编 代码 的 习惯 用 法 。 刚 开始 , 它 看 起 来 非常 奇怪 一 一 call 指令 没有 与 之 匹配 的 ret. 
然后 我 们 就 意识 到 它 根 本 就 不 是 一 个 真正 的 过 程 调用 。 

A. %eax 被 设置 成 popl 指令 的 地 址 。 


B. 这 不 是 一 个 真正 的 子 过 程 调用 ,因为 控制 是 按照 与 指令 相同 的 顺序 进行 的 ， 而 返回 值 是 从 栈 
中 弹出 的 。 


C. 这 是 IA32 中 将 程序 计数 器 的 值 放 到 整数 寄存 器 中 的 惟一 方法 。 

练习 题 3.15 答案 

这 个 练习 使 得 对 寄存 器 使 用 规则 的 讨论 具体 化 。 寄 存 器 %edi、%esi 和 %ebx 是 被 调用 者 保存 的 。 
在 改变 它们 的 值 之 前 ， 过 程 必须 将 它们 保存 在 栈 中 ， 在 返回 之 前 ， 要 恢复 它们 。 其 他 三 个 寄存 器 是 
调用 者 保存 的 ， 改 变 它们 不 会 影响 调用 者 的 行为 。 

练习 题 3.16 答案 

能 够 推断 函数 是 如 何 使 用 栈 的 ， 是 理解 编译 器 产生 的 代码 的 关键 的 一 部 分 。 正 如 这 个 例子 说 明 
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的 那样 ， 编 译 器 分 配 了 大 量 根本 不 会 使 用 的 空间 

A. 开始 时 ，%esp 的 值 为 0x800040。 第 2 行将 这 个 值 减 了 4， 得 到 0x80003C, XR ARA T webp 
的 新 值 。 

B. 我 们 可 以 看 到 两 个 leal 指令 是 如 何 计算 要 传 给 scanf 的 参数 的 。 因 为 参数 要 以 相反 的 顺序 压 
ARP, 我们 可 以 看 到 x 位 于 相对 于 %ebp 偏 移 量 为 -4 的 地 方 ， 而 y 在 偏 移 量 为 -8 KHAT. Abe 
们 的 地 址 是 0x800038 和 0x800034。 

C. 栈 指 针 的 初始 值 为 0x800040, 第 2 行将 它 减 了 4。 第 4 行将 它 减 了 24, 而 第 5 行将 它 减 了 4。 
三 个 入 栈 指令 将 它 减 了 12， 总共 减 小 了 44。 因 此 ， 在 第 10 行 后 ，%esp 等 于 0x800014。 

D. 栈 帧 的 结构 和 内 容 如 下 : 


Ox800060 14— *abp 


Ox80003C 


0x800038 
0x800034 
0x800030 
0x80002C 
0x800028 
0x800024 


Ox800020 


Ox80001C 


0x800038 
0x800034 


Ox800018 


0x800014 


E. 0x800020~0x800033 的 字 节 地 址 没有 使 用 。 


练习 题 3.17 答案 
这 个 练习 测试 你 对 数据 大 小 和 数组 索引 的 理解 。 注 意 ， 任 何 类 型 的 指针 都 是 4 TEAK. long 
double 的 GCC 实现 用 了 12 个 字 节 来 存储 每 个 值 ， 即 使 实际 格式 只 需要 10 个 字 节 。 


Ks +21 


AT +4i 
Xe +4i 


Ay +12: 


AW +47 


练习 题 3.18 答案 


这 个 练习 是 关于 整数 数组 EE 的 练习 的 一 个 变形 。 理 解 指 针 与 指针 指向 的 对 象 之 间 的 区 别 是 很 重 
RAJ HARRA short 需要 2 个 字 节 ， 所 以 所 有 的 数组 索引 都 将 乘 以 因子 2。 前 面 我 们 用 的 是 


movl， 现 在 用 的 则 是 


MOVW o 


short * Xs +2 


short MI xs +6] 


short * Xs +21 


skort M[xs +8i+2] 


skort * Xs +2i-10 


练习 题 3.19 答案 


这 个 练习 要 求 你 完成 缩放 指令 ， 来 确定 地 址 的 计算 ， 并 县 应 用 行 优 先 索 引 的 公式 。 第 一 步 是 注 
释 汇 编 代码 ， 来 确定 如 何 计 算 地 址 引用 : 


mov i 
mov | 
leal 
leal 
subl 
add 
sall 
movl 


addl 


oO won HD WM e WwW NW FF 


8 (%ebp) ,Secx 
12(%ebp) , $eax 
0(, %eax, 4) ,Sebx 
0({,%ecx,8),%edx 
$ecx, tedx 

$ebx, eax 

$2, eax 


mat? (teax, tecx,4), %eax 
mati {Sebx, tedx,4),%eax 


程序 的 机 器 级 表示 


lea. 2(%edx) , teax 


movw 6({(%*edx), *ax 


leal (edx, *tecx,2),%eax 
movw 2(%edx, tecx, 8) ,%ax 


leal -10(*edx, tecx,2) teaxs 


5*j 
20*j 


mat2?[(20*] + 4*iy4] 
+ matl [(4*j + 28*i y4) 
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由 此 我 们 可 以 看 出 ， 对 和 矩阵 matl 的 引用 是 在 字 节 偏 移 4(7i+tj) 的 地 方 ， 而 对 和 矩阵 mat2 的 引用 是 
在 字 节 偏 移 4(Sj+i 的 地 方 。 由 此 我 们 可 以 确定 matl 有 7 列 ， 而 mat2 有 5 列 ， 得 到 M=5 和 N=7。 


练习 题 3.20 答案 
这 个 练习 要 求 你 研究 汇编 代码 ， 理 解 是 如 何 优化 它 的 。 对 提高 程序 性 能 来 说 ， 这 是 一 项 很 重要 


的 技能 。 通 过 调整 你 的 源 代 码 ， 你 可 以 影响 产生 的 机 器 代码 的 效率 。 


下 面 是 该 C 代码 的 一 个 优化 过 的 版 本 : 


255; 


1 /* Set all diagonal elements to val */ 

2 void fix set diag_opt (fix matrix A, 
3 { 

4 int *Aptr = &A[0][0] + 

5 int cnt = N-1; 

6 do { 

7 *Aptr = val; 

8 Aptr -= (N+1)}; 

9 cnt--; 


int val) 
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10 } while (cnt >= 0); 


11 } 

通过 上 下面 的 注释 可 以 看 出 它 与 汇编 代码 的 关系 : 

1 movl 12(%ebp) , tedx Get val 

2 movil 8(%ebp) , teax Get A 

3 movl $15, %¥ecx i=0 

4 addl $1020, %eax Aptr = &A[0][0] + 1020/4 
5 .p2align 4,,7 

6 .L50: loop: 

7 movl tedx, (%eax) *Aptr = val 

8 add] $-68, teax Aptr -= 68/4 

9 decl %ecx i-- 

10 jns .L5C ifi >= 0 goto loop 


请 注意 汇编 代码 是 如 何 从 数组 结尾 处 开始 并 反 向 工作 的 。 它 将 指针 减 去 68 (=17.4)， 因 为 数组 


元 素 AIi-1][-H 和 AGH ARE NH 个 元 素 。 


练习 题 3.21 答案 
这 个 练习 让 你 思考 结构 布局 ， 以 及 用 来 访问 结构 的 域 的 代码 。 该 结构 声明 是 文中 所 示例 : 子 的 一 


个 变形 。 它 表明 贱 套 的 结构 的 分 配 是 将 内 层 结 构 媒 入 到 外 层 结构 之 中 的 。 


A 结构 的 布局 图 是 这 样 的 : 
偏 移 0 4 8 12 


we (De [ee De ee 


B. 它 使 用 了 16447. 
C 同 平 时 一 样 ， 我 们 从 给 汇编 代码 加 注释 开始 : 


1 movl 8(%ebp) , teax Get sp 

2 movl 8(%eax) , tedx Get sp->s.y 

3 movil tedx, 4(%eax) Copy to sp->s.x 
4 leal 4(%eax) , tedx Get &(sp->s.x) 
5 movl %edx, (eax) Copy to sp->p 
6 movl %*eax,12(%eax) sp->next = p 


HIE, RAII AEU F CRE: 


void sp_init (struct prob *sp) 


Sp->S.x = SP->S5.y; 


SPp->p = &(SP->S.x)> 


程序 的 机 器 级 表示 21] 


Sp->next = Sp; 


} 


练习 题 3.22 SR 
这 是 一 个 很 束 手 的 问题 , 它 将 对 以 猜谜 技术 作为 逆 同 工程 的 一 部 分 的 需求 提升 到了 一 个 新 局 度 。 
它 清 蜥 地 表明 ， 联 合 是 一 种 将 多 个 名 字 《 和 类 型 ) 与 单个 存储 位 置 联 系 到 一 起 的 简单 方法 。 
A. 联合 的 布局 如 下 面 所 示 。 正 如 这 张 表 说 明 的 那样 ， 这 个 联合 既 可 以 解释 为 “el1”( 有 域 el.p 
和 el.y)， 也 可 以 解释 为 “e2”( 有 域 e2.x 和 e2.next)。 
a #4 0 4 


B. EEA T 8 AFT. 
C. 问 平 时 一 样 ， 我 们 从 给 汇编 代码 加 注释 开始 . 在 我 们 的 注释 中 ， 对 有 些 指令 ， 我 们 给 出 了 多 
个 可 能 的 解释 ， 间 时 还 指出 后 面 会 丢弃 哪 一 种 解释 。 例 如 ， 第 2 行 既 可 以 解释 成 获取 元 素 ely， 也 


可 以 解释 成 获取 元 素 e2.next。 在 第 3 17, 我 们 看 到 是 用 间接 存储 器 引用 的 方式 来 使 用 这 个 值 的 ， 所 
以 只 可 能 是 第 二 种 解释 了 、 


1 movl 8(%ebp), eax Get up 

2 movl 4(%eax),%edx  up->el.y (no) or up->e2.next 

3 movil (Sedx) ,%ecx up->e2.next->el.p or up->e2.next->e2.x (no) 
4 movl] (%eax) ,%eax up->el.p (no} or up->e2.x 

5 movl] (%ecx),%ecx *(up->e2.next->el.p) 

6 subl %teax, $ecx *(up->e2.next->el.p) - up->e2.x 

7 movil %ecx,4(%edx) Store in up->e2.next->el.y 


由 此 ， 我 们 可 以 产生 如 下 C 代码 : 


void proc (union ele *up) 


{ 


up->eZ.next-cel.y = * (up->e2.next->el.p) - up->e2.x; 
} 
练习 题 3.23 答案 


对 理解 各 种 数据 结构 需要 多 少 人 存储 ， 以 及 对 理解 编译 器 为 访问 这 些 结构 产生 的 代码 来 说 ， 理 解 
结构 布局 和 对 齐 是 非常 重要 的 。 这 个 练习 让 你 看 清楚 一 些 示例 结构 的 细节 。 


A. struct Pl { int i; char c; char d; int j; }; 
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B.struct P2 { int 1; char c; char d; int j; }; 


C. struct P3 { short w[3]; char c[3]} }; 


E. struct P3 { struct Pl a[2]; struct P2 *P }; 


练习 题 3.24 答案 


这 个 问题 履 兰 的 话 最 比较 广泛 ， 例 如 栈 帧 、 字 符 串 表示 、ASCII 码 和 字 节 顺序 。 它 说 明了 越界 
存储 器 引用 的 危险 性 ， 以 及 缓冲 区 溢出 背后 的 基本 思想 。 
A. 第 7 行 时 的 栈 。 


返回 地 址 
保存 的 $ebp 4 一 %ebp 
buf [4-7] 


buf [0-3] 


保存 的 Sesi 
保存 的 %ebx 


返回 地 址 
保存 的 《ebp #+— %ebp 


buf{4-7] 


buf {0-3} 


C. 这 个 程序 试图 返回 到 地 址 0x08048600， 低 位 字 节 被 结尾 的 空 Cull) 字符 覆盖 了 。 


程序 的 机 器 级 表示 
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D. 保存 的 寄存 器 %ebp 的 值 变 成 了 0x31303938, SÆ getline 返回 之 前 ， 将 这 个 值 加 载 到 寄存 


锅 中 。 保 存 的 其 他 寄存 器 不 受 影响 ， 因 为 它们 保存 在 栈 中 比 buf 更 低 的 地 址 上 。 


E. 对 malloc 的 调用 应 该 以 strlen(buD+1 作为 它 的 参数 ， 而 且 还 应 该 检查 返回 值 是 否 为 非 空 。 
练习 题 3.25 答案 


这 个 练习 使 你 有 机 会 试 试 3.14.2 节 中 描述 的 递归 过 程 。 


2 loadb eet (1 
| etl0) 
i load a st (1) 
ast (0) 
5 neg èst (0) 
7 load c tst (1 
èst (0) 
3 load b est (2) 
tst (1) 
ey ee ee 
9 load a st (3) 
st (2) 
*st(1) 
*st (0) 
1o multe tst (2) 
st (1) 
Cab +d so 
it divp est (1) 
èst (0) 
12 multp a-b/o--(a+b-c) vst (0) 
13 Storep x 
练习 题 3.26 答案 


下 面 这 段 代 但 与 纺 详 器 为 基于 一 个 测试 结果 从 两 个 值 中 进行 选择 产生 的 代码 相似 : 


oe 


test %*eax, teax 


jne 111 TT 
| seen 
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4 jmp LS 
5 Lil: 
7 L9: 


得 到 的 栈 顶 值 是 x?a:b。 


练习 题 3.27 答案 
由 于 它 的 关于 弹出 操作 数 的 规则 ， 以 及 参数 的 顺序 等 等 ， 浮 点 代码 非常 难处 理 。 这 个 练习 使 你 
有 机 会 完整 地 完成 一 些 特殊 情况 


1 fldi b Tb) st (0) 


2 nda Tt 
ae) ts 00) 

3 fmd Sst (2),88t Ti” 
eb) ast 10) 

1 Exch eT ase 
ee eee 

5 fdivrlc 


=- 


i [stp x 


这 段 代码 计 算 的 是 表达 式 x=a*b-c/b。 


练习 题 3.28 答案 
这 个 练习 要 求 你 考虑 浮 点 代码 中 的 各 种 操作 数 的 类 型 和 大 小 。 
code/asm/fpfunct2-ans.c 


1 double funct2(int a, double x, float b, float i) 

2 { 

3 return a/(x+b) - (1+1); 

4} 

code/asm/fpfunct2-ans.c 

练习 题 3.29 答案 
在 第 4 行 和 第 5 行 之 间 插 入 下 列 代码 ; 
1 cmpb $1,%ah Test if comparison outcome is < 
练习 题 3.30 答案 


1 int ok_smul(int x, int y, int *dest) 
2 { 


ao (nm fe fa 


程序 的 机 器 级 表示 


long long prod = (long long) x * y; 
int trunc = (int) prod; 

*dest = trunc; 

return (trunc == prod); 
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现代 微 处 理 器 可 以 称 得 上 是 人 类 创造 出 的 最 复杂 的 系统 之 一 。 一 块 手指 甲 大 小 的 硅 片 上 ， 可 以 
容纳 一 个 完整 的 高 性 能 处 理 费 和 大 的 高 速 缓存 , 以 及 用 来 连接 外 部 设备 的 逻辑 电路 。 从 性 能 上 来 说 ， 
今 大 在 一 均 心 片上 实现 的 处 理 器 已 经 使 20 年 前 价值 1000 万 美元 、 有 房间 那么 大 的 超级 计算 机 相形 
见 红 了。 凤 使 是 在 像 手 机 、 个 人 数字 助理 和 掌上 游戏 机 这 样 的 日 常设 备 中 的 时 入 式 处 理 器 ， 也 比 早 
期 计算 机 开发 者 所 能 想到 的 强大 得 多 ，。 
到 目前 为 止 ， 我 们 看 到 的 计算 机 系统 只 限于 机 器 语言 程序 级 。 我 们 知道 处 理 器 必须 执行 一 系列 
和 令 ， 每 条 指令 执行 某 个 简单 操作 ， 例 如 两 个 数 相 加 。 指 令 被 编码 为 由 一 个 或 多 个 字 节 序列 组 成 的 
二 进 制 格式 。 一 个 处 理 器 支持 的 指令 和 指令 的 字 节 级 编码 称 为 它 的 ISA Cinstruction-set architecture, 
指令 集体 系 结构 ), 不 同 的 处 理 器 “ 家族”, 例 如 Intel] IA32、IBM/Motorola PowerPC 和 Sun Microsystems 
SPARC, WADAH ISA. 一 个 程序 编译 成 在 一 种 机 器 上 运行 ， 就 不 能 在 男 一 种 机 器 上 运行 。 为 外 ， 
同一 个 家 族 早 也 有 很 多 不 同类 型 的 处 理 器 。 虽 然 每 个 厂商 制造 的 处 理 器 性 能 和 复杂 性 不 断 提 疝 ， 但 
是 不 同 的 类 型 在 ISA 级 别 上 都 保持 着 兼容 。 一 些 常 见 的 处 理 嚣 家族 《例如 IA32) 中 的 处 理 器 分 曾 由 
多 个 厂商 提供 。 因 此 ，ISA 在 编译 器 编写 者 和 处 理 器 设计 人 员 之 间 提 供 了 一 个 概念 抽象 层 ， 编 详 器 
编写 者 只 天 要 知道 允许 哪些 指令 ， 以 及 它们 是 如 何 编码 的 ;而 处 理 器 设计 者 必须 建造 出 执行 这 些 指 
令 的 处 理 器 。 
本 章 将 简要 介绍 处 理 器 硬件 的 设计 。 我 们 将 研究 一 个 硬件 系统 执行 某 种 ISA 指令 的 方式 ， 这 会 
使 你 能 更 好 地 理解 计算 机 是 如 何 工 作 的 ， 以 及 计算 机 制造 商 们 面临 的 技术 挑战 。 一 个 很 重要 的 概念 
怠 是 现代 处 理 器 的 实际 工作 方式 可 能 跟 ISA 隐 含 的 计算 模型 大 相 径 庭 。ISA 模型 看 上 去 应 该 是 顺序 
指令 执行 ， 也 就 是 先 取 出 一 条 指令 ， 等 到 它 执行 完毕 ， 再 开始 下 一 条 。 然 而 ， 与 一 个 时 刻 只 执行 一 
条 指令 相 比 ， 通 过 同时 人 处理 多 条 指令 的 不 同 部 分 ， 处 理 器 可 以 获得 较 高 的 性 能 。 为 了 保证 处 理 器 能 
得 到 同 顺序 执行 相同 的 结果 ， 人 们 采用 了 一 些 特殊 的 机 制 。 在 计算 机 科学 中 ， 用 巧妙 的 方法 在 提高 
性 能 的 同时 ， 又 保持 一 个 更 简单 、 更 抽象 模型 的 功能 的 思想 是 众所周知 的 。 在 Web 浏览 器 或 像 平 衡 
二 义 树 和 哈 希 表 这 样 的 信息 检索 数据 结构 中 使 用 缓存 ， 就 是 这 样 的 例子 。 
尔 很 可 能 永远 都 不 会 目 己 妈 计 处 理 器 。 这 和 是 专 家 们 的 任务 ， 他 们 工作 在 全 球 不 到 100 家 的 公司 
里 。 那 么 为 什么 你 还 应 该 了 解 处 理 器 设计 了 昵 ? 
© 从 智力 方面 来 说 ， 处 理 器 设计 是 非常 有 趣 的 。 学 习 处 理 器 是 怎样 工作 的 本 身 就 是 一 件 很 有 
意义 的 事情 。 而 格外 有 趣 的 事情 是 了 解 作 为 计算 机 科学 家 和 工程 师 日 常生 活 一 部 分 的 一 个 
系统 的 内 部 工作 原理 ， 特 别 是 很 多 人 都 还 不 了 解 它 。 处 理 器 设计 包括 许多 好 的 工程 实践 原 
理 。 它 需要 完成 复杂 的 任务 ， 而 结构 又 要 尽 可 能 简单 。 

。 理解 处 理 颖 是 如 何 工作 的 能 帮助 理解 整个 计 葡 机 系统 是 如 何 工作 的 。 在 第 6 章 中 ， 我 们 将 
讲述 存储 器 (memory ) 系统 以 及 用 来 创建 很 大 的 存储 器 映像 同时 又 有 快速 访问 时 间 的 技术 。 
参 芳 处 理 器 部 的 处 理 器 一 存储 器 接口 会 使 那些 讲述 更 完整 。 

© 台 然 很 少 有 人 设计 处 理 器 ， 但 是 许多 人 设计 包含 处 理 器 的 硬件 系统 。 将 处 理 器 里 入 钊 实际 
系统 中 ， 如 汽车 和 家 用 电器 ， 己 经 变 得 非常 普通 了 。 髓 入 式 系 统 的 设计 者 必须 了 解 处 理 器 
征 如 何 工 作 的 ， 因 为 这 些 系统 通常 是 在 比 果 面 系统 更 低 抽象 级 别 上 进行 设计 和 编程 的 。 

© 你 的 工作 可 能 就 是 处 理 器 设计 。 虽 然 生产 处 理 器 的 公司 很 少 ， 但 是 研究 处 理 器 的 设计 人 员 
队伍 已 经 非常 巨大 了 ， 而 且 还 在 增 大 。 一 个 主要 的 处 理 器 设计 的 各 个 方面 大 约 涉 及 到 800 
多 人 。 
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本 章 中 ， 我 们 首先 要 定义 一 个 简单 的 指令 集 ， 用 来 作为 我 们 处 理 器 实现 的 运行 示例 。 因 为 受到 
IA32 指令 集 的 忆 发 ， 而 它 又 被 称 为 “X86”， 所 以 我 们 称 我 们 的 指令 集 为 “Y86” 指 令 集 。 与 IA32 
相 比 ，Y86 指令 集 的 数据 类 型 、 指 令 和 寻 址 方式 都 要 少 一 些 ， 它 的 字 节 级 编 但 也 比较 简单 。 不 过 ， 
它 仿 然 下 够 完整 ， 能 让 我 们 写 一 些 简 单 的 处 理 束 数 的 程序 。 设 计 一 个 实现 Y86 的 处 理 器 要 求 我 们 面 
对 许多 处 理 器 设计 者 同样 会 面 对 的 问题 。 

接 下 来 我 们 会 提供 一 些 数字 人 硬件 设计 的 背景 。 我 们 会 描述 处 理 器 中 使 用 的 基本 构件 块 ， 以 及 它 
们 是 如 何 连 接 起 来 和 操作 的 。 这 些 介 绍 是 建立 在 第 2 章 对 布尔 代数 和 位 操作 的 讨论 的 基础 上 的 。 我 
们 还 将 介绍 一 种 描述 便 件 系统 控制 部 分 的 简单 语言 HCL (Hardware Control Language， 硬 件 控制 语 
言 )。 过 后 ,我 们 会 用 它 来 描述 我 们 的 处 理 器 设计 。 即 使 你 已 经 有 了 一 些 逻 辑 设计 的 背景 知识 ， 也 应 
该 读 读 这 个 部 分 以 了 解 我 们 的 特殊 符号 。 

作为 设计 处 理 器 的 第 一 步 ， 我 们 给 出 一 个 基于 顺序 操作 、 功 能 正确 但 是 有 点 不 实用 的 Y86 处 理 
器 。 这 个 处 理 器 每 个 时 钟 周期 执行 一 条 完整 的 Y86 指令 。 所 以 它 的 时 钟 必须 是 够 慢 ， 以 允许 在 一 个 
周期 内 完成 所 有 的 动作 。 这 样 一 个 处 理 器 是 可 以 实现 的 ， 但 是 它 的 性 能 远 远 低 于 相同 硬件 应 该 能 达 
到 的 性 能 。 

以 这 个 顺序 设计 为 基础 , 我 们 进行 一 些 改造 , 创建 一 个 流水 线 化 的 处 理 器 (pipelined processor). 
这 个 处 理 器 将 每 条 指令 的 执行 分 解 成 五 步 ， 每 个 步骤 由 一 个 独立 的 硬件 部 分 或 阶段 (stage ) 来 处 理 。 
指令 步 经 流水 线 的 各 个 阶段 ， 且 每 个 时 钟 周 期 有 一 条 新 指令 进入 流水 线 。 所 以 ， 处 理 器 可 以 同时 执 
行 五 条 指令 的 不 同 阶 段 。 为 了 使 这 个 处 理 器 保留 Y86 ISA 的 顺序 的 性 质 ， 就 要 求 处 理 很 多 冒险 或 冲 
X (hazard) 条 件 。 冒 险 就 是 一 条 指令 的 位 置 或 操作 数 依 束 于 其 他 仍 在 流水 线 中 的 指令 。 

我 们 设计 了 了 一些 工 具 来 研究 和 测试 我 们 的 处 理 器 设计 。 其 中 包括 Y86 的 编译 器 、 在 你 的 机 器 上 
运行 Y86 程序 的 模拟 器 ， 还 有 针对 两 个 顺序 处 理 器 设计 和 一 个 流水 线 化 处 理 器 设计 的 模拟 器 。 这 些 
设计 的 控制 逻辑 是 在 用 HCL 符号 表示 的 文件 中 描述 的 。 通 过 编辑 这 些 文 件 和 重新 编 详 模拟 器 ， 你 可 
以 改变 和 扩展 模拟 行为 。 我 们 还 提供 许多 练习 ， 包 括 实 现 新 的 指令 和 修改 机 器 处 理 指 令 的 方式 ， 还 
提供 测试 代码 以 帮助 你 评价 你 修改 的 正确 性 。 这 些 练习 将 极 大 地 帮助 你 理解 所 有 这 些 内 容 ， 也 能 使 
你 更 理解 处 理 器 设计 者 面临 的 许多 不 同 的 设计 选择 。 


4.1 Y86 指令 集体 系 结构 


如 图 4.1 所 示 ，Y86 程序 中 的 每 条 指令 都 会 读 取 或 修改 处 理 器 状态 的 某 些 部 分 。 这 称 为 程序 员 
可 见 状 态 ， 这 里 的 “程序 员 ” 既 指 用 汇编 代码 写 程序 的 人 ， 也 包括 产生 机 器 级 代码 的 编译 器 。 在 我 
们 的 处 理 器 实现 中 ， 只 要 我 们 能 保证 机 器 级 程序 能 够 访问 程序 员 可 见 状态 ， 就 不 需要 完全 按照 ISA 
隐 含 的 方式 来 表示 和 组 织 这 个 处 理 器 状态 。Y86 的 处 理 器 状态 类 似 于 IA32。 有 八 个 程序 寄存 器 : 
9oeax、%ecx、%edx、%ebx、%esi、%edi、%esp 和 %ebp， 处 理 器 每 个 程序 寄存 器 存储 一 个 字 。 寄 
Af az esp 被 入 栈 、 出 栈 、 调 用 和 返回 指令 作为 栈 指针 。 而 其 他 寄存 器 没有 固定 的 含义 或 固定 值 。 有 
二 个 一 位 的 条 件 码 : ZF、SF 和 OF， 它们 保存 着 有 关 最 近 的 算术 或 逻辑 指令 造成 影响 的 信息 。 程 序 
计数 器 (PC) 里 存放 着 当前 正在 执行 指令 的 地 址 。 存 储 器 ， 从 概念 上 来 说 就 是 一 个 很 大 的 字 节 数组 ， 
保存 着 程序 和 数据 。Y86 程序 用 虚拟 地 址 来 引用 存储 器 位 置 。 硬 件 和 操作 系统 软件 联合 起 来 将 虚拟 
地 址 翻译 成 指明 数据 实际 存在 存储 器 中 哪个 地 方 的 实际 或 物理 地 址 .我们 还 将 在 第 10 章 中 进一步 详 
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网 讨论 虚拟 存储 器 。 现 在 ， 我 们 只 认为 虚拟 存储 器 提供 给 Y86 程序 一 个 统一 的 字 节 数组 映像 ， 
程序 寄存 器 存储 器 


4.1 Y86 程序 员 可 见 状态 
同 IA32 - - 样 ，Y86 的 程序 可 以 访问 和 修改 程序 寄存 器 、 条 件 码 、 程 序 计数 器 (PC) 和 存储 器 。 


图 4.2 给 出 了 Y86 ISA 中 各 个 指令 的 简单 描述 。 这 个 指令 集 就 是 我 们 处 理 器 实现 的 目标 。Y86 
指令 集 基 本 上 是 IA32 指令 集 的 一 个 子 集 。 它 只 包括 四 字 节 整数 操作 ， 寻 址 方式 比较 少 ， 操 作 也 较 
少 。 因 为 我 们 只 有 四 字 节 数据 ， 所 以 称 之 为 “ 字 (word)”。 在 这 个 图 中 ， 左 边 是 指令 的 汇编 码 表 示 ， 
右边 是 字 节 编码 。 汇 编码 和 IA32 程序 的 GAS 表示 非常 类 似 。 

字 节 


0 
nae aT 


1 2 3 4 5 


opl rA, rB GLI 

pe Im] Boat 
ct Don 
pushl rA lolralas 
mm ET 


4.2 Y86 指令 集 
指令 编码 从 1 个 字 节 到 6 个 字 节 不 等 。 一 条 指令 含有 一 个 单字 节 的 指令 指示 符 ， 可 能 含有 一 个 单字 节 的 寄存 器 指示 符 ， 还 


可 能 含有 一 个 四 字 节 的 常数 字 。 字 段 fn 指明 是 某 个 整数 操作 (OPD 或 是 某 个 分 支 条 件 〈jXX)。 所 有 的 数值 都 用 十 六 进 制 
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下 面 是 不 同 Y86 ON ES AAT. 
© IA32 的 movil 指令 分 成 了 四 个 不 同 的 指令 : irmovl. rrmovl. mrmovl 和 rmmovl， 分 别 显 式 
地 指明 源 和 目的 的 格式 。 源 可 以 是 立即 数 (i1)、 寄 存 器 Gr) 或 存储 器 (mi)。 指 令 名 字 的 第 
一 个 学 母 束 表明 了 源 的 类 型 。 目 的 可 以 是 寄存 器 《7r) 或 仔 储 器 〈《m)。 指 令 名 字 的 第 二 个 罕 
迁 指 明了 日 的 的 类 型 。 在 决定 如 何 实现 它们 时 ， 显 式 地 指明 数据 传送 的 这 四 种 类 型 是 很 有 
帮助 的 。 
两 个 存储 髓 传送 指令 中 的 存储 器 引用 方式 是 简单 的 基 址 加 位 移 形式 。 在 地 址 计算 中 ， 
我 们 不 支持 第 二 变 扯 寄存 器 (second index register) 和 任何 寄存 器 值 的 伸缩 〈scajing )。 
同 IA32 一 样 ， 我 们 不 允许 从 一 个 存储 器 地 址 直线 传送 到 另 一 个 存储 器 地 址 。 态 外 ， 我 
们 也 不 允许 将 立即 数 传送 到 存储 器 。 
s 有 四 个 整数 操作 指令 ， 就 是 图 4.2 中 的 OPI。 它 们 是 addi, subl, andl 和 xorl。 和 它们 只 对 寄 
存 器 数据 进行 操作 ， 而 IA32 还 允许 对 存储 器 数据 进行 这 些 操作 。 这 些 指令 会 设置 一 个 条 件 
码 ZF、SF 和 OF 和 零 、 符 号 和 溢出 )。 
。 七 个 跳 转 指 令 (图 4.2 中 的 jxx) dE jmp. jle, jl, je. jne, jge 和 jj。 根据 分 支 指令 的 类 型 
和 条 件 代 码 的 设置 来 选择 分 支 。 分 支 条 件 和 IA32 FFE COLES 3.11 )。 | 
。 call 指令 将 返回 地 址 入 栈 ， 然 后 跳 到 目的 地 址 。ret 指令 从 这 样 的 过 程 调用 中 返回 。 
e pushi 和 popi 指令 实现 了 入 栈 和 出 栈 ， 就 像 在 IA32 中 一 样 。 
e halt 指令 停止 指令 的 执行 。IA32 中 有 一 个 与 之 相当 的 指令 ， 叫 hit. 1432 的 应 用 程序 不 允 
许 使 用 这 条 指令 ， 因 为 它 会 导致 整个 系统 停止 。 我 们 在 Y86 程序 中 用 halt 指令 来 停止 模拟 
做。 
图 4.2 还 给 出 了 指令 的 字 节 级 编码 ,取决 于 需要 那些 字段 ， 每 条 指令 需要 1 一 6 个 字 节 不 等 。 每 
条 指令 的 第 一 个 字 节 表明 指令 的 类 型 。 这 个 字 刷 分 为 两 个 部 分 ， 每 部 分 四 位 : 高 四 位 是 代码 (code) 
部 分 ， 低 四 位 是 功能 (function) 部 分 。 如 图 4.2 所 示 ， 人 代码 值 为 0 一 B“《〈 十 六 进 制 )。 功 能 值 只 有 在 
一 组 相关 指令 共用 一 个 代码 时 才 有 用 。 图 4.3 给 出 了 整数 操作 和 分 支 指令 的 具体 编码 。 


整数 操作 分 支 指令 
addl 
subl 
and1 


xorl 
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~i 
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图 4.3 Y86 指令 集 的 功能 码 
这 些 代码 指明 是 某 个 整数 操作 还 是 分 支 条 件 ， 这 些 指令 是 图 4.2 中 所 示 的 OPI 和 jxX. 


如 图 4.4 所 示 ， 八 个 程序 寄存 器 中 每 个 都 有 相应 的 0 一 7 的 寄存 器 标识 符 《register ID )。Y86 中 
的 寄存 器 编写 跟 IA32 中 的 相同 。 程 序 寄存 器 被 存在 CPU 中 的 一 个 寄存 器 文件 中 ， 这 个 寄存 器 文件 
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Bie Tb A. Ua Fees ID 作为 地 址 的 随机 访问 存储 器 。ID 值 8 用 于 指令 编码 中 ， 在 我 们 的 硬件 
设计 中 ， 当 需要 指明 不 应 访问 任何 寄存 器 时 ， 我 们 就 用 这 个 值 来 表示 。 


0 
1 
2 
3 
4 
5 
6 
7 
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图 4.4 Y86 程序 寄存 器 标识 符 
八 个 程序 寄存 器 中 每 个 都 有 一 个 相对 应 的 标识 符 (ID)，0~7。 如 果 指 令 中 某 个 寄存 器 字段 的 值 为 ID 8， 就 表明 此 处 没有 寄 在 
器 操作 数 。 


有 的 指令 只 有 一 个 字 节 长 ， 而 有 的 需要 操作 数 的 指令 编码 就 更 长 一 些 。 首 先 ， 可 能 有 附加 的 寄 
Atari TR (register specifier byte )， 指 定 一 个 或 两 个 寄存 器 。 在 图 4.2 中 ， 这 些 寄存 器 字段 称 
ATA 和 rB。 从 指令 的 汇编 代码 表示 中 可 以 看 到 ， 根 据 指令 类 型 ， 指 令 可 以 指定 用 于 数据 源 和 日 的 
Wartia, 或 是 用 于 地 址 计算 的 基 址 寄存 器 。 没有 寄存 器 操作 数 的 指令 , 例如 分 支 指令 和 调用 指令 ， 
吕 没 有 寄存 器 指示 符 字 节 。 那 些 只 需要 一 个 寄存 器 操作 数 的 指令 (irmovl、pushl 和 popp 将 另 一 个 
寄存 器 指示 符 设 为 8。 这 种 约定 在 我 们 的 处 理 器 实现 中 非常 有 用 。 

有 些 指令 需要 一 个 附加 的 四 字 节 常数 字 (constant word)。 这 个 字 能 作为 irmovl 的 立即 数 数据 ， 
作为 rnmovi 和 mrmovi 的 地 址 指示 符 的 位 移 量 ， 以 及 分 支 指令 和 调用 指令 的 目的 地 址 。 注 意 ， 分 支 
指令 和 调用 指令 的 目的 是 一 个 绝对 地 址 ， 而 不 像 IA32 中 那样 使 用 PC 〈 程 序 计数 器 ) 相关 的 寻 址 方 
式 。 处 理 器 使 用 PC 相关 的 寻 址 方式 ， 分 支 指令 的 编码 会 更 简洁 ， 同 时 这 样 也 能 允许 代码 从 存储 器 
的 一 部 分 拷贝 到 另 一 部 分 而 不 需要 更 新 所 有 的 分 支 日 标 地 址 。 央 为 我 们 更 关心 描述 的 简单 性 ， 所 以 
器 使 用 了 绝对 寻 址 方式 。 同 IA32 一 样 ， 所 有 整数 采用 小 端 法 〈little-endian) 编码 。 当 指令 按照 反 汇 
编 格 式 书写 时 ， 这 些 字 节 就 以 相反 的 顺序 出 现 。 

例如 ， 让 我 们 用 十 六 进 制 来 表示 指令 rmmov1l esp, 0x12345(%edx) 的 学 节 编 码 。 从 图 
4.2 我 们 可 以 看 到 ，rmmovi 的 第 一 个 字 节 为 40。 源 寄存 器 %esp 应 该 编码 放 在 ra 字段 中 ， 而 基 址 
25 FF ae Foedx 应 该 编码 放 在 rB 字段 中 。 根 据 图 4.4 中 的 寄存 器 编号 ， 我 们 得 到 寄存 器 指示 符 字 节 
42。 最 后 ， 位 移 量 编码 放 在 四 字 节 的 常数 字 中 。 首 先 在 0x12345 的 前 面 填充 上 0 变 成 4 个 字 节 ， 
变 成 字 节 序列 00 01 23 45。 写 成 按 字 节 反 序 就 是 45 23 01 00。 将 它们 都 连接 起 来 就 得 到 指令 的 编 
码 404245230100. 

指令 集 的 一 个 重要 性 质 就 是 字 节 编码 必须 有 惟一 的 解释 。 任 意 一 个 字 节 序列 要 么 是 一 个 惟一 
的 指令 序列 的 编码 ， 要 么 就 不 是 一 个 合法 的 字 节 序列 。Y86 就 具有 这 个 性 质 ， 因 为 每 条 指令 的 第 
一 个 子 厂 有 惟一 的 代码 和 功能 组 合 ， 给 定 这 个 字 节 ， 我 们 就 可 以 决定 所 有 其 他 附加 字 节 的 长 度 和 
含义 。 这 个 性 质保 证 了 处 理 器 可 以 无 三 义 性 地 执行 目标 代码 程序 。 只 要 从 序列 的 第 一 个 字 节 开始 
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处 理 ， 即 使 代码 嵌入 在 程序 中 其 他 字 节 中 ， 我 们 仍然 可 以 很 容易 地 确定 指令 序列 。 反 过 来 说 ， 如 
朱 不 知道 一 段 代码 序列 的 起 始 位 置 ， 我 们 就 不 能 准确 地 确定 怎样 将 序列 划分 成 单独 的 指令 。 对 于 
试图 下 接 从 目标 代码 字 节 序列 中 抽取 出 机 器 级 程序 的 反 汇 编程 序 和 其 他 一 些 工 具 来 说 ， 这 就 带 来 
了 问题 。 


练习 题 4.1 


确定 下 面 的 Y86 指令 序列 的 字 节 编码 。“.pos 0x100” 那 一 行 表明 这 段 目标 代码 的 起 始 地 址 应 该 
是 0x100. 


-pos 0x100 # Start generating code at address 0x100 
immovl $15, %ebx 
rrmovl %ebx,%ecx 
loop: 
rmmovl %ecx,-3 (%ebx) 
addl $ebx, Secx 
jmp loop 


练习 题 4.2 

确定 下 面 列 出 的 每 个 字 节 序列 代表 的 Y86 指令 序列 。 如 果 序 列 中 有 不 合法 的 字 节 ， 指 出 指令 序 
列 中 不 合法 值 出 现 的 位 置 。 每 个 序列 都 先 给 出 了 起 始 地 址 ， 冒 号 后 是 字 节 序列 . 

A. 0x100:3083fcffffff40630008000010 
0x200:a06880080200001030830a00000090 
0x300:50540700000000f0b018 


0x400:6113730004000010 
0x500:6362a080 
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Sit: 比较 IA32 和 Y86 的 指令 编码 

同 IA32 中 的 指令 编码 相 比 ，Y86 的 编码 简单 得 多 ， 但 是 也 没 那 么 简洁 。 在 所 有 的 Y86 指令 中 ， 
寄存 器 字段 的 位 置 都 是 固定 的 ,而 在 不 同 的 IA32 指令 中 ， 它 们 的 位 置 是 不 一 样 的 。 即 使 最 多 只 有 8 
个 寄存 器 ， 我 们 也 对 寄存 器 采用 了 4 位 编码 ，IA32 只 用 了 3 位 编码 。 所 以 IA32 能 将 入 栈 或 出 栈 指 
令 放 在 一 个 字 节 里 ，5 位 字段 表明 指令 类 型 ， 剩 下 的 3 位 是 寄存 器 指示 符 。IA32 可 以 将 常数 值 编 码 
成 1、2 或 4 个 字 节 ， 而 Y86 总 是 将 常数 值 编码 成 4 个 字 节 。 


Sit: RISC 和 CISC 指令 集 

IA32 有 时 被 称 为 “复杂 指令 集 计算 机 ”( CISC 一 一 读 作 “sisk”), 与 “精简 指令 集 计 算 机 ”( RISC 
一 一 读 作 “risk”) 相对 。 从 历史 上 看 ， 从 最 早 的 计算 机 发 展 而 来 ， 先 出 现 了 CISC 机 器 .到 20 世纪 
80 年 代 和 期， 由 于 机 器 设计 者 加 入 了 很 多 新 指令 来 支持 高 级 任务 ， 例 如 ， 处 理 循环 给 冲 区 ,执行 小 
数 计 异 ， 以 及 求 多 项 式 的 值 ， 大 型 机 和 小 型 机 的 指令 集 已 经 变 得 非常 房 大 了 。 最 早 的 微 处 理 器 出 现 
在 20 世纪 70 年 代 早期 ， 因为 当时 的 集成 电路 技术 极 大 地 制约 了 一 块 芯片 上 能 实现 些 什 么 ， 所 以 它 
们 的 指令 集 非常 有 限 。 微 处 理 器 发 展 得 很 快 ， 到 20 世纪 80 年 代 以 前 ， 大 型 机 和 小 型 机 的 指令 集 复 
条 度 一 直 都 在 增加 。80x86 KALALAR, KREJT IA32。 即 使 是 IA32 也 仍然 在 不 断 增加 新 
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的 指令 类 ， 来 支持 处 理 多 媒体 应 用 的 需要 。 

RISC 的 设计 理念 是 在 20 世纪 80 年 代 早期 作为 上 述 发 展 趋势 的 一 种 替代 发 展 起 来 的 。IBM 的 
一 组 硬件 和 编译 器 专家 受到 IBM 研究 员 John Cocke 的 很 大 影响 ， 认 为 他 们 可 以 为 更 简单 的 指令 集 
形式 产生 高 效 的 代码 。 实 际 上 ， 许 多 加 到 指令 集中 的 高 级 指令 很 难 被 编译 器 产生 ， 并 且 这 些 指令 也 
很 图 被 用 到 。 一 个 较为 简单 的 指令 集 可 以 用 很 少 的 硬件 实现 ， 能 以 高 效 的 流水 线 结构 组 织 起 来 ， 与 
本 章 后 面 描述 的 情况 很 类 似 。JIBM 直到 多 年 以 后 才 将 这 个 理念 商品 化 , 开发 出 了 Power 和 PowerPC 
ISA. 

加 州 大 学 伯克利 分 校 的 David Patterson 和 斯 坦 福 大 学 的 John Hennessy 进一步 发 展 了 RISC 的 概 
R. Patterson 将 这 种 新 的 机 器 类 型 命名 为 RISC， 而 将 以 前 的 那 种 称 为 CISC， 因 为 以 前 没有 必要 给 
一 种 几乎 是 通用 的 指令 集 格 式 起 名 字 。 

比较 CISC 和 了 最初 的 RISC 指令 集 ， 我 们 发 现下 面 这 样 一 些 一 般 特 性 。 


早期 的 RISC 


指令 数量 很 多 .Intel 描述 全 大 指令 的 文档 [193 有 700 | 指令 数量 少 得 多 。 通 常 少 于 100 个 
多 页 长 


有 些 指令 的 执行 时 间 很 长 。 包 括 将 一 个 整 块 从 存储 | 没有 较 长 执行 时 间 的 指令 。 有 些 早期 的 RISC MERERA A 
器 的 一 个 部 分 拷贝 到 另 一 部 分 的 指令 ， 以 及 其 他 一 | MRED, RBBB — A WRATH 
些 将 多 企 害 存 器 的 值 担 贝 到 存储 器 或 从 存储 器 拷贝 
BS AFA BIS 


编码 是 可 变 长 度 的 .LA32 的 指令 长 度 可 以 是 1~15 | 编码 是 固定 长 度 的 。 通常 所 有 的 指令 都 编码 为 4 个 字 节 
个 字 节 


指定 操作 数 的 方式 很 多 样 . 在 IA32 F. ABR | 简单 村 二 方式 .、 通常 只 有 菇 址 和 位 物 寻 二 
数 指示 符 可 以 有 许多 不 同 的 姐 合 , 这 些 组 合 由 位 移 、 
基 址 和 变 址 寡 存 器 以 及 伸缩 因子 组 成 


可 以 对 存储 器 和 害 存 器 操作 数 进行 算术 和 远 辑 运算 | 只 能 对 寄存 器 操作 数 进 行 算术 和 逻辑 运算 允许 使 用 A REEF] 
用 的 只 有 load 和 store RA, load 是 从 存储 器 读 到 寄存 器 ，store 
是 从 寄存 器 写 到 在 储 器 。 这 种 方法 被 称 为 load/store HASH 
对 机 器 级 程序 来 说 实现 细节 是 不 可 见 的 。ISA 提供 对 机 器 级 程序 来 说 实现 细节 是 可 见 的 。 有些 RISC 机 器 禁止 某 
了 程序 和 如 何 执行 程序 之 问 的 清晰 的 抽象 些 特殊 的 指令 序列 ， 而 有 些 跳 转 要 到 下 一 条 指令 执行 完了 以 后 
才 会 生效 .编译 器 必须 在 这 些 约 束 条 件 下 进行 性 能 优化 
条 件 码 。 作 为 指 全 执行 的 副产品 ， 设 置 了 一 些 特殊 | 没有 条 件 码 。 相反， 对 条 件 检 测 来 说 ， 要 用 明确 的 测试 指 今 ， 
的 标志 位 ， 可 以 用 来 作为 条 件 分 支 检测 这 些 指令 会 将 测试 结果 放 在 一 个 普通 的 寄存 器 中 
FAG Raa, RHA RARURRE HU | FABRE Meise. FRBMA RARURAMKHUTIN, 
地 址 址 .因此 有 些 过 程 能 完全 避免 在 储 有 器 引用 。 通 常 处 理 器 有 更 多 
的 (最 多 的 有 32 个 ) FASB 


Y86 指令 集 既 有 CISC 指令 集 的 属性 ， 也 有 RISC 指令 集 的 属性 。 和 CISC 一 样 ， 它 有 条 件 码 、 
指令 长 度 可 变 ， 以 及 栈 密集 的 过 程 链接 。 和 RISC 一 样 的 是 ， 它 采用 load/store 体系 结构 和 规则 编码 


(regular encoding). Y86 指令 集 可 以 看 成 是 采用 的 CISC 指令 集 (IA32 ), 但 又 根据 某 些 RISC 的 原 
理 进 行 了 简化 . 
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Sit: RISC 与 CISC 之 争 

贯穿 整个 20 世纪 80 年代, 计算 机 体系 结构 领域 里 关于 RISC 指令 集 和 CISC 指令 集 优 缺 点 的 争 
论 十 分 激烈 。RISC 的 支持 者 声称 在 给 定 硬件 数量 的 情况 下 ,通过 钻 合 简约 式 指 令 集 设 计 、 高 级 编译 
技术 和 流水 线 化 的 处 理 器 实现 ， 他 们 能 够 得 到 更 强 的 计算 能 力 。 而 CISC 的 拥 悉 反 了 驶 说 要 完成 一 个 
给 定 的 任务 只 需要 用 较 少 的 CISC 指令 ， 而 且 这 样 的 机 器 能 够 获得 较 高 的 总 体 性 能 . 

大 多 数 公司 都 推出 了 RISC 处 理 器 产品 ， 包 括 Sun Microsystems (SPARC). IBM 和 Motorola 
(PowerPC )， 以 及 Digital Equipment Corporation ( Alpha ). 

在 20 世纪 90 年 代 早 期 ， 争 论 逐 渐 平 息 ， 因 为 事实 已 经 很 清楚 了 ， 无 论 是 单纯 的 RISC 还 是 单 
纯 的 CISC 都 不 如 结合 两 者 思想 精华 的 设计 。RISC 机 器 发 展 进 化 的 过 程 中 ， 引 入 了 更 多 的 指令 ， 而 
许多 这 样 的 指令 都 需要 执行 多 个 周期 。 今 天 的 RISC 机 器 的 指令 表 中 有 几 百 条 指令 ， 几 乎 与 “精简 
指令 集 机 器 ”的 名 称 不 相符 了 。 那 种 将 实现 细节 暴露 给 机 器 级 程序 的 思想 已 经 被 证 明 是 短视 的 了 . 
随 着 使 用 更 加 高 级 硬件 结构 的 新 处 理 器 模型 的 开发 ， 许 多 实现 细节 已 经 变 得 很 落后 了 ， 但 它们 仍然 
是 指令 集 的 一 部 分 。 不 过 ， 作 为 RISC 设计 的 核心 的 指令 集 仍然 是 非常 适合 在 流水 线 化 的 机 器 上 执 
行 的 。 

比较 新 的 CISC 机 器 也 利用 了 高 性 能 流水 线 结构 .就 像 我 们 将 在 5.7 节 中 讨论 的 那样 ,它们 读 取 
CISC 指令 ， 并 动态 地 翻译 成 比较 简单 的 、 像 RISC 那样 的 操作 的 序列 。 例 如 ， 一 条 将 寄存 器 和 存储 
器 相 加 的 指令 被 翻译 成 三 个 操作 : 一 个 是 读 原 始 的 存储 器 值 ， 一 个 是 执行 加 法 运算 ， 第 三 就 是 将 和 
写 回 存储 器 。 由 于 动态 翻译 通常 可 以 在 实际 指令 执行 前 进行 ， 处 理 器 可 以 保持 很 高 的 执行 率 . 

除了 技术 因素 以 外 ， 市 场 因素 也 在 决定 不 同 指令 集 是 否 成 功 中 起 了 很 重要 的 作用 . 通过 保持 与 
现 有 处 理 器 的 兼容 ，Intel 以 及 IA32 使 得 从 一 代 处 理 器 迁移 到 下 一 代 变 得 很 容易 。 由 于 集成 电路 技 
本 的 进步 ，Intel 和 其 他 JIA32 处 理 器 制造 商 能 够 克服 原来 8086 指令 集 设计 造成 的 低 效率 , 使 用 RISC 
技术 产生 出 与 最 好 的 RISC 机 器 相当 的 性 能 。 在 桌面 和 便携 计算 领域 里 ，JA32 占据 了 完全 的 统治 地 
位 。 

RISC 多 理性 在 误 入 式 处 理 器 市 场 上 表现 得 非常 出 色 , 误 入 式 处 理 器 负责 控制 移动 电话 、 汽 车 得 
车 以 及 因特网 设备 等 系统 。 在 这 些 应 用 中 ， 降 低 成 本 和 功 耗 比 保持 后 向 兼容 性 更 重要 。 就 出 售 的 处 
理 嚣 数量 来 说 ， 这 是 个 非常 广阔 而 迅速 成 长 着 的 市 场 。 


图 4.5 给 出 了 下 面 这 个 C 函数 的 IA32 和 Y86 汇编 代码 : 


int Sum(int *Start, int Count) 
{ 
int sum = Q; 
while (Count) { 
Sum += *Start; 
Start++; 
Count--; 
} 


return sum; 
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IA32 代码 
int Sum/(int *Start, int Count) 
1 Sum: 
2 pushl %ebp 
3 movl %esp,%ebp 
4 movl 8(%ebp) ,%ecx ecx = Start 
5 movl 12(%ebp), %edx edx =Count 
6 xorl %eax,%eax sum =O 
7 testl tedx, tedx 
8 je .L34 
9 .L35: 
10 addl (%ecx) , teax add *Start to sum 
11 addl $4, %ecx Start++ 
12 decl %edx Count-- 
13 jnz .L35 Stop when O 
14 .L34: 


15 movl %ebp,%esp 
16 popl tebp 


1 ret 
Y86 代码 
int Sum(int *Start, int Count) 

1 Sum: 
2 pushl %ebp 
3 rrmovl %esp, %ebp 
4 mrmovl 8(%ebp}),%ecx ecx = Start 
5 mrmovl 12(%ebp),%edx edx = Count 
6 xorl %eax, eax sum =0 
7 andl %edx,%eax 
8 je End 
9 Loop: 
10 mrmovl (%ecx), %esi get *Start 
12 addl %esi,%eax add to sum 
12 irmovl $4,%ebx 
13 addl %tebx, $ecx Start++ 
14 irmovl $-1, %*ebx 
15 addl %ebx, tedx Count-- 
16 jne Loop Stop when 0 
1? End: 
18 rrmovl *ebp,%esp 
19 popl %ebp 
20 ret 


图 4.5 Y86 汇编 程序 与 132 汇编 程序 比较 


Sum 函数 计算 -个 整数 数组 的 和 。Y86 代码 与 IA32 代码 的 主要 区 别 在 于 ， 它 可 能 需要 多 条 指令 来 执行 -条 IA32 指令 所 完 
的 功能 。 
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这 段 IA32 代码 是 C 编译 器 GCC 产生 的 。Y86 代码 实质 上 是 一 样 的 , RT Y86 有 时 需要 两 条 指 
令 来 完成 IA32 一 条 指令 就 能 完成 的 事情 。 如 果 我 们 用 数组 索引 来 写 这 个 程序 ， 要 转换 成 Y86 代码 
PLA HES T, AA Y86 没有 伸缩 〈scaled) 寻 址 模式 。 
图 4.6 给 出 了 一 个 用 Y86 汇编 代码 编写 的 一 个 完整 的 程序 文件 的 例子 。 这 个 程序 既 包 括 数 据 ， 
也 包括 指令 。 命 令 (directive) 指明 应 该 将 代码 或 数据 放 在 什么 位 置 ， 以 及 如 何 对 齐 (align)。 这 个 
程序 详细 说 明了 栈 的 放置 、 数 据 初 始 化 、 程 序 初始 化 和 程序 结束 等 问题 。 
code/arch/y86-code/asum. ys 


1 # Execution begins at address 0 

2 .DOS 0 

3 init: irmovl Stack, %esp # Set up Stack pointer 
4 irmovl Stack, %ebp # Set up base pointer 
5 jmp Main # Execute main program 
6 

7 # Array of 4 elements 

8 „align 4 

9 array: .long xd 

10 „long O0xc0 

11 ,Long 0xb00 

12 . long 0xa000 

13 

14 Main: irmovl $4, %eax 

15 pushl %eax # Push 4 

16 1rmovl array, %edx 

17 pushl %edx # Push array 
18 call Sum # Sum(array, 4) 
19 halt 

20 

21 # int Sum(int *Start, int Count) 

22 Sum: pushl %ebp 

23 rrmovl %esp, ebp 

24 mrmovl 8{(%ebp),%ecx #ecx = Start 
25 mrmovl 12(%ebp),%edx #edx = Count 
26 irmovl $0, %eax # sum = O 

27 andl %tedx, %edx 

28 je End 

29 Loop: mrmovl (%ecx),%esi # get *Start 

30 addl tesi, %eax # add to sum 
31 i1rmovl s$4,%ebx # 

32 addl %ebx, %ecx # Start++ 

33 irmovl $-1,%tebx # 

34 addl %ebx, tedx # Count-- 

35 jne Loop # Stop when O 


36 ë End: popl %ebp 
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37 ret 
38 .DOS 0x100 
39 Stack: # The stack goes here 


code/arch/y86-code/asum. ys 


图 4.6 用 Y86 汇编 代码 写 的 一 个 例子 程序 
调用 Sum Pi BORIS 4 元 素数 组 的 和 。 


在 这 个 程序 中 ， 以 “.” 开 头 的 词 是 汇编 器 命令 Cassembler directives )， 它 们 告诉 汇编 器 调整 地 
址 ， 以 便 在 那儿 产生 代码 或 插入 一 些 数 据 。 命 令 .pos 0 (第 2 行 ) 告诉 汇编 器 应 该 从 地 址 0 处 开始 产 
生 代 码 。 这 个 地 址 是 所 有 Y86 程序 的 起 点 。 接 下 来 的 两 条 指令 (第 3 行 和 第 4 行 ) 初 始 化 栈 指针 和 
帧 指针 。 我 们 可 以 看 到 程序 结尾 处 〈 第 39 行 ) 声明 了 标号 Stack， 并 且 用 一 个 .pos 命令 来 指明 了 地 
hE 0x100。 因 此 我 们 的 栈 会 从 这 个 地 址 开始 ， 向 下 增长 。 

程序 的 第 8 一 12 行 声 明了 一 个 四 个 字 的 数组 , 值 分 别 为 Gxd、0xc0、0xb00 和 Oxa000。 标号 array 
表明 了 这 个 数组 的 起 始 , 并 且 在 四 字 节 边界 处 对 齐 (用 .align 命令 指定 )。 第 14 一 19 行 给 出 了 “main” 
过 程 ， 在 过 程 中 对 那个 四 个 字 的 数组 调用 了 Sum 未 数 ， 然 后 停止 。 

正如 从 例 了 看 到 的 那样 ， 用 Y86 写 程序 要 求 程序 员 完 成 本 来 通常 交 给 编 详 器 、 链 接 右 和 运行 时 
RAR TRIED. FERIRA Y86 来 写 一 些小 的 程序 ， 对 此 一 些 简 单 的 机 制 就 是 够 了 。 

图 4.7 是 一 个 我 们 称 为 YAS 的 汇编 器 对 图 4.6 中 代码 进行 汇编 的 结果 。 为 了 便于 理解 ， 汇 编 融 
的 输出 结 末 是 ASCH 码 格式 的 。 汇 编 文 件 中 ， 在 有 指令 或 数据 的 行 上 ， 且 标 代 三 包含 一 个 地 址 ， 后 
HERE 1 一 6 个 字 节 的 值 。 

code/arch/y86-code/asum.yo 

# Execution begins at address O 


| 
0x000: | .DOS 0 
Ox000: 308600010000 | init: irmovl Stack, %esp # Set up Stack pointer 
0x006: 308700010000 | irmovl Stack, %ebp # Set up base pointer 
OxO00c: 7024000000 | jmp Main # Execute main program 
| 
| # Array of 4 elements 
Ox014: | .align 4 
0x014: 0d000000 | array: . long Oxd 
0x018: c0000000 | .long 0OxcO 
Ox01lc: 000b0000 | . long 0xb09 
Ox020: 00a00000 | .long 0xa0d00 
| 
0x024: 308004000000 | Main: irmovl $4, %eax 
Ox02a: a008 | pushl %eax # Push 4 
Ox02c: 308214000000 | irmovl array, $edx 
0x032: a028 | pushl %edx # Push array 
0x034: 803a000000 | call Sum # Sum(array, 4) 
0x039: 10 | halt 
| 
| # int Sum(int *Start, int Count) 
Ox03a: a058 | Sum: pushl %ebp 
Ox03c: 2045 | 


rrmovl %esp, Sebp 


Ox03e: 
Ox044: 
Ox04a: 
0x050: 
0x052: 
0x057: 
Ox05d: 
OxO5f: 
0x065: 
0x067: 
Ox06d: 
OxO06f : 
0x074; 
0x076: 
0x190; 
0x190: 


501508000000 
50250c000000 
308000000000 
6222 
7374000000 
506100000000 
6060 
308304000000 
6031 
3083fftffffft 
6032 
7457000000 
b058 

90 
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mrmovl 8(%ebp) ,$Secx # ecx = Start 
mrmovl 12(%ebp) , tedx # edx = Count 
irmovl $0, %eax # sum = 0 


andl %tedx, %edx 


je End 
Loop: mrmovl (%ecx),%esi # get *Start 
addl tesi,%eax # add to sum 
irmovl $4, %ebx # 
addl tebx, tecx # Start++ 
irmovl $-1,%ebx # 
addl tebx, tedx # Count-- 
jne Loop # Stop when O 
End: popl %ebp 
ret 
.DOS 0x100 
Stack:  # The stack goes here 
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图 4.7 YAS 汇编 器 的 输出 


每 一 行 包含 一 个 十 六 进 制 的 地 址 ， 以 及 字 节 数 在 1 一 6 之 间 的 目标 代码 。 


我 们 实现 了 一 个 指令 集 模拟 器 ， 称 为 YIS。 用 模拟 器 运行 我 们 的 例子 的 目标 代码 ， 产 生 下 面 这 


样 的 输出 ; 


Stopped 
Changes 


eax: 
ecx: 
省 GDX : 
Sesp: 
%ebp: 
esi: 


Changes 


in 46 steps at PC = Ox3a. Exception ‘HLT’, CC Z=1 S=0 O=0 
to registers: 


0x00000000 
0x00000000 
0x00000000 
Ox00000000 
Ox00000000 
Ox00000000 
to memory: 


UXDubftO : 
OxO0f4: 
OxO0f8: 
OxO0fc: 


0x0 0000000 
Ox00000000 
Ox00000000 
0x00000000 


Ox0000abcd 
Ox00000024 
Oxffffffff 
Ox000000f8 
OCx00000100 
Ox0000a000 


0x00000100 
0x00000039 
0x00000014 
0x00000004 


模拟 器 只 打印 出 在 模拟 过 程 中 被 改变 的 寄存 器 或 存储 器 中 的 字 。 左 边 给 出 的 是 原始 值 (这 里 它 
们 都 是 0)， 右 边 的 是 最 后 的 值 。 从 输出 中 我 们 可 以 看 到 ， 寄 存 器 Weax 的 值 为 0xabcd， 即 传 给 子 函 


数 Sum 的 四 元 素数 组 的 和 。 另 外 ， 我 们 还 能 看 到 栈 从 地 址 0x100 开始 ， 向 下 增长 ， 栈 的 使 用 导致 了 
存储 器 地 址 OxfO~Oxfe 都 发 生 了 变化 。 


练习 题 4.3 
根据 下 面 的 C 代码 ， 用 Y86 代码 来 实现 一 个 递归 求 和 函数 Sum: 


int rSum(int *Start, 


{ 


int Count) 
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if (Count <= 0) 
return Q; 
return *Start + rSum(Start+1, Count-1); 
} 
在 一 台 IA32 机 器 上 编译 这 段 C 代码 ， 然 后 再 把 那些 指令 翻译 成 Y86 的 指令 ， 这 样 做 可 能 会 很 
有 帮助 。 


练习 题 4.4 

push 指令 会 把 栈 指针 减 4， 并 且 将 一 个 寄存 器 值 写 入 存储 器 中 。 当 执行 pushl wesp 指令 时 ， 处 
理 器 的 行为 是 不 确定 的 ， 因 为 要 入 栈 的 寄存器 会 被 同一 条 指令 修改 。 通常 有 两 种 约定 : OEA Desp 
的 原始 值 ; QEART 4 的 %esp 的 值 。 

让 我 们 采用 和 IA32 处 理 器 一 样 的 做 法 来 解决 这 个 问题 。 我 们 可 以 通过 阅读 Intel 关于 这 条 指令 
的 文档 来 了 解 它们 的 做 法 .但 更 简单 的 方法 是 在 实际 的 机 器 上 做 个 实验 。C 编译 器 正常 情况 下 是 不 
会 产生 这 条 指令 的 , 所 以 我 们 必须 用 手工 生成 的 汇编 代码 来 完成 这 一 任务 。 正如 3.15 节 中 讲 的 那样 ， 
在 一 个 C 程序 中 插入 少量 汇编 代码 的 最 好 方法 就 是 使 用 GCC 的 asm HH. 下面 是 我 们 写 的 一 个 测 
试 程序 。 你 会 发 现 与 其 试图 读 am 声明 ， 不 如 读 它 前 面 注 释 中 的 汇编 代码 ， 那 样 要 容易 得 多 ， 

int pushtest ( ) 

int rval; 


/* Insert the following assembly code: 
movl %esp, eax # Save stack pointer 


pushl %esp # Push stack pointer 
popl tedx # Pop it back 

subl %edx, eax # 0 or 4 

movl %eax, rval # Set as return value 


ari 
asm("movl %%esp,%%eax;pushl %%esp;popl %%edx; 
subl %%edx,%%eax;movl %%eax, %0" 
: "2r" (rval) 
ss I Input z 

: "edx", "%eax"); 

return rval; 

} 


在 我 们 的 实验 中 ,我 们 发 现 函 数 pushtest 返回 的 是 0, 这 表示 在 IA32 中 pushl 9esp 指令 的 行为 
是 志 样 的 呢 ? 


练习 题 4.5 
对 popl %esp 指令 也 有 类 似 的 歧义 。 可 以 将 9%esp 置 为 从 存储 器 中 读 出 的 值 ， 也 可 以 置 为 加 了 4 
后 的 栈 指针 . 同 对 练习 题 4.4 一 样 ， 让 我 们 做 个 实验 来 确定 IA32 机 器 是 怎么 处 理 这 条 指令 的 ， 然 后 


我 们 的 Y86 机 器 就 采用 同样 的 方法 ， 


int poptest (int tval) 
{ 
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int rval; 
/* Insert the following assembly code: 
pushl tval # Save tval on stack 


movil %esp, %edx # Save stack pointer 
popl %esp # Pop to stack pointer. 
movl %*esp,rval # Set popped value as return value 
movl %*edx,%esp # Restore original stack pointer 
*/ 
asm("pushl %1; movl %%esp,%%edx; popl %%esp; 
movl *%esp,%0; movl %%edx, *%esp" 
: ">r" (rval) 
"r" (tval) 
: "“*edx") ; 
return rval; 
} 
我 们 发 现 函 数 总 是 返回 tval， 也 就 是 传 进去 作为 参数 的 那个 值 。 这 表示 在 IA32 中 popl wesp 4 
SWAT A EEA? 还 有 什么 其 他 站 86 指令 也 应 该 有 相同 的 行为 吗 ? 


4.2 ”逻辑 设计 和 硬件 控制 语言 HCL 


在 便 件 设计 中 ， 电 子 电路 被 用 来 计算 位 的 函数 (functions on bits)， 以 及 在 各 种 存储 器 元 素 中 存 
储 位 。 大 多 数 现 代 电 路 技术 都 是 用 信和 号 线 上 的 高 电压 或 低 电 压 来 表示 不 同 的 位 值 。 通 常 的 技术 中 ， 
逻辑 1 是 用 1.0 伏特 左右 的 高 电压 表示 的 ， 而 逻辑 0 是 用 0.0 伏特 左右 的 低 电压 表示 的 。 要 实现 一 
个 数字 系统 需要 三 个 主要 的 组 成 部 分 : 计算 位 的 函数 的 组 合 逻 辑 、 存 储 位 的 存储 器 元 素 ， 以 及 控制 
存储 器 元 素 更 新 的 时 钟 信 号。 

本 市 中 ， 我 们 简要 拉 述 这 些 不 同 的 组 成 部 分 。 我 们 还 将 介绍 HCL (hardware control language, 
硬件 控制 语言 )， 我 们 用 这 种 语言 来 描述 不 同 处 理 器 设计 的 控制 逻辑 。 在 此 我 们 只 是 简略 地 描述 
HCL，HCL 完整 的 参考 请 见 附录 A。 

F: RAETH 

硬件 设计 者 曾经 描绘 示意 性 的 逻辑 电路 图 来 进行 电路 设计 (最 早 是 用 纸 和 笔画 ， 后 来 是 用 计算 
机 图 形 终端 )。 现 在， 大 多 数 设计 都 是 用 HDL 来 表达 的 。HDL 是 一 种 文本 表示 ， 看 上 去 和 编程 语言 
类 似 ， 但 是 它 是 用 来 描述 硬件 结构 而 不 是 程序 行为 的 。 最 常用 的 语言 是 Verilog, 它 的 语法 类 似 于 C, 
另 一 种 是 VHDL， 它 的 语法 类 似 于 编程 语言 Ada。 这 些 语言 本 来 都 是 用 来 表示 数字 电路 的 模拟 模型 
的 。 在 20 世纪 80 年 代 中 期 ， 研 究 者 开发 出 了 还 辑 合成 (logic synthesis) 程序 ， 它 可 以 根据 HDL 
的 描述 生成 有 效 的 电路 设计 。 现 在 出 现 了 许多 商用 的 合成 程序 ， 它 们 已 经 成 为 产生 数字 电路 的 主要 
技术 。 从 手工 设计 电路 到 合成 生成 的 转变 就 好 像 从 写 江 编程 序 到 写 高 级 语言 程序 ， 再 用 编译 器 来 产 
生机 器 代码 的 转变 一 样 。 


4.2.1 逻辑 门 
逻辑 门 是 数字 电路 的 基本 计算 元 素 。 它 们 产生 的 输出 ， 等 于 它们 输入 位 值 的 某 个 布尔 函数 。 图 
4.8 给 出 的 是 布尔 函数 AND. OR 和 NOT 的 标准 符号 ， 布 尔 操作 的 逻辑 门下 面 是 对 应 的 HCL 表达 
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式 。 正 如 你 看 到 的 那样 ， 我 们 采用 了 C 中 的 逻辑 运算 符 的 语法 ( 见 2.1.9 节 ): AND 用 及 及 表示 ，OR 
FAI AN» m NOT 用 ! 表 示 。 我 们 不 用 C 中 的 位 运算 符 &、I! 和 和 “是 因为 逻辑 门 只 对 一 个 位 进行 操作 ， 


而 不 是 整个 字 。 
oo Do ros 


输出 二 a && b 输出 =a||b 


4.8 ”逻辑 门类 型 
每 个 门 产 生 的 输出 等 上 它 输入 的 某 个 布尔 函数 。 


选 嵌 门 总 是 活动 的 (active)。 一旦 一 个 门 的 输入 变化 了 , 在 很 短 的 时 间 内 ， 输 出 就 会 相应 地 变化 。 


42.2 ”组合 电路 和 HCL 布尔 表达 式 
将 很 多 的 逻辑 门 组 合成 一 个 网 ， 我 们 就 能 得 到 计算 块 (computational block)， 即 组 合 电路 。 如 
何 组 成 这 个 网 有 陋 条 限定 : 
© 珊 个 或 多 个 逐 辑 门 的 输出 不 能 接 在 一 起 ， 和 否则 它们 可 能 会 使 线 上 的 信号 矛盾 ， 导 敏 一 个 不 
合法 的 电压 或 电路 故障 : 
© 这 个 网 必须 是 无 环 的 。 也 就 是 在 网 中 不 能 有 路 径 经 过 一 系列 的 门 而 形成 一 个 回路 ， 这 样 的 
回路 会 导致 该 网 络 的 计算 函数 有 歧义 。 
图 4.9 是 一 个 我 们 觉得 非常 有 用 的 简单 组 合 电路 的 例子 。 它 有 两 个 输入 a 和 b， 有 惟一 的 输出 
eq) “1a 和 b 都 是 1 (从 上 面 的 AND 门 可 以 看 出 ) 或 都 是 0 (从 下 面 的 AND 门 可 以 看 出 ) 时 ， 输 
出 为 1 。 用 HCL 来 写 这 个 网 的 函数 就 是 : 


bool eq = (a && b) II ( la && !b); 


图 4.7? 检测 位 相等 的 组 合 电路 


当 输 入 都 为 0 或 都 为 1 时 ， 输 出 等 于 1。 


JA BUNGE fE He MS OR CRESS bool 表明 了 这 一 点 ) 信号 eq， 它 是 输入 a 和 的 函数 。 
从 这 个 例子 可 以 看 出 HCL 使 用 了 C 风格 的 语法 ,“=” 将 一 个 信号 名 与 一 个 表达 式 联 系 起 来 。 不 过 
IC 不 一 样 ， 我们 不 把 它 看 成 执行 了 一 次 计算 并 将 结果 放 入 存储 器 中 某 个 位 置 。 相 反 ， 它 只 是 用 一 
个 名 字 来 称谓 一 个 表达 式 。 


练习 题 4.6 
写 一 个 信号 xor 的 HCL 表达 式 ，xor 就 是 异 或 ， 输 入 为 a 和 b。 信 号 xor 和 上 面 定义 的 eq 有 什 
么 关系 ? 
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图 4.10 给 出 了 另 一 个 简单 但 很 有 用 的 组 合 电 路 ， 称 为 多 路 复 用 器 (multiplexor)。 多 路 复 用 器 根 
据 输 入 控制 信和 号 的 值 ， 从 一 组 不 同 的 数据 信号 中 选 出 一 个 。 在 这 个 单个 位 的 多 路 复 用 器 中 ， 两 个 数 
据 信 号 是 输入 位 a 和 b， 控 制 信号 是 输入 位 s。 当 s 为 1 时， 输出 等 于 a; 而 当 s 为 0 时， 输出 等 于 
b。 在 这 个 电路 中 ， 我 们 可 以 看 出 两 个 AND 门 决 定 了 是 否 将 它们 相对 应 的 数据 输入 传送 到 OR |]. 
当 s 为 0 时 ， 上 面 的 AND 门将 传送 信号 b (因为 这 个 门 的 男 一 个 输入 是 !s)， 而 当 s 为 1 时 ， 下 徊 的 
AND 门将 传送 信号 a。 接 下 来 ， 我 们 来 写 输出 信号 的 HCL 表达 式 ， 使 用 的 就 是 组 合 逻 辑 中 相同 的 
操作 : 


bool out = ( s && a) || ( 's && b ); 


图 4.10 单个 位 的 多 路 复 用 器 电路 
如 果 控 制 信号 s 为 1， 则 输出 等 于 输入 a: 当 s 为 0 时 ， 输 出 等 于 输入 b。 


我 们 的 HCL 表达 式 很 清楚 地 表明 了 组 合 好 辑 电 路 和 C 中 逻辑 表达 式 的 相似 之 处 。 它 们 都 是 用 
布尔 操作 来 对 输入 进行 计算 的 函数 。 值 得 注意 的 是 ， 这 两 种 表达 计算 的 方法 之 间 有 些 区 别 : 

© 因为 组 合 电 路 是 由 一 些 逻 辑 门 组 成 的 ， 它 有 个 属性 就 是 输出 会 持续 地 响应 输入 的 变化 。 如 
果 电 路 的 输入 变化 了 ， 在 一 定 的 延迟 之 后 ， 输 出 也 会 相应 地 变化 。 相 比 之 下 ，C 表达 式 只 
会 在 程序 执行 过 程 中 被 遇 到 时 才 进 行 求 值 。 

e C 的 逻辑 表达 式 允 许 参数 是 任意 整数 , 0 表示 FALSE， 其 他 任何 值 都 表示 TRUE。 而 我 们 的 
逻辑 门 只 对 位 值 0 和 1 进行 操作 。 

© C 的 逻辑 表达 式 有 个 属性 就 是 它们 可 能 只 被 部 分 求 值 ,如果 一 个 AND 或 OR 操作 的 结果 只 用 
对 第 一 个 参数 求 值 就 能 确定 ， 那 么 就 不 用 对 第 二 个 参数 求 值 了 。 例 如 ， 这 样 一 个 C 表达 式 : 
( a && !a ) && func( b, c) 

这 里 函数 func 是 不 会 被 调用 的 ， 因 为 表达 式 ( a && la PR 0. HAA A 

求 值 这 条 规则 ， 敢 辑 门 只 是 简单 地 响应 它们 输入 的 变化 。 


4.2.3” 字 级 的 组 合 电路 和 HCL 整数 表达 式 

通过 将 逻辑 门 组 成 一 个 更 大 的 网 ， 我 们 可 以 构造 出 能 计算 更 加 复杂 函数 的 组 合 逻 辑 。 通 常 ， 我 
们 设计 了 能 对 数据 字 (data words) 进行 操作 的 电路 。 它 们 是 一 些 位 级 的 信和 号， 代表 一 个 整数 或 一 些 
控制 模式 。 例 如 ， 我 们 的 处 理 器 设计 将 包括 有 很 多 字 ， 字 的 大 小 为 4~32 位 ， 代 表 整 数 、 地 址 、 指 
令 代 码 和 寄存 器 标识 符 。 

执行 字 级 计算 的 组 合 电路 是 根据 输入 字 的 各 个 位 ,用 逻辑 门 来 计算 输出 字 的 各 个 位 ,例如 图 4.11 
中 的 一 个 组 合 电路 ， 它 测试 两 个 32 位 字 A 和 B 是 否 相等 。 也 就 是 ， 当 且 仅 当 A 的 每 一 位 都 和 了 B 的 
相应 位 相等 时 ， 输 出 才 为 1。 这 个 电路 是 用 32 个 图 4.9 中 所 示 的 那样 的 单个 位 相等 电路 实现 的 。 这 
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些 单 个 位 电路 的 输出 用 一 个 AND 门 连 起 来 ， 形 成 了 这 个 电路 的 输出 。 
A) 位 级 实现 B) 字 级 抽象 


> 四 
i> 
il 
四 


图 4.11 字 级 相等 测试 电路 
当 字 A 的 每 一 位 与 字 B 中 相应 的 位 均 相 等 时 ， 输 出 等 于 1。 字 级 相等 是 HCL 中 的 一 个 操作 。 


为 了 简化 ， 在 HCL 中 ， 我 们 将 所 有 字 级 的 信号 都 声明 为 int， 而 不 指定 字 的 大 小 。 在 特性 比较 
完善 的 硬件 摘 述 语言 中 ， 每 个 字 都 可 以 声明 有 特定 的 位 数 。HCL 允许 比较 字 是 侣 相等 ， 因 此 图 4.11 
所 示 的 电路 的 函数 可 以 在 字 级 上 表达 成 

bool Eee (4 <S ); 

这 时 参数 A AB 是 int 型 的 。 注 意 我 们 使 用 和 C 中 一 样 的 语法 习惯 ,“=” 表 示 赋 值 ， 而 “= =” 
是 相等 运算 符 。 

如 图 4.11 中 右边 所 本 的 孝 样 ， 在 画 字 级 电路 的 时 候 ， 我 们 用 中 等 粗 度 的 线 来 表示 携带 字 的 单个 
位 的 线路 ， 而 用 虚线 来 表示 布尔 信号 结果 。 


练习 题 4.7 
用 练习 题 4.6 中 的 异 或 电路 而 不 是 位 级 的 相等 电路 来 实现 一 个 字 级 的 相等 电路 . 设计 一 个 32 位 
字 的 相等 电路 需要 32 个 字 级 的 异 或 电路 ， 另 外 还 要 两 个 逐 辑 门 。 


图 4.12 给 出 的 是 字 级 的 多 路 复 用 器 电路 . 这 个 电路 根据 控制 输入 位 s, 产生 一 个 32 位 的 字 Out, 
PRAMAS A 或 者 B 中 的 一 个 。 这 个 电路 由 32 个 相同 的 子 电路 组 成 , 每 个 结构 都 类 似 于 图 4.10 
中 的 位 级 多 路 复 用 器 。 不 过 这 个 字 级 的 电路 并 没有 简单 地 复制 32 次 位 级 多 路 复 用 器 ， 它 只 产生 一 
次 Is， 然 后 在 每 个 位 的 地 方 都 重复 使 用 它 ， 从 而 减少 反 相 器 或 非 门 Cinverters) 的 数量 。 

在 我 们 的 处 理 器 中 会 用 到 很 多 种 多 路 复 用 器 。 它 使 得 我 们 能 根据 某 些 控制 条 件 ， 从 许多 源 中 选 出 
AF. A HCL 中 ， 多 路 复 用 盟 数 是 用 情况 (case) 表达 式 来 描述 的 。 情 况 表 达 式 的 通用 格式 如 下 : 

[ 

select, : exprl 
select : expr> 
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select; expr; 
l 
这 个 表达 式 包含 一 系列 的 情况 , 每 种 情况 i 都 有 一 个 布尔 表达 式 select, 和 一 个 整数 表达 式 expr, 
前 者 表明 什么 时 候 该 选择 这 种 情况 ， 后 者 指明 的 是 返回 值 。 
E C 的 开关 〈switch〉 语 句 不 同 ， 这 蛙 不 要 求 不 同 的 选择 表达 式 之 间 互 斥 。 从 远 辑 上 讲 ， 这 些 
选择 表达 式 是 顺序 求 值 的 ， 且 第 一 个 被 求 值 为 1 的 情况 会 被 选中 。 例 如， 图 4.12 中 的 字 级 多 路 复 用 
faq HCL 来 描述 就 是 : 


int Out 


[ 
A; 
B; 


Ss: 
1: 


A) 位 级 实现 B) 字 级 抽象 


int Out = [ 
Ss : A; 
I : B; 
] ; 


图 4.12 字 级 多 路 复 用 器 电路 
当 控 制 信号 s 为 1 时， 输出 会 等 于 输入 字 A， 耕 则 等 于 B。HCL 中 是 用 情况 (case) 表达 式 来 描述 多 路 复 用 器 的 。 


在 这 段 代 码 中 ， 第 二 个 选择 表达 式 就 是 1， 表 明 如 果 前 面 没 有 情况 被 选中 ， 那 就 选择 这 种 情况 。 
这 是 HCL 中 一 种 指定 默认 情况 的 方法 。 几 乎 所 有 的 情况 表达 式 都 是 以 此 结尾 的 。 

允许 不 互 斥 的 选择 表达 式 使 得 HCL 代码 的 可 读 性 更 好 。 实 际 的 硬件 多 路 复 用 器 的 信号 必须 互 
帮 ， 它 们 要 控制 哪个 输入 字 应 该 被 传送 到 输出 ， 就 像 图 4.12 中 的 信号 s 和 !s。 要 将 一 个 HCL 情况 表 
达 式 翻译 成 人 硬件， 逻辑 合成 〈logic synthesis) 程序 需要 分 析 选 择 表达 式 集 合 ， 并 解决 任何 可 能 的 冲 
突 ， 确 保 只 有 第 一 个 满足 的 情况 才 会 被 选中 。 

选择 表达 式 可 以 是 任意 的 布尔 表达 式 ， 且 有 任意 多 的 情况 (case)。 这 就 使 得 情况 表达 式 能 描述 
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带 复 洒 选择 标准 的 、 多 种 输入 信号 的 块 。 例 如 ， 考 虑 下 和 面 这 个 四 路 复 用 器 的 图 : 


MUX4 Out4 


这 个 电路 根据 控制 信号 sl 和 s0， 从 四 个 输入 字 A、B、C 和 D 中 选择 一 个 ， 这 里 用 一 个 黄 位 的 二 
进 制 数 作为 控制 信号 。 我 们 可 以 用 HCL 来 表示 这 个 电路 ， 用 布尔 表达 式 描 述 控制 位 模式 的 不 同 组 全。 


int Out4 = [ 
'sl && !s0 A; # 00 
isl : B; # 01 
! SO C # 10 
1 D # 了 了 


13 


右边 的 注释 〈 任 何以 # 开 头 到 行 尾 结束 的 文字 都 是 注释 ) 表明 了 sl 和 s0 的 什么 组 合 会 寻 致 该 种 
情况 会 被 选中 。 可 以 看 到 选择 表达 式 有 时 可 以 简化 ,因为 只 有 第 一 个 匹配 的 情况 才 会 被 选中 。 例如 ， 
第 二 个 表达 式 可 以 写成 Isl1， 而 不 用 写 得 更 完整 I!s1 && s0， 因 为 另 一 种 可 能 sl 等 于 0 已 经 出 现在 了 
第 一 个 选择 表达 式 中 了 。 

让 我 们 来 看 最 后 一 个 例子 ， 假 设 我 们 想 设 计 一 个 逻辑 电路 来 找 一 组 字 A、B 和 C 中 的 最 小 值 ， 
如 下 图 所 示 : 


C 
B Min3 
A 
H HCL 来 表达 就 是 : 
int Min3 = [ 
A <= B && A <= C : A; 
B<= A && B<=C Pl = 
1 es 
ie 
练习 题 4.8 


写 这 样 一 个 电路 的 HCL 代码 ， 对 于 输入 字 A、B 和 C， 它 选择 中 间 值 。 也 就 是 ， 输 出 等 于 三 个 
输入 中 居于 最 小 值 和 最 大 值 之 间 的 那个 字 .。 


组 合 逻 辑 电 路 可 以 设计 成 在 字 级 数据 上 执行 许多 不 同类 型 的 操作 。 具 体 的 设计 已 经 超出 了 我 们 
讨论 的 范围 。 算 本 / 遥 辑 单元 (ALU) 是 一 种 很 重要 的 组 合 电路 ， 图 4.13 是 它 的 一 个 抽象 的 图 示 。 
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这 个 电路 有 三 个 输入 : 两 个 标号 为 A 和 了 B 的 数据 输入 ， 以 及 一 个 控制 输入 。 根 据 控制 输入 的 设置 ， 
电路 会 对 数据 输入 执行 不 同 的 算术 或 逻辑 操作 。 这 个 ALU 中 画 的 四 个 操作 对 应 于 Y86 指令 集 支 持 
的 四 种 不 同 的 整数 操作 ， 而 控制 值 和 和 这些 操作 的 功能 码 相 对 应 〈 图 4.3)。 我 们 还 注意 到 减法 的 操作 
数 顺 序 ， 是 输入 A 减 去 输入 B。 之 所 以 这 样 做 ， 是 为 了 使 这 个 顺序 与 subl 指令 的 参数 顺序 一 致 。 


图 4.13 ”算术 /逻辑 单元 (ALU) 
根据 函数 输入 的 设置 ， 该 电路 会 执行 四 种 算术 和 逻辑 运算 中 的 一 种 。 


4.2.4 ”集合 关系 (Set Membership) 

在 我 们 的 处 理 右 设计 中 ， 很 多 时 候 都 需要 将 一 个 信号 与 许多 可 能 匹配 的 信和 号 做 比较 ， 以 此 来 检 
出 正在 处 理 的 茶 些 指令 代码 是 否 属 于 某 一 类 指令 代码 。 下 面 来 看 一 个 简单 的 例子 ， 我 们 想 从 一 个 两 
位 信和 与 代码 中 选择 高 位 和 低位 来 为 图 4.12 中 的 四 路 复 用 器 产生 信号 sl 和 s0， 如 下 图 所 示 : 


S1 


Out4 


PMO OD 


在 这 个 电路 中 ， 两 位 的 信号 代码 可 以 用 来 控制 对 四 个 数据 字 A、B、C 和 D 的 选择 。 根 据 可 能 
的 代码 值 ， 可 以 用 相等 测试 来 表示 信号 sl 和 s0 的 产生 : 


bool s1 = code == 2 || code == 3; 
bool s0 = code == 1 || code == 3; 


还 有 一 和 更 简洁 的 方式 来 表示 当 code 在 集合 {2, 3} 中 时 s1 为 1, 而 code 在 集合 {1L 3} HH s0 为 1: 


bool sl = code in { 2, 3 }; 
bool s0 = code in { 1, 3 }: 


判断 集合 关系 的 通用 格式 是 : 
iexpr in (iexpry, iexpr2, --.，, iexpr,} 
这 里 被 测试 的 值 iexpr 和 待 匹配 的 值 iexpr 一 iexpr 都 是 整数 表达 式 。 
4.2.5 ”存储 器 和 时 钟 控制 
组 台电 路 从 本 质 上 讲 ， 不 存储 任何 信息 。 相 反 ， 它 们 只 是 简单 地 响应 输入 信号 ， 产 生 等 于 输入 
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一 a 
的 东 个 函数 输出 。 为 了 产生 时 序 电路 ( sequential circuit ), 也 就 是 有 状态 并 且 在 这 个 状态 上 进行 计算 
的 系统 ， 我 们 必须 引入 按 位 存储 信息 的 设备 。 我 们 考虑 两 类 存储 跨 设 各 . 
。 时 钟 寄存 器 (简称 寄存 器 ) 存储 单个 位 或 字 。 时 钟 信号 控制 寄存 器 加 载 输 入 值 。 
° 随机 访问 存储 器 〈 简 称 存储 器 ) 存储 多 个 字 ， 用 地 址 来 选择 该 读 或 该 写 哪 个 字 。 随 机 访问 
存储 器 的 例子 包括 : 处 理 器 的 虚拟 存储 器 系统 ， 硬 件 和 操作 系统 软件 结合 起 来 使 处 理 器 可 
以 在 一 个 很 大 的 地 址 空间 内 访问 任意 的 字 ; 寄存 器 文件 ， 在 此 ， 寄 存 器 标识 符 作为 地 址 ， 
在 IA32 或 Y86 处 理 器 中 ， 寄 存 器 文件 有 八 个 程序 寄存 器 (heax, pecx 等 )， 
正如 我 们 看 到 的 那样 ， 在 讲 硬件 和 机 器 级 编程 时 ， 单 词 “ 寄 存 器 ”有 些 细微 的 差别 。 在 硬件 中 ， 
霖 存 器 直接 将 它 的 输入 和 输出 线 连接 到 电路 的 其 他 部 分 。 在 机 器 级 编程 中 ,寄存 器 代表 的 是 CPU 中 | 
为 数 不 多 的 可 寻 址 的 字 ， 这 里 的 地 址 是 寄存 器 ID.。 这 些 字 通常 都 存在 寄存 器 文件 中 ,虽然 我 们 会 看 
到 硬件 有 时 可 以 直接 将 一 个 字 从 一 个 指令 传送 到 另 一 个 指令 ， 以 避免 先 写 寄存 器 文件 再 读 出 来 的 迁 
途 。 备 要 避免 歧义 时 ， 我 们 会 分 别称 呼 这 两 类 寄存 器 为 “硬件 寄存 器 ”和 “程序 寄存 器 ”。 
图 4.14 给 出 了 一 个 硬件 寄存 器 ， 以 及 它 是 如 何 工 作 的 。 大 多 数 时 候 ， 寄 存 器 都 保持 在 稳定 状态 
(用 x 表示), 产生 的 输出 等 于 它 的 当前 状态 。 信 号 沿 着 寄存 器 前 面 的 组 合 逻 辑 传 播 , 这 时 ， 产 牛 了 
一 个 新 的 寄存 器 输入 (用 y 表示 ), 但 只 要 时 钟 是 低 电位 ,寄存 器 的 输出 就 仍 保持 不 变 。 当 时 钟 变 成 
两 电位 的 时 候 ， 输 入 信号 就 加 载 到 寄存 器 ， 成 为 下 一 个 状态 y， 这 个 状态 就 成 为 寄存 器 的 新 输出 ， 
下 到 下 一 个 时 钟 上 升 沿 (rising clock edge) 的 时 候 。 特 别 指出 的 是 寄存 器 被 作为 电路 不 同 部 分 中 的 
组 合 尿 辑 之 间 的 屏障 。 只 有 在 每 个 时 钟 上 升 沿 时 ， 值 才 会 从 寄存 器 的 输入 传送 到 输出 。 


ARS = x 状态 =y 


输入 = _ 
—> PEA =b ME =y 


d 


图 4.14 ”寄存 器 操作 
守 存 器 输 出 会 一 直 保 持 在 当前 寄存 器 状态 上 ， 直 到 时 钟 信号 上 升 。 当 时 钟 上 升 时 ， 寄 存 器 输入 上 的 值 会 成 为 新 的 寄存 器 状态 。 


下 面 的 图 展示 了 一 个 典型 的 寄存 器 文件 : 


valA 
ee 


_SrcA | i valW 


寄存 器 文件 Wi dstWw SWO 


该 病 口 
vaiB 


srcB 
= 


时 钟 


寄存 器 文件 有 了 两 个 读 端口 (A 和 B )， 还 有 一 个 写 端口 (W)。 这 样 一 个 多 端口 随机 访问 存储 器 
允许 同时 进行 多 个 读 和 写 操作 。 在 图 中 所 示 的 寄存 器 文件 中 ， 电 路 可 以 读 两 个 程序 寄存 器 的 值 ， 同 
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时 更 新 第 三 个 寄存 器 的 状态 。 每 个 端口 都 有 一 个 地 址 输入 ， 表 明 该 选择 哪个 程序 寄存 器 ， 另 外 还 有 
一 个 数据 输出 或 对 应 该 程序 寄存 器 的 输入 值 。 地 址 是 用 图 4.4 中 编码 表示 的 寄存 器 标识 符 。 两 个 读 
闹 口 有 地 址 输入 srcA 和 srcB (“source A” Al “source B” WAS) 和 数据 输出 vala 和 valB (“value 
A” 和 “valueB” 的 缩写 )。 写 端口 有 地 址 输入 dstW (“destination W ”的 缩写 )， 以 及 数据 输入 valW 
(“value W ”的 缩写 )。 

虽然 寄存 器 文件 不 是 组 合 电路 (因为 它 有 内 部 的 存储 ), 但 是 从 中 读 取 字 的 操作 与 以 地 址 为 输入 、 
数据 为 输出 的 一 块 组 合 逻 辑 是 一 样 的 。 当 srcA 或 srcB 被 设 成 某 个 寄存 器 ID 时 ， 在 一 段 延迟 之 后 ， 
相应 程序 寄存 器 的 值 就 会 出 现在 vala 或 valB 上 。 例 如 ， 将 sra 设 为 3， 就 会 读 程序 寄存 器 %ebx 
的 值 ， 然 后 这 个 值 就 会 出 现在 输出 valA E. 

时 钟 信 号 按照 类 似 于 将 值 加 载 进 时 钟 寄 存 器 一 样 的 方式 控制 向 寄存 器 文件 号 入 字 。 每 次 时 钟 上 
升 时 ， 输 入 valW 上 的 值 被 写 入 输入 dstW 上 的 寄存 器 ID 指示 的 程序 寄存 器 。 当 dstW 设 为 特殊 的 
ID 值 8 时 ， 不 会 写 任何 程序 寄存 器 。 


4.3 Y86 的 顺序 (sequential) 实现 


”现在 我 们 已 经 有 了 实现 Y86 处 理 器 所 需要 的 部 件 。 首 先 ,我 们 讲 一 个 称 为 SEQ( 取 的 是 “sequential” 
处 理 器 的 意思 ) 的 处 理 器 。 每 个 时 钟 周 期 上 ，SEQ 执行 用 来 处 理 一 条 完整 指令 所 需 的 所 有 步骤 。 不 过 
这 盐 要 一 个 很 长 的 时 钟 周 期 时 间 , 因此 时 钟 周期 频率 会 低 到 不 可 接受 . 我 们 开发 SEQ 的 目标 就 是 提供 
实现 我 们 最 终 目 的 的 第 一 步 ， 我 们 的 最 终 目 的 是 实现 一 个 高 效 的 、 流 水 线 化 的 处 理 器 。 


4.3.1 将 处 理 组 织 成 阶段 
通 利 ， 处 理 一 条 指令 包括 很 多 操作 。 我 们 将 它们 组 织 成 某 个 特殊 的 阶段 序列 ， 使 得 即使 指令 的 
动作 差异 很 大 ， 但 所 有 的 指令 都 遵循 统一 的 序列 。 每 一 步 的 具体 处 理 取决 于 正在 执行 的 指令 。 创 建 
这 么 一 个 框架 使 我 们 能 够 设计 一 个 能 充分 利用 硬件 的 处 理 器 。 下 面 是 关于 各 个 阶段 以 及 各 阶段 内 执 
行 操作 的 简略 描述 : 
e Hide (fetch): 取 指 阶段 从 存储 器 读 入 指令 ， 地址 为 程序 计数 器 (PC) 的 值 。 从 指令 中 抽取 
出 指令 指示 符 字 节 的 两 个 四 位 部 分 ， 称 为 iode (指令 代码 ) 和 ifun〔 指 令 功 能 )。 它 可 能 取 
出 一 个 寄存 器 指示 符 字 节 ， 指 明 一 个 或 两 个 寄存 器 操作 数 指示 符 rA 和 rB。 它 还 可 能 取出 
一 个 四 字 节 常数 字 valC。 它 按 师 序 方式 计算 当前 指令 的 下 一 条 指令 的 地 址 valP。 也 就 是 说 ， 
valP 等 于 PC 的 值 加 上 已 取出 指令 的 长 度 。 
e 解码 (decode): 解码 阶段 从 寄存 器 文件 读 入 最 多 两 个 操作 数 ， 得 到 值 vala 和 /或 valB。 通 
常 ， 它 读 入 指令 rA 和 rB 字段 指明 的 寄存 器 ， 不 过 有 些 指 令 是 读 寄存 器 %esp 的 。 
e 执行 (execute): 在 执行 阶段 ， 算 术 / 逻 辑 单元 (ALU) 要 么 执行 指令 指明 的 操作 〈 根 据 ifon 
的 值 )， 计 算 存 储 器 引用 的 有 效 地 址 ， 要 么 增加 或 减少 栈 指针 。 我 们 称 得 到 的 值 为 valE。 在 
此 ， 也 可 能 设置 条 件 码 。 对 一 条 跳 转 指令 来 说 ， 这 个 阶段 会 检验 条 件 码 和 (ifan 给 出 的 ) 
分 六 条 件 ， 看 是 不 是 应 该 选择 分 支 。 
e 访 存 (memory): 访 存 阶段 可 以 将 数据 写 入 存储 器 , 或 者 从 存储 器 读 出 数据 。 读 出 的 值 为 valM。 
e 与 回 〈write back): 写 回 阶段 最 多 可 以 写 两 个 结果 到 寄存 器 文件 。 
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eo 更 新 PC (PC update): 将 PC 设置 成 下 一 条 指令 的 地 址 。 

处 理 器 无 限制 地 循环 执行 这 些 阶段 ， 只 有 在 遇 到 halt 指令 或 一 些 错误 情况 时 ， 才 会 停 下 来 。 我 
们 处 理 的 错误 情况 包括 非法 存储 器 地 址 (程序 地 址 或 数据 地 址 )， 以 及 非法 指令 。 

从 前 面 的 讲述 可 以 看 出 , 执行 一 条 指令 是 需要 进行 很 多 处 理 的 。 不 仅 要 执行 指令 所 表明 的 操作 ， 
还 要 计算 地 址 、 更 新 栈 指针 ， 以 及 确定 下 一 条 指令 的 地 址 。 幸 好 每 条 指令 的 整个 流程 都 比较 相似 。 
因为 我 们 想 使 硬件 数量 尽 可 能 的 少 ， 并 且 最 终 将 把 它 映射 到 一 个 二 维 的 集成 电路 心 片 的 表面 ， 一 个 
非常 简单 而 一 致 的 结构 是 非常 重要 的 。 降 低 复杂 度 的 一 种 方法 是 让 不 同 的 指令 共享 尽量 多 的 硬件 。 
例如 ， 我 们 的 每 个 处 理 器 设计 都 只 含有 一 个 算术 /逻辑 单元 ， 根 据 所 执行 的 指令 类 型 的 不 同 ， 它 的 使 
用 方式 也 不 同 。 在 硬件 上 复制 还 辑 块 的 成 本 比 软件 中 有 重复 代码 的 成 本 大 得 多 ， 而 且 在 硬件 系统 中 
处 理 许多 特殊 情况 和 特性 要 比 用 软件 来 处 理 困 难得 多 。 

我 们 面临 的 一 个 挑战 是 将 每 条 不 同 指令 所 需要 的 计算 放 入 到 上 述 那 个 通用 框架 中 。 我 们 会 使 用 图 
4.15 中 所 示 的 代码 来 描述 不 同 Y86 指令 的 处 理 。 图 4.16 一 图 4.19 中 的 表 描 述 了 不 同 Y86 指令 在 各 个 
阶段 是 怎样 处 理 的 。 要 好 好 研究 一 下 这 些 表 ， 表 中 的 这 种 格式 很 容易 映射 到 硬件 。 这 些 表 中 的 每 一 行 
都 描述 了 一 个 信号 或 存储 状态 的 分 配 〈 用 分 配 操作 所 来 表示 )。 阅 读 时 可 以 把 它 看 成 是 从 上 全 下 的 顺 
序 求 值 。 后 面 我 们 将 这 些 计算 映射 到 硬件 时 ， 会 发 现 其 实 并 不 需要 严格 按照 顺序 来 执行 这 些 求 值 。 


1 0x000: 308209000000 | irmovl $9, %edx 

2 0x006: 308315000000 | irmovl $21, %ebx 

3 Ox00c: 6123 | subi %edx, %ebx # subtract 

4 Ox00e: 308480000000 | irmovl $128, %esp # Practice Prob. 4.9 
5 0x014: 404364000000 | rnmovl %esp, 100(%ebx) # store 

6 OxOla: a028 | pushl %edx # push 

7 OxOlc: b008 | popl %eax # Practice Prob. 4.10 
8 0x01e: 7328000000 | je done # Not taken 

9 0x023: 8029000000 | call proc # Practice Prob. 4.13 
10 0x028: | done: 

11 0x028: 10 | halt 

12 0x029: | proc: 

13 0x029; 90 | ret # Return 


M415 Y86 指令 序列 示例 
我 们 会 通过 各 个 阶段 来 跟踪 这 些 指令 的 处 理 。 


图 4.16 给 出 了 OPI (整数 和 逻辑 运算 )、rrmovl (寄存 器 -寄存 器 传送 ) 和 irmovl (立即 数 -寄存 
WIRA) 类 型 的 指令 所 需 的 处 理 。 让 我 们 先 来 考虑 一 下 整数 操作 。 回 顾 图 4.2， 可 以 看 到 我 们 小 心 
地 选择 了 指令 编码 ， 这 样 四 个 整数 操作 (addl、subl、andl 和 xor) 有 着 相同 的 icode 值 。 我 们 可 以 
以 相同 的 步骤 顺序 来 处 理 它 们 ， 除 了 ALU 计算 必须 根据 ifun 中 编码 的 具体 的 指令 操作 来 设 定 。 

整数 操作 指令 的 处 理 遵循 上 面 列 出 的 通用 模式 。 在 取 指 阶段 ， 我们 不 需要 常数 字 ， 所 以 valP 的 
计算 就 是 PC + 2。 在 解码 阶段 ， 我 们 要 读 两 个 操作 数 。 在 执行 阶段 ， 它 们 和 功能 指示 符 ifun 一 起 再 
提供 给 ALU， 然 后 valE 内 放 入 指令 结果 。 这 个 计算 是 用 表达 式 valB OP vala 来 表达 的 ， 这 里 OP 
代表 ifun 指定 的 操作 。 要 注意 两 个 参数 的 顺序 一 一 这 个 顺序 与 Y86 (和 IA32) 的 习惯 是 一 致 的 。 例 
W, S subl %eax, 9%edx， 计 算 的 是 R[%edx} - R[ 和 eaxj 的 值 。 这 些 指令 在 访 存 阶段 什么 也 不 做 ， 而 
在 号 回 阶段 ，valE 被 写 入 寄存 器 rTB， 然 后 PC 设 为 valP， 整 个 指令 的 执行 就 结束 了 。 
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icode:ifun 一 M,[PC] icode:ifun 一 M,(PC] 
rA:rB 一 Mi[PC+1] mA:rB — M,[PC+1] 
valC + M,{PC+2] 
valP — PC+2 valP 一 PC+6 


valA — RirA] 
valA + RIrA} 
vaiB = RIrB] 


icode:ifun «+ M,[PC] 
rA:rB — M,[PC+1} 


-— valB OP valA 
valE — va va valE = O+valA valE 一 O+valC 
Set <a 


es ~ valE a - valE am — valE 
PC ~ valP PC ~ valP 


图 4.16 Y86 指令 OPI. mmovl 和 irmovl 在 顺序 实现 中 的 计算 
这 上 旦 指令 计算 了 一 个 值 ， 并 将 结果 存放 在 寄存 器 中 。 符 号 icode:ifun 表明 指令 字 节 的 两 个 组 成 部 分 ， 而 rA:rB 表明 寄存 器 指示 
付 字 节 的 两 个 组 成 部 分 。 符 号 Mi[x] 表 示 访 问 〈 读 或 者 写 ) 存储 器 位 置 x 处 的 一 个 字 节 ， 而 Ms[x] 表 示 访 问 四 个 字 节 。 


Sit: 跟踪 subl 指令 的 执行 

作为 一 个 例子 ,让 我 们 来 看 看 一 条 subl 指令 的 处 理 过 程 , 这 条 指令 是 图 4.15 所 示 目 标 代码 的 第 
3 行 中 的 subl 指令 。 我 们 可 以 看 到 前 面 两 条 指令 分 别 将 寄存 器 Wedx 和 %ebx 初始 化 成 9 和 2. 还 能 
看 到 指令 是 位 于 地 址 0x00c， 有 两 个 字 节 ， 值 分 别 为 0x61 F 0x23. 这 条 指令 的 处 理 如 下 图 所 示 ， 左 
边 列 出 了 处 理 一 个 OPI 指令 的 通用 的 规则 (图 4.16 )， 而 者 边 列 出 的 是 对 这 条 指令 的 计算 . 


me H OP1 rA,rB subi %tedx, %tedx 


lcode:ifun 一 M,[PC] icode:ifun 一 Mi[0x00c]=6:1 
rA:rB 一 M,[PC+1] rA:rB 一 Mi[Cx00G]j=2 :3 


valP ~ 一 PC+2 valP — 0x00c+2=0x00e 
AS valA — RIrA] valA 一 an 
valE — valB OP valA val + 21-9=12 


更 新 PC PC ~ valP PC < valP=0x00e 


就 像 这 个 记录 表明 的 那样 ， 我 们 达到 了 理想 的 目标 ， 害 存 器 %ebx HAT 12， 三 个 条 件 码 都 设 
成 了 0， 而 PC 加 了 2, 


执行 rrmovl 指令 和 执行 算术 运算 类 似 。 不 过 ， 不 需要 取 第 二 个 寄存 器 操作 数 。 我 们 将 ALU 的 
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第 二 个 输入 设 为 0， 先 把 它 和 第 一 个 操作 数 相 加 ， 得 到 valE = valA， 然后 骨 把 这 个 值 写 到 寄存 器 文 
件 。 对 irmovl 的 处 理 与 此 类 似 ,除了 ALU 的 第 一 个 输入 为 常数 值 valc. 万 外 ， 因 为 是 长 指令 格式 ， 
对 于 irmov1， 程 序 计 数 器 必须 加 6。 所 有 这 些 指 令 都 不 改变 条 件 友 。 

练习 题 4.9 

填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4.15 中 目标 代码 第 4 行 上 的 irmovl 指令 的 处 理 情 况 : 
阶段 
icode:ifun 一 M,[PC} 
(ArB 一 M,[PC+1] 


valC — M.[PC+2] 
valP — PC+6 


这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 


图 4.17 给 出 了 存储 器 读 写 指令 rnmovi 和 mrmovl] 所 需要 的 处 理 。 基本 流程 也 和 前 面 一 样 ， 不 
过 是 用 ALU 来 加 valC 和 valB， 得 到 存储 器 操作 的 有 效 地 址 (位 移 量 与 基 址 寄存 器 值 之 和 )。 在 访 
仔 阶 段 ， 会 将 寄存 器 值 valA 写 到 存储 器 ， 或 者 从 存储 器 中 读 出 valM。 


mrmovl D(rB), rA 


icode:ifun 一 M,[PC] 
rA: 中 一 M,[PC+1] 


rA:rB — Mi[PC+1] 
valC 一 M4[PC+2] valC + M4[PC+2] 
valP 一 PC+6 valP — PC+6 


valA — RIrA] 
vaiB — R[IrB] 
valB 一 RIrB] 
valE + valB+valC valE + valB+valC 
更 新 PC PC + valP PC — vaP 


图 4.17 Y86 指令 rmmovl 和 mrmovl 在 顺序 实现 中 的 计算 
这 些 指令 读 或 者 写 存 储 器 。 
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Sit: 跟踪 rmmovl 指令 的 执行 
让 我 们 来 看 看 图 4.15 中 目标 代码 的 第 $ 行 上 rmmov] 指令 的 处 理 情况 . 可 以 看 到 ， 前 面 的 指 今 
已 将 寄存 器 %esp 初始 化 成 了 128， 而 9oebx 仍然 是 subl 指令 ( 第 三 行 ) 算出 来 的 结果 12. 我 们 可 以 
看 到 ， 指 令 位 于 地 址 0x014， 有 六 个 字 节 。 前 两 个 的 值 为 0x40 和 0x43， 后 四 个 是 数字 0x00000064 
(十 进 制 数 100) 按 字 节 反 过 来 得 到 的 数 。 各 个 阶段 的 处 理 如 下 : 


阶段 
rmmovl rA, D(rB) 
lcode:ifun 一 M,[PC] 


icode:ifun + Mi[Dx014]=4:0 
rA:rB 一 Mi[PC+1] ITA: 吧 一 Mi[0x015]=4:3 
valC — MOx016]=100 
valP + 0x014+6=0x01a 


解码 valA — RfrA] valA + R[$espł128 
valB = RI[rB] valB + R[%ebxj=12 
valE + valB + valC valE + 12+100=112 


wel Miva} vata ta] i | 
be 
就 像 这 个 记录 表明 的 那样 ， 这 条 指令 的 殴 果 就 是 将 128 写 入 存储 器 地 址 112. 并 将 PC 加 6. 


图 4.18 给 出 了 处 理 pushl 和 pop 指令 所 需 的 步骤 。 它们 可 以 算是 最 难 实现 的 Y86 指令 了 ， 因 为 
它们 既 涉 及 到 访问 存储 器 ， 又 要 增加 或 减少 栈 指针 。 虽 然 这 两 条 指令 的 流程 比较 相似 ， 但 是 它们 还 


古 有 很 重要 的 区 别 的 。 


icode:ifun — M,[PC} 
rA:rB 一 M,[PC+1] 


icode:ifun 一 M,[PC] 
rA:rB 一 M,[PC+1] 


valC + PC+2 valP 一 PC+2 


valB — R[sesp] valB 一 R[$esp] 


valE 一 valB+(-4) valE 一 valB+4 
M,[valE] 一 valA valM — M,{valA] 


R[$esp] — valE R[tesp] 一 valE 
RIrA] — valM 


4.18 Y86 指令 pushl 和 pop! 在 顺序 实现 中 的 计算 
这 些 指令 将 值 压 入 或 弹出 栈 。 
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pushl 指令 开始 时 很 像 我 们 前 面 讲 过 的 指令 ， 但 是 在 解码 阶段 ， 是 用 mesp 作为 第 二 个 寄存 器 操 
作 数 的 标识 符 ， 将 栈 指针 赋值 为 valB 。 在 执行 阶段 ， 用 ALU 将 栈 指针 减 4。 减 过 4 的 值 就 是 存储 器 
写 的 地 址 ， 在 写 回 阶段 还 会 存 回 到 9%esp 中 。 将 valE 作为 写 操作 的 地 址 ， 是 遵循 了 Y86 (和 1A32) 
的 惯例 ， 也 就 是 在 写 之 前 ，pushl 应 该 先 将 栈 指 针 减 去 4， 即使 栈 指针 的 更 新 实际 上 是 在 存储 器 操作 
完成 之 后 才 进 行 的 。 


Sit: 跟踪 pushl 指令 的 执行 
让 我 们 来 看 看 图 4.15 中 目标 代码 的 第 6 行 上 rmmovj 指令 的 处 理 情况 . 此 时 ， 寄存器 gedx 的 值 
为 9， 而 寄存 器 Yesp 的 值 为 128。 我 们 还 可 以 看 到 指令 是 位 于 地 址 0x01a， 有 两 个 字 节 ， 值 分 别 为 


0xa0 和 0x28。 各 个 阶段 的 处 理 如 下 : 


ma 
pushi rA pushl %edx 


icode:ifun 一 M,[PC] icode:ifun 一 MI[0x00c]=a:0 
rA:rB 一 M,[PC+1] rA:rB 一 M,[0x01d]=2:8 


valP — PC+2 valP — 0x01a+2=0x0ic 
解码 valA ~ RIrA] valA — Rlsedxj=9 
valB 一 Ri[tesp] valB — Ri[tesp}=128 
执行 valE 一 valB+(-4) valE — 128+(-4) =124 
存 


FT 


就 像 这 个 记录 表明 的 那样 ， 这 条 指 今 的 效果 就 是 将 %esp 设 为 124, 将 9 写 入 地 址 124, 并 将 PC 
加 2. 


访 


pop] 指令 的 执行 与 pushl 的 执行 类 似 ， 除 了 在 解码 阶段 要 读 两 次 栈 指针 以 外 。 这 样 做 看 上 去 是 
很 多 余 ， 但 是 我 们 会 看 到 让 vala 和 valB 都 存放 栈 指针 的 值 ， 会 使 后 面 的 流程 跟 其 他 的 指令 更 相似 ， 
增强 了 设计 的 整体 一 致 性 。 在 执行 阶段 , 用 ALU 给 栈 指 针 加 4, 但 是 用 没 加 过 4 的 原始 值 作为 存储 
走 操 作 的 地 址 。 在 写 回 阶段 ， 要 用 加 过 4 的 栈 指针 更 新 栈 指针 寄存 器 ， 还 归 将 冠 存 器 rA 更 新 为 从 
仓储 器 中 读 出 的 值 。 用 没 加 过 4 的 值 作为 存储 器 读 地 址 ， 保 持 了 Y86 (和 IA32) 的 惯例 ，popl 应 该 
自 先 读 存储 器 ， 然 后 再 增加 栈 指针 。 


练习 题 4.10 
填写 下 表 的 右边 一 栏 ， 这 个 表 描述 的 是 图 4.15 中 目 标 代 码 第 7 行 上 的 popl 指令 的 处 理 情况 : 
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mre 


取 指 icode:ifun 一 Mi[PC] 
rA:rB 一 Mi[PC+1] 
valP + PC+2 


s valA 一 R[sesp] 
valB 一 R[sesp] 

执行 

访 存 

写 回 


a oaii E 
a [emewa | 
PR[sespl 一 valE 
RIrB] 一 valM 
mr [rm | 
这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 
练习 题 4.11 
根据 图 4.18 中 列 出 的 步骤 ， 指 令 pushl wesp 会 有 什么 样 的 效果 ? 这 与 练习 题 4.4 中 确定 的 Y86 
期 望 的 行为 一 致 吗 ? 
练习 题 4.12 
假设 pop 在 写 回 阶段 中 的 两 个 寄存 器 写 操作 按照 图 4.18 列 出 的 顺序 进行 . popl %esp 执行 的 效 
果 会 是 怎样 的 ?这 与 练习 题 4.5 中 确定 的 Y86 期 望 的 行为 一 致 吗 ? 


图 4.19 表明 了 我 们 的 三 类 控制 转移 指令 的 处 理 : 各 种 跳 转 、call 和 ret, 可 以 看 到 ， 我 们 能 用 同 
前 和 面 指令 一 样 的 整体 流程 来 实现 这 些 指 令 。 


icode:ifun — M,[PC] 


icode:lfun 一 M,[PC] icode:ifun 一 M,[PC] 


valC + M,[PC+1] 
vaP — PC+5 


valC 一 M,[PC+1] 
valP 一 PC+5 


valP — PC+1 
val + Rf[Sesp] 
valB — RAltesp] valB — R[tesp] 


valE 一 valB+(-4) E wees 
< 一 ValB+ 
Bch + Cond(CC, ifun) 


M,[valE] + valP valM 一 M,[valA} 


PC — valC PC 一 valM 


图 4.1? Y86 指令 jxx、call 和 ret 在 顺序 实现 中 的 计算 


这 些 指令 导致 控制 转移 。 
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同 对 整数 操作 一 样 ， 我 们 能 够 以 一 种 统一 的 方式 处 理 所 有 的 跳 转 指令 。 因 为 它们 的 不 同人 只 在 于 
判断 是 否 要 选择 分 支 的 时 候 。 跳 转 指令 在 取 指 和 解码 阶段 都 和 前 面 讲 的 其 他 指令 类 似 ， 除 了 它 不 南 
要 寄存 器 指示 符 字 节 以 外 。 在 执行 阶段 ， 我 们 检查 条 件 码 和 跳 转 条 件 来 确定 是 否 要 选择 分 支 ， 产 生 
出 一 个 一 位 信号 Bch。 在 更 新 PC 阶段 ， 我 们 检查 这 个 标志 ， 如 果 这 个 标志 为 1， 就 将 PC 设 为 valC 
( 跳 转 目标 )， 如 果 为 0， 就 设 为 valP (下 一 条 指令 的 地 址 )。 我 们 的 表示 xab KRAF C 中 的 条 件 
#IAT—4xdESn, CSFa, 4x ASH, ST bo 


cE: 跟踪 je 指令 的 执行 

让 我 们 来 看 看 图 4.15 中 目标 代码 的 第 8 行 上 je 指令 的 处 理 情 况 。subl 指令 (第 3 行 ) 已 经 将 所 
有 的 条 件 码 都 置 为 了 0， 所 以 不 会 选择 分 支 。 该 指令 位 于 地 址 0x01e， 有 5 个 字 节 。 弟 一 个 字 节 的 值 
为 0x73， 而 剩 下 的 四 个 字 节 是 数字 0x00000028 按 字 节 反 过 来 得 到 的 教 ， 也 就 是 跳 转 的 目标 。 各 个 
阶段 的 处 理 如 下 : 


valC + Ms[PC+1] valC + M4[0x01f]=0x028 
valP < 一 PC+5 valP — 0x01e+5-0x023 


更 新 PC PC ~ Bch? valC:valP | PC — 020x028:0x023 = 0x023 


就 像 这 个 记录 表明 的 那样 ， 这 条 指令 的 效果 就 是 将 PC 加 5。 


指令 call 和 ret 与 指令 pushl 和 pop! 类 似 ， 除 了 要 将 程序 计数 器 的 值 入 栈 和 出 栈 以 外 。 对 指令 
call， 我 们 要 将 vaP, ERE call 指令 后 紧 跟 着 的 那 条 指令 的 地 址 ， 压 入 栈 中 。 在 更 新 PC 阶段 ， 将 


PC 设 为 valC， 也 就 是 调用 的 目的 地 。 对 指令 ret, 在 更 新 PC 阶段 ， 我们 将 valIM， 从 栈 中 取出 的 值 ， 
赋值 给 PC. 


练习 题 4.13 
填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4.15 中 目标 代码 第 9 行 上 的 call 指令 的 处 理 情 况 : 
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ra 


Rik icode:ifun 一 M,[PC] 
valC soi M,[PC+1] 
valP — PC+5 


这 条 指令 的 执行 会 怎样 改变 寄存 器 、PC 和 存储 器 呢 ? 


Sit: RE ret 指令 的 执行 

让 我 们 来 看 看 图 4.15 中 目标 代码 的 第 13 行 上 ret 指令 的 处 理 情况 。 指 令 的 地 址 是 0x029， 只 有 
一 个 字 节 的 编码 ，0x90。 前 面 的 call 指令 将 Wesp 置 为 了 124， 并 将 返回 地 址 0x028 存放 在 了 存储 器 
地 址 124。 各 个 阶段 的 处 理 如 下 - 


valA — R[$esp] valA 一 R[sesp] =124 
vaiB — R[%esp] valB = R[sesp] =124 
valM — M,[valA] valM = M,[124]=0x028 

回 
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就 像 这 个 记录 表明 的 那样 ， 这 条 指令 的 效果 就 是 将 PC 设 为 0x028，halt 指令 的 地 址 。 同时 也 将 
qesp HAT 128. 


我 们 创建 了 一 个 统一 的 框架 ， 能 处 理 所 有 不 同类 型 的 Y86 指令 。 虽 然 指令 的 行为 各 不 相同 ， 但 
是 我 们 可 以 将 指令 的 处 理 组 织 成 六 个 阶段 。 现 在 我 们 的 任务 是 创建 硬件 设计 来 实现 这 些 阶段 ， 并 把 
它们 连接 起 来 。 


43.2 SEQ 硬件 结构 
实现 所 有 Y86 指令 所 需要 的 计算 可 以 被 组 织 成 六 个 基本 阶段 : 取 指 、 解 码 、 执 行 、 访 存 、 与 加 
和 更 新 PC。 图 4.20 给 出 了 一 个 能 执行 这 些 计算 的 硬件 结构 的 抽象 表示 。 程 序 计数 器 放 在 奇 行 器 中 ， 
在 图 中 左下 角 ( 标 了 “PC”)。 信 息 沿 着 线 流动 (多 条 线 重合 就 用 宽 一 点 的 灰 线 来 表示 )， 先 辐 上 ， 
再 向 右 。 同 各 个 阶段 相关 的 硬件 单元 (hardware units) 负责 执行 这 些 处 理 。 反 馈线 路 向 下 回 到 右边 ， 
包括 要 写 到 寄存 器 文件 的 更 新 值 ， 以 及 更 新 的 程序 计数 器 值 。 这 张 图 省 略 了 一 些小 的 组 合 逻 辑 块 ， 
还 省 略 了 所 有 用 来 操作 各 个 硬件 单元 以 及 将 相应 的 值 路 由 到 这 些 单元 的 控制 逻辑 。 竺 会 儿 我 们 会 详 
细 讲 述 这 个 问题 。 我 们 从 下 往 上 画 处 理 器 和 流程 的 方法 似乎 有 点 奇怪 。 在 我 们 开始 设计 流水 线 化 的 
处 理 器 时 ， 我 们 会 解释 这 么 男 的 原因 。 
硬件 单元 与 各 个 处 理 阶 段 相关 联 : 
取 指 : 将 程序 计数 器 寄存 器 作为 地 址 ， 指 令 存 储 器 读 取 一 个 指令 的 字 节 。PC Mines CPC 
incrementer) 计算 valP， 即 增加 了 的 程序 计数 器 。 
解码 : 寄存 器 文件 有 两 个 读 端 口 A 和 B， 从 这 两 个 端口 同时 读 寄 存 器 全 vala 和 valB. 
执行 :执行 阶段 会 根据 指令 的 类 型 ， 将 算术 /逻辑 单元 CALL) 用 于 不 同 的 目的 。 对 整数 操作 ， 
它 要 执行 指令 所 指定 的 运算 。 对 其 他 指令 ， 它 会 作为 一 个 加 法 器 来 计算 增加 或 减少 栈 指针 ， 或 者 计 
算 有 效 地 址 ， 或 者 只 是 简单 地 加 0， 将 一 个 输入 传递 到 输出 。 
条 件 码 寄存 器 (CC) 有 三 个 条 件 码 位 。ALU 负责 计算 条 件 码 的 新 值 。 当 执行 一 条 跳 转 指令 时 ， 
会 根据 条 件 码 和 跳 转 类 型 来 计算 分 支 信号 Bch。 
Wt: 在 执行 访 存 操作 时 ， 数 据 存储 器 (data memory) 读 出 或 写 入 一 个 存储 器 字 。 指 令 和 数据 
存储 器 访问 的 是 相同 的 存储 器 位 置 ， 但 是 用 于 不 同 的 目的 。 
Sel: 寄存 器 文件 有 两 个 写 端口 。 端 口 E 用 来 写 ALU 计算 出 来 的 值 ， 而 端口 M 用 来 写 从 数据 
存储 器 中 读 出 的 值 。 
图 4.21 更 详细 地 给 出 了 实现 SEQ 所 需要 的 硬件 (虽然 到 分 析 每 个 阶段 时 ， 我 们 才 会 看 到 完整 
的 细节 )。 我 们 看 到 一 组 和 前 面 一 样 的 硬件 单元 , 但 是 现在 线路 看 得 更 清楚 了 。 在 这 幅 图 以 及 我 们 其 
他 的 硬件 图 中 ， 都 使 用 的 是 下 面 的 作 图 惯例 。 
© 用 带 淡 点 的 浅 灰 色 方 框 表示 硬件 单元 。 这 包括 存储 器 、ALU 等 等 。 在 我 们 所 有 的 处 理 器 
实现 中 ， 都 会 使 用 这 一 组 基本 的 单元 。 我 们 把 这 些 单元 看 成 “ 黑 盒 子 ”， 不 关心 它们 的 细 
TEI: 
© EHZ#HŁHAMKEDAEÆEKBATA., RHERAKM A SAPETE, kA HRK 
算 一 些 布尔 函数 。 我 们 会 详细 分 析 这 些 块 的 ， 包 括 详细 说 明 HCL 描述 。 
e 线路 的 名 字 在 白色 圆 角 方 框 中 说 明 。 它 们 只 是 线路 的 标识 ， 而 不 是 什么 硬件 元 素 。 
© 宽度 为 字 长 的 数据 连接 用 中 等 粗 度 的 线 表 示 。 每 条 这 样 的 线 实际 上 都 代表 一 包 32 RA, 


at FE ZSAE A EM 249 


并 列 地 连 在 一 起 ， 将 字 从 硬件 的 一 个 部 分 传送 到 为 一 部 分 。 


新 PC 
程序 计数 器 
(PC) 
valE, valM 
5] 
vaiM 
、 数据 | 
地 址 ， 数 据 


valE 


ALU 


执行 So ee tT 


aluA, aluB 


vaiA, vaiB 
解码 STCA, srcB 
dstA, dstB A JT 
HFEA 
E 
icode, ifun valP 
TA, rB 
vaiC 
到 指 PC 
指令 存储 器 增加 


图 4.20 SEQ 的 抽象 视图 ， 一 种 顺序 实现 
指令 执行 过 程 中 的 信息 处 理 沿 着 顺 时 针 方 向 进行 ， 从 用 程序 计数 器 CPC) 取 指 令 开 始 ， 如 图 中 左下 角 所 示 。 


© 宽度 为 字 节 或 更 罕 的 数据 连接 用 细 线 表示 。 根 据 线 上 要 携带 的 值 的 类 型 ， 每 条 这 样 的 线 实 
际 上 都 代表 一 铸 4 根 或 8 根 线 。 
© 单个 位 的 连接 用 点 线 来 表示 。 这 代表 芯片 上 单元 与 块 之 闻 传 递 的 控制 值 。 
图 4.16 一 图 4.19 中 所 有 的 计算 都 有 这 样 的 性 质 , 每 一 行 都 代表 某 个 值 的 计算 ， 如 vaP, KE 
活 某 个 硬件 单元 ， 如 存储 器 。 图 4.22 的 第 二 栏 列 出 了 这 些 计 算 和 动作 。 除 了 我 们 已 经 讲 过 的 那些 信 
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号 以 外 ， 还 列 出 了 由 个 寄存 器 ID 信和 号: srcA, vala 的 源 ; srcB，valB 的 源 ; dstE， 写 入 valE 的 寄 
存 器 ; 以 及 dstM， 写 入 valM 的 寄存 器 。 


程序 计数 器 
‘PC) 
沪 存 
执行 
= 
SOGOOS 
(ee) [asin (srea) | 
解码 A B 
ATEKA = N 
JE 


PF 


PC 
指令 存储 器 增加 


图 4.21 SEQ 的 硬件 结构 ， 一 种 里 序 实 现 
有 的 控制 信号 以 及 寄存 器 和 控制 字 连 接 ， 都 没有 画 出 来 。 
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icode, ifun icode:ifun 一 Mi[PCO] icode:ifun 一 M,[PC] 
rA, rB rA:rB 一 MifPC+1] rA:rB <- M,[PC+1] 
valC valC =< M,[PC+2] 
valP — PC+2 valP — PC+6 


valP 
解码 valA, srcA valA + RIrA] 
| | | valB, srcB valB + RIrB] valB + RIrB] 


取 指 


Cond.codes Set CC 
aa a | ace 
s a 
M port, dstM R[rA}] 一 valM 


图 4.22 ”标识 顺序 实现 中 的 不 同 计 算 步 骤 
第 二 栏 标识 出 SEQ 的 阶段 中 正在 被 计算 的 值 ， 或 正在 被 执行 的 操作 。 作 为 示例 给 出 的 是 指令 OP 和 mmol 的 计算 。 


图 中 ， 右 边 两 栏 给 出 的 是 指令 DPI 和 mrmovl 的 计算 ， 来 说 明 要 计算 的 值 。 要 将 这 些 计 算 映 射 
到 硬件 上 ， 我 们 要 实现 控制 逻辑 ， 它 能 在 不 同 硬件 单元 之 间 传 送 数 据 ， 以 及 操作 这 些 单元 〈 即 对 每 
个 不 辐 的 指令 执行 指定 的 运算 )。 这 就 是 控制 逻辑 块 的 目标 ， 控 制 逻辑 块 在 图 4.21 中 用 灰色 圆 角 方 
代表 示 。 我 们 的 任务 驶 是 着 手 每 个 阶段 ， 创 建 出 这 些 块 的 详细 设计 。 


4.3.3 SEQ 的 时 序 (timing) 

在 介绍 图 4.16 一 图 4.19 时 ， 我 们 说 过 阅读 的 时 候 要 把 它们 看 成 是 用 程序 符号 写 的 ， 那 些 赋 值 是 
从 上 到 下 顺序 执行 的 。 然 而 ， 图 4.21 中 硬件 结构 的 操作 运行 根本 完全 不 同 。 让 我 们 来 看 看 这 些 硬件 
是 怎样 实现 表 中 列 出 的 那些 行为 的 。 

我 们 的 SEQ 的 实现 包括 组 合 逻 辑 和 两 种 存储 器 设备 : 时 钟 控 制 的 寄存 器 (程序 计数 器 和 条 件 码 
寄存 器 〉 和 随机 访问 存储 器 “寄存 嚣 文件、 指令 存储 器 和 数据 存储 器 }。 组 合 逻 辑 不 需要 任何 定 序 
(sequencing) 或 控制 一 一 只 要 输入 变化 了 ， 值 就 通过 逻辑 门 网 络 和 传播 。 正 如 我 们 提 到 过 的 那样 ， 我 
们 将 读 随 机 仿 问 存储 器 看 成 和 组 合 逻辑 一 样 的 操作 ， 根 据 地 址 输入 产生 输出 字 。 因 为 我 们 的 指令 存 
储 佣 只 用 来 读 指令 ， 因 此 我 们 可 以 将 这 个 单元 看 成 组 合 逻 辑 。 

现在 还 剩 四 个 硬件 单元 需要 对 它们 的 定 序 (sequencing ) 进行 明确 的 控制 一 一 程序 计数 器 、 条 件 
码 寄 存 器 、 数 据 存 储 器 和 寄存 器 文件 。 这 些 单元 是 通过 一 个 时 钟 信号 来 控制 的 ， 它 触发 将 新 值 装 载 
到 寄存 器 以 及 将 值 写 到 随机 访问 存储 器 。 每 个 时 钟 周 期 ， 程 序 计数 器 都 会 装载 新 的 指令 地 址 。 只 有 
在 执行 整数 运算 指令 时 ， 才 会 装载 条 件 码 寄存 器 。 只 有 在 执行 rmmovl、pushi 或 call HOH, AS 
写 数 据 人 存储器。 寄存 器 文件 的 两 个 写 端口 允许 每 个 时 钟 周期 更 新 两 个 程序 寄存 器 ， 不 过 我 们 可 以 用 
特殊 的 寄存 器 ID 8 作为 端口 地 址 ， 来 表明 在 此 端口 不 应 该 执行 写 操 作 。 

控制 我 们 处 理 器 中 活动 的 定 序 (sequencing )， 只 需要 寄存 器 和 存储 器 的 时 钟 控制 。 我 们 的 硬件 
获得 了 就 好 像 图 4.16~ E 4.19 中 那些 赋值 顺序 执行 一 样 的 效果 , 即使 所 有 的 状态 更 新 实际 上 同时 发 
生 ， 且 只 在 时 钟 上 升 开 始 下 一 个 周期 时 。 之 所 以 能 保持 这 样 的 等 价 性 ， 是 由 于 Y86 指令 集 的 本 质 ， 
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也 古 由 于 我 们 按照 遭 循 以 下 尺 则 的 方式 来 组 织 计 算 的 : 

“处 理 器 从 来 不 需要 为 了 完成 一 条 指令 的 执行 而 去 读 由 该 指令 更 新 的 状态 。” 
这 条 原则 对 我 们 实现 的 成 功 来 说 公关 重要 ，。 

为 了 说 明 问 题 ,， 假设 我 们 实现 pushl 指令 是 先 将 %esp 4, 再 将 更 新 后 的 %esp 值 作为 写 操作 的 
地 址 。 这 种 方法 就 同 前 面 所 说 的 那个 原则 相 违 背 。 为 了 执行 存储 器 操作 ， 它 需要 先 从 寄 作 器 文件 中 
读 更 新 过 的 栈 指针 。 而 我 们 的 实现 (图 4.18) 产生 出 减 过 了 的 栈 指针 值 ， 作 为 信号 valE， 然 后 再 用 
这 个 信号 既 作为 寄存 器 写 的 数据 ， 也 作为 存储 器 写 的 地 址 。 因 此 ， 在 时 钟 上 升 开 始 下 一 个 周期 时 ， 
处 理 器 就 可 以 同时 执行 寄存 器 写 和 存储 器 号 了 。 

再 举 个 例子 来 说 明 一 下 这 条 原则 ， 我 们 可 以 看 到 有 些 指令 (整数 运算 ) Skea, FAs 
S (ERES) 会 读 取 条 件 码 ， 但 没有 指令 必须 既 设 置 义 读 取 条 件 码 。 虽 然 要 到 时 钟 上 升 开 始 下 一 
个 周期 时 ， 才 会 设置 条 件 码 ， 但 是 在 任何 指令 试图 读 之 前 ， 它 们 都 会 更 新 好 的 。 

下 面 这 段 代 码 是 汇编 代码 ， 左 边 列 出 的 是 指令 地 址 ， 图 4.23 给 出 了 SEQ 硬件 是 如 何 处 理 其 中 
第 3 和 第 4 行 指令 的 : 


1 0x000: irmovl $0x100, Sebx # Webx <-- 0x100 

2 0x006: irmovl $0x200, %edx # Toedx <-- 0x200 

3 Ox00c: addl %tedx, %ebx # Joebx <-- 0x300 CC <-- 000 
4 Ox00e: je dest # Not taken 

5 0x013: rmmovl %ebx, 0(%edx) # M[0x200] <-- 0x300 

6 0x019: dest: halt 


标号 为 1~4 的 各 个 图 给 出 了 四 个 状态 元 素 ， 还 有 组 合 逻 辑 ， 以 及 状态 元 素 之 间 的 连接 。 组 合 敢 
辑 被 条 件 码 寄存 器 环绕 着 , 因为 有 的 组 合 逻 辑 (例如 ALU) 产生 输入 到 条 件 码 寄存 器 , 而 其 他 部 分 ( 例 
如 分 支 计 算 和 PC 选择 逻辑 ) 又 将 条 件 码 寄 存 器 作为 输入 。 图 中 寄存 器 文件 和 数据 存储 器 有 分 离 的 读 
连接 和 写 连 接 ， 因 为 读 操 作 沿 着 这 些 单 元 传播 ， 就 好 像 它 们 是 组 合 逻 辑 ， 而 写 操作 是 由 时 钟 控制 的 。 

图 4.23 中 的 代码 表明 电路 信号 是 如 何 与 正在 被 执行 的 不 同 指令 相 联系 的 。 我 们 假设 处 理 是 从 设 
置 条 件 码 开始 的 ， 按 照 ZF、SF 和 OF 的 顺序 ， 设 为 100。 在 时 钟 周 期 3 开始 的 时 候 (点 1)， 状 态 
元 素 保 持 的 是 第 二 条 irmovl 指令 〈 第 二 行 ) 更 新 过 的 状态 ， 该 指令 用 中 度 灰 色 表 示 。 组 合 逻 辑 用 和 白 
色 表 示 ， 表 明 它 还 没有 来 得 及 对 变化 了 的 状态 做 出 反应 。 时 钟 周期 开始 时 ， 地 址 0x00c 载 入 程序 计 
数 名 中。 这 样 就 会 取出 和 椒 理 用 浅 灰 色 表 示 的 addl 指令 (第 三 行 )。 值 沿 着 组 合 风 辑 流动 ， 包 括 读 
随机 访问 存储 器 。 在 这 个 周期 末尾 (点 2), 组 合 逻 辑 为 条 件 码 产生 了 新 的 值 (000)， 更 新 了 程序 寄 
仓 耸 9%ebx， 以 及 程序 计数 器 的 新 值 (0x00e)。 FEIN, AS iS CARE add 指令 (用 浅 灰 色 表 示 ) 
被 更 新 了 ， 但 是 状态 还 是 保持 着 第 二 条 irmovl 指令 (用 中 度 灰 色 表 示 ) 设置 的 值 。 

当时 钟 上 升 开 始 周 期 4 时 (点 3)， 会 更 新 程序 计数 嚣 、 寄 存 器 文件 和 条 件 码 寄存 器 ， 因 此 我 们 
用 浅 灰 色 来 表示 ， 但 是 组 合 逻 辑 还 没有 对 这 些 变化 做 出 反应 ， 所 以 用 白色 表示 。 在 这 个 周期 内 ， 会 
取出 并 执行 je 指令 (第 四 行 )， 在 图 中 用 深 灰 色 表示 。 因 为 条 件 码 ZF 为 0， 所 以 不 会 选择 分 支 。 在 
这 个 周期 末尾 (点 4)， 程 序 计数 器 已 经 产生 了 新 值 0x00e。 组 合 逻 辑 已 经 根据 je 指令 〈 用 深 灰 色 表 
不 》 被 更 新 过 了 ， 但 是 直到 下 个 周期 开始 ， 状 态 还 是 保持 着 add 指令 〈 用 浅 灰 色 表 示 ) 设置 的 值 。 

如 此 例 所 示 ， 用 时 钟 来 控制 状态 元 素 的 更 新 ， 以 及 值 通过 组 合 逻 辑 来 传播 ， 足 够 控制 我 们 SEQ 
实现 中 每 条 指令 执行 的 计算 了 。 每 次 时 钟 由 低 变 高 时 ， 处 理 器 开始 执行 一 条 新 指令 。 
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下 周期 Ie 刚 周期 3 周期 4 站 _ 
z | o db d 


0x000: irmovl $0x100,%ebx # 多 ebx <-- 0x100 


:| 0x006: iraovl $0x200,%edx # %edx <-- 0x200 


0x00c: addl tedx, tebx # 多 ebx <-- 0x300 CC <-- 000 


eno HWA 


%ebx 
AS RR HE ni 
tebx—0x100 0x300 


y 寄存 器 文件 


Myebx=0x100 


0x00e 
had 
@ 周期 4 结束 时 


eee 


多 4.23 跟踪 SEQ 的 两 个 执行 周期 
每 个 周期 开始 时 ， 根 据 前 一 条 指令 设置 状态 元 素 〈 程 序 计数 器 、 条 件 码 寄存 器、 寄存 器 文件 以 及 数据 存储 器 )。 信 号 传播 到 组 
合 远 辑 时 ， 创 建 出 新 的 状态 元 素 的 值 。 在 下 一 个 周期 开始 时 ， 这 些 值 会 被 加 载 到 状态 元 素 中 。 
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43.4 SEQ 的 阶段 实现 

在 本 广 中 ， 我 们 会 设计 实现 SEQ 所 需要 的 控制 逻辑 块 的 HCL Fak. SEQ 的 所 有 HCL 描述 请 
参见 附录 A 的 A.2 部 分 。 在 此 ， 我 们 给 出 一 些 例 子 ， 而 其 他 的 只 是 作为 练习 题 。 我 们 建议 你 用 这 些 
练习 来 检验 你 的 理解 ， 即 这 些 块 是 如 何 与 不 同 指令 的 计算 需求 相 联 系 的 。 

我 们 在 这 儿 没 有 讲 的 那 部 分 SEQ 的 HCL 描述 ， 是 不 同 整 数 和 布尔 信和 号 的 定义 ， 它 们 可 以 作为 
HCL 操作 的 参数 。 其 中 包括 不 同 硬件 信号 的 名 字 ， 以 及 不 同 指令 代码 的 常数 值 、 寄 存 器 名 字 和 ALU 
操作 。 图 4.24 列 出 了 我 们 使 用 的 常数 。 按 照 习惯 ， 第 数值 都 是 大 写 的 。 


INOP 0 nop 指令 的 代码 
IHALT halt 指令 的 代码 
IRRMOVL rrmovl 指令 的 代码 
IIRMOVL irmovl 指令 的 代码 
IRMMOVL rmmovl 指令 的 代码 
IMRMOVL mrmovl 指令 的 代码 
IOPL 整数 运算 指令 的 代码 
趾 转 指令 的 代码 

call 指令 的 代码 

ret 指令 的 代码 

pushl 指令 的 代码 
popl 指令 的 代码 
esp 的 寄存 器 ID 
表明 没有 寄存 器 文件 访问 
加 法 运算 的 功能 


图 4.24 HCl 描述 中 使 用 的 常数 值 
这 些 值 描述 的 是 指令 的 编码 、 寄 存 器 ID 以 及 ALU 操作 。 


除了 图 4.16 一 图 4.19 中 所 示 的 指令 以 外 ， 我 们 还 包括 了 对 nop 和 halt 指令 的 处 理 。 这 两 条 指 今 
郁 是 简单 地 经 过 各 个 阶段 ,不 进行 任何 处 理 , 除了 要 将 PC 加 1。 我 们 不 会 介绍 halt 指令 实际 上 如 何 
停止 处 理 器 的 细 亨 。 只 是 简单 假设 当 遇 到 icode 为 1 时 ， 处 理 器 就 停 下 来 。 

取 指 阶段 

如 图 4.25 所 示 ， 取 指 阶 段 包括 指令 存储 器 硬件 单元 。 以 PC 作为 第 一 个 字 节 〈 字 和 节 0) 的 地 址 ， 
这 个 单元 一 次 从 存储 器 读 出 六 个 字 节 。 第 一 个 字 节 被 当成 指令 字 节 ,被 标号 为 “Split” 的 单元 ) 分 
为 两 个 四 位 的 量 icode 和 ifun。 根 据 icode 的 值 ， 我 们 可 以 计算 三 个 一 位 的 信和 号 CAMBER): 

instr_valid， 这 个 字 节 对 应 于 一 个 合法 的 Y86 指令 吗 ? 这 个 信号 用 来 发 现 不 合法 的 指令 。 

need_regids: 这 个 指令 包括 一 个 寄存 器 指示 符 字 节 吗 ? 

need_valC: 这 个 指令 包 插 一 个 常数 字 吗 ? 

让 我 们 再 来 看 一 个 例子 , need_regids 的 HCL 描述 只 是 确定 了 icode 的 值 是 否 是 一 条 带 有 寄存 器 
HREF TURS. 


bool need_regids = 


1 
2 
3 
4 
5 
6 
7 
8 
9 
a 
b 
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lcode in { IRRMOVL, IOPL, IPUSHL, IPOPL, 
ITRMOVL, IRMMOVL, IMRMOVL }; 


code ifun rA rB valC valP 


| 


Laia} 


== = > 
Dr- 


Spiit Align |. 
Byte 0 Bytes 1-5 


指令 存储 器 


4.25 SEQ 取 指 阶段 
APC 作为 起 始 地 址 ， 从 指令 存储 器 中 读 出 六 个 字 节 。 根 据 这 些 字 节 ， 我 们 产生 出 各 个 指令 字段 。PC 增加 块 计算 信号 valp。 


练习 题 4.14 
5 i SEQ 实现 中 信号 need_valC 的 HCL KAS. 


如 图 4.25 所 示 ， 从 指令 存储 器 中 读 出 的 剩 下 五 个 字 节 是 寄存 器 指示 符 字 节 和 常数 字 的 组 合 编码 。 
标号 为 “Align” 的 硬件 单元 会 处 理 这 些 字 节 ， 将 它们 放 入 寄存 器 字段 和 常数 字 中 。 当 被 计算 的 信和 号 
need regids 为 1 时 ， 字 节 1 被 分 开 装 入 寄存 器 指示 符 rA 和 rB 中 。 否 则 ， 这 两 个 字段 会 被 设 为 8 

(RNONE), 表明 这 条 指令 没有 指明 寄存 器 。 回 想 一 下 (图 4.2)， 任何 只 有 一 个 寄存 器 操作 数 的 指令 ， 
寄存 器 指示 值 字 节 的 另 一 个 字段 都 设 为 8 (RNONE)。 因 此 ， 我 们 可 以 将 信号 rA 和 rB Gk, BAH 
者 我 们 想 要 访问 的 寄存 器 ， 和 要 么 表明 不 需要 访问 任何 寄存 器 。 标 号 为 “Align ”的 单元 还 产生 常数 字 
valC。 根 据 信 号 need_regids 的 值 ， 要 么 根据 字 节 1 一 4 来 产生 valc, 要 人 么 根据 字 节 2~5 来 产生 。 

PC 增加 器 (incrementer) 硬件 单元 根据 当前 的 PC 以 及 两 个 信 与 need_regids 和 need_valC 的 值 ， 
产生 信号 valP。 对 于 PC 值 p、 need_regids {H r 以 及 need_valC 值 i， 增 加 器 产生 值 p+r+4i。 
解码 和 写 回 阶段 
图 4.26 给 出 了 SEQ 中 实现 解码 和 写 回 阶段 的 逻辑 的 详细 情况 。 这 两 个 阶段 联系 在 一 起 是 因为 
它们 都 要 访问 寄存 器 文件 。 

寄存 器 文件 有 四 个 端口 ， 它 支持 同时 进行 两 个 读 (在 端口 A ABE) 和 两 个 写 〈 在 端口 E 和 
M 上 )。 每 个 端口 都 有 地 址 连接 和 数据 连接 ， 地 址 连接 是 一 个 寄存 器 ID， 而 数据 连接 是 一 组 32 根 线 
路 ， 既 可 以 作为 寄存 器 文件 的 输出 字 ( 对 读 端 口 来 说 )， 也 可 以 作为 它 的 输入 字 ( 对 写 端口 来 说 )。 
内 个 读 端 口 的 地 址 输入 为 stcA 和 srcB， 而 两 个 写 端 口 的 地 址 输入 为 dstA 和 dstB。 如 果菜 个 地 址 端 
口上 的 值 为 特殊 标识 符 8 (RNONE)， 则 表明 不 需要 访问 寄存 器 。 

根据 指令 代码 icode 以 及 寄存 器 指示 值 rA MrB, E 4.26 底部 的 四 个 块 产生 出 四 个 不 同 的 寄存 
全 文件 的 寄存 器 ID。 寄 存 器 ID srcA 表明 应 该 读 哪 个 寄存 器 以 产生 valA。 所 需要 的 值 是 依赖 于 指令 
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类 型 的 ， 如 图 4.16~ FY 4.19 中 解码 阶段 第 一 行 中 所 示 。 将 所 有 这 些 条 目 都 整合 到 一 个 计算 中 就 得 到 
下 和 面 的 srcA 的 HCL 描述 (回想 -- 下 RESP 是 %esp 的 寄存 器 ID): 
| 
1code in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } : YA; 
1code in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don’ t need register 


valA valB valM valE 


war a 


寄存 器 文件 
dstE dstM ercA 


srcB 


icode rÀ B 


图 4.26 SEQ 解码 和 写 回 阶段 
指令 字段 解码 ， 用 来 产生 寄存 器 文件 使 用 的 四 个 地 址 《两 个 读 和 两 个 写 ) 的 寄存 器 标识 符 。 从 寄存 器 文件 中 读 出 的 值 成 为 信 
号 valA 和 valB， 两 个 写 回 值 valE 和 valM 作为 写 操作 的 数据 。 


练习 题 4.15 
寄存 器 信号 srcB 表明 应 该 读 哪个 寄存 器 以 产生 valB。 所 需要 的 值 如 图 4.16 ~ 图 4.19 中 解码 阶 
段 第 二 行 中 所 示 。 写 出 srcB 的 HCL 代码 。 


寄存 器 ID dstE 表明 写 端 口 E 的 目的 寄存 器 ， 计 算出 来 的 值 valE 将 放 在 那里 ， 如 图 4.16 一 4.19 
中 写 回 阶段 第 一 个 步骤 所 示 。 综 合 所 有 不 同 指 令 的 目的 寄存 器 ， 就 得 到 下 面 的 dstE 的 HCL His: 
int dstE = [ 
icode in { IRRMOVL, IIRMOVL, IOPL } : rB; 
1code in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don’ t need register 
le 
练习 题 4.16 
寄存 器 ID dstM 表明 写 端 口 M 的 目的 寄存 器 ， 从 存储 器 中 读 出 来 的 值 valM 将 放 在 那里 ， 如 图 
4.16~ 图 4.19 中 写 回 阶段 第 二 个 步骤 所 示 。 写 出 dstM 的 HCL KA. 


练习 题 4.17 

只 有 pop 指令 会 同时 用 到 寄存 器 文件 的 两 个 写 端口 。 对 于 指令 popl %esp，E 和 M 两 个 写 端 口 
会 用 到 同一 个 地 址 ， 但 是 写 入 的 数据 不 同 。 为 了 解决 这 个 冲突 ， 我 们 必须 对 两 个 写 端口 设立 一 个 优 
先 级 ， 这 样 一 来 ， 当 同一 个 周期 内 两 个 写 端 口 都 试图 对 一 个 寄存 器 进行 写 时 、 只 有 较 高 优先 级 端口 
上 的 写 才 会 发 生 。 那 么 为 了 实现 练习 题 4.5 中 确定 的 行为 ， 哪 个 端口 该 具有 和 较 高 的 优先 级 呢 ? 
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执行 阶段 

执行 阶段 包括 算术 /逻辑 单元 (ALU) RART 
根据 alufun 信和 与 的 设置 ， 对 输入 alua 和 aluB 执行 
ADD、SUBTRACT、AND 或 EXCLUSIVE-OR 运算 。 
如 图 4.27 所 示 , 这 些 数据 和 控制 信号 是 由 三 个 控制 块 
产生 的 。ALU 的 输出 就 是 valE 信和 号 。 

在 图 4.16 一 图 4.19 中 ,执行 阶段 的 第 一 个 步骤 给 
出 的 就 是 每 条 指令 的 ALU 计算 。 列 出 的 操作 数 aluB 
在 前 面 ， 后面 是 aluA， 这 样 是 为 了 保证 subl 指令 是 
valA 减 去 valB .我 们 可 以 看 到 , 根据 指令 的 类 型 , alua £i sid SEQ 执行 阶段 
的 值 可 以 是 valA、valC， 或 者 是 -4 或 +4。 因此 我 们 可 he a eed, at i 
以 用 下 面 的 方式 来 表达 产生 aluA 的 控制 块 的 行为 : 


Bch valE 


code Ifun valC val valB 


Fil ART Fe: FS AIEEE SP 
int aluA = | 
icode in { IRRMOVL, IOPL } : valA: 
icode in { IIRMOVL, IRMMOVL, IMRMOVL } : valc; 
icode in { ICALL, IPUSHL } : -4: 


icode in { IRET, IPOPL } : 4; 
# Other instructions don’ t need ALU 
E- 


练习 题 4.18 
根据 图 4.16~ 图 4.19 中 执行 阶段 第 一 步 的 第 一 个 操作 数 ， 写 出 SEQ 中 信号 aluB 的 HCL 描述 。 


观察 ALU 在 执行 阶段 执行 的 操作 ,我 们 可 以 看 到 它 通常 是 作为 加 法 器 来 使 用 的 。 不过， 对 于 OPI 
指令 ， 我 们 希望 它 使 用 指令 ifu 字段 中 编码 的 操作 。 因 此 ， 我 们 可 以 将 ALU 控制 的 HCL 描述 写成 : 
int alufun = [ 
icode == IOPL : ifun; 
1 : ALUADD; 
iG 
执行 阶段 还 包括 条 件 码 寄存 器 。 每 次 运行 时 ， 我 们 的 ALU 都 会 产生 三 个 与 条 件 码 相关 的 信 
号 一 一 等 、 符 号 和 溢出 。 不 过 ， 我 们 只 希望 在 执行 OPI 指令 时 才 设 置 条 件 码 。 因 此 我 们 产生 了 一 个 
信号 set_cc 来 控制 是 否 该 更 新 条 件 码 寄存 器 : 


bool set_ce = icode in { IOPL }; 


标号 为 “bcond” 的 硬件 单元 会 确定 一 条 指令 是 将 导致 跳 转 (选择 分 支 ;， 还 是 会 继续 下 一 条 指 
令 〔 不 选择 分 支 ;， 并 产生 信号 Bch。 只 有 当 指 令 是 一 条 跳 转 指令 (icode 等 于 IJXX)， 并 且 条 件 码 
的 仁和 跳 转 类 型 (编码 在 ifun F) 表明 要 选择 分 支 (参见 图 3.11) 时 ,一 条 指令 才 会 导致 跳 转 。 我 
们 将 省 略 这 个 单元 的 设计 。 

访 存 阶段 

存储 器 阶段 的 任务 就 是 读 或 者 写 程序 数据 。 如 图 4.28 所 示 ， 两 个 控制 块 产 生存 储 器 地 址 和 存储 
器 输入 数据 (为 写 操作 ) 的 值 。 另 外 两 个 块 产生 表明 应 该 执行 读 操作 还 是 写 操 作 的 控制 信号 。 当 执 
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行 恋 操作 时 ， 数 据 存储 器 产生 值 valM。 


icode valE valA valP 


图 4.28 SEQ 访 存 阶段 
数据 存储 器 既 可 以 写 ， 也 可 以 读 存储 器 的 值 。 从 存储 器 中 读 出 的 值 就 形成 了 信号 valM. 


每 个 指令 类 型 所 需要 的 存储 器 操作 在 图 4.16 一 图 4.19 的 存储 器 阶段 中 给 出 来 了 。 可 以 看 到 存储 
器 读 和 写 的 地 址 总 是 valE 或 valA。 这 个 块 用 HCL 描述 就 是 : 

int mem_addr = [ 

1code in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : valE; 

icode in { IPOPL, IRET } : valA; 

# Other instructions don’ t need address 


| 


练习 题 4.19 
观察 图 4.16- 图 4.19 所 示 的 不 同 指令 的 存储 器 操作 ， 我 们 可 以 看 到 存储 器 写 的 数据 总 是 valA 
A valP。 写 出 SEQ 中 信号 mem data 的 HCL 代码 。 


我 们 希望 只 为 从 存储 器 读数 据 的 指令 设置 控制 信号 mem_read， 用 HCL 代码 表示 就 是 : 


bool mem read = icode in { IMRMOVL, IPOPL, IRET }; 


练习 题 4.20 
我 们 希望 只 为 向 存储 器 写 数据 的 指令 设置 控制 信号 mem_write。 写 出 SEO 中 信号 mem write 的 
HCL 代码 . 
更 新 PC 阶段 
SEQ 中 最 后 一 个 阶段 会 产生 程序 计数 器 的 新 值 ( 见 图 4.29)。 如 图 4.16 一 图 4.19 中 最 后 步骤 所 
不 ， 取 决 于 指令 的 类 型 和 是 否 要 选择 分 支 ， 新 的 PC 可 能 是 valC、valM 或 valP。 用 HCL 来 描述 这 
个 选择 就 是 : 
int new pc = | 
# Call. Use instruction constant 
1code == ICALL : valc; 


# Taken branch. Use instruction constant 
icode == IJXX && Bch : valc; 
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# Completion of RET instruction. Use value from stack 


i1code == IRET : valM; 
# Default: Use incremented PC 
1 : valP; 


icode Bch valC valM valP 


图 4.29 SEQ 更 新 PC 阶段 
根据 指令 代码 和 分 支 标志 ， 从 信号 valC、valM 和 valP 中 选 出 下 一 个 PC 的 值 。 


SEQ 小 绍 

现在 我 们 已 经 浏览 过 Y86 处 理 器 的 一 个 完整 的 设计 。 我 们 可 以 看 到 , 通过 将 执行 每 条 不 同 指令 
所 需 的 步骤 组 织 成 一 个 统一 的 流程 ， 就 可 以 用 很 少量 的 各 种 硬件 单元 以 及 一 个 时 钟 来 控制 计算 的 顺 
序 ， 从 而 实现 整个 处 理 器 。 不 过 这 样 一 来 ， 控 制 逻辑 就 必须 要 在 这 些 单元 之 间 路 由 信和 号， 并 根据 指 
令 类 型 和 分 支 条 件 产生 适当 的 控制 信号。 

SEQ 惟一 的 问题 就 是 它 太 慢 了 。 时 钟 必 须 非常 慢 , 以 使 信号 能 在 一 个 周期 内 传播 过 所 有 的 阶段 。 
让 我 们 来 看 看 处 理 一 条 ret 指令 的 例子 。 在 时 钟 周 期 起 始 时 ， 从 更 新 过 的 PC 开始 ， 要 从 指令 存储 器 
中 读 出 指令 ， 从 寄存 器 文件 中 读 出 栈 指针 ，ALU 要 减 小 栈 指针 ， 为 了 得 到 程序 计数 器 的 下 一 个 值 ， 
还 要 从 存储 器 中 读 出 返回 地 址 。 所 有 这 一 切 都 必须 在 这 个 周期 结束 之 前 完成 。 

这 种 实现 方法 不 能 充分 利用 硬件 单元 ， 因 为 每 个 单元 只 在 整个 时 钟 周期 的 一 部 分 时 间 内 才 被 使 
用 。 我 们 会 看 到 引入 流水 线 能 获得 更 好 的 性 能 。 


4.3.5 SEQ+: 重新 安排 计算 阶段 

作为 到 流水 线 化 的 设计 的 一 个 中 同步 又， 我 们 将 重新 排列 这 六 个 阶段 的 顺序 ， 使 得 更 新 PC 阶 
段 在 一 个 周期 开始 时 执行 ， 而 不 是 结束 时 才 执 行 ， 这 梓 产 生 的 处 理 器 设计 称 为 SEQ+， 因 为 它 扩 展 
了 基本 的 SEQ 处 理 器 。 这 种 做 法 看 上 去 有 些 奇怪 ， 因 为 确定 新 的 PC 值 需 要 检测 执行 阶段 中 的 分 支 
条 件 〈 对 条 件 转移 来 说 )， 或 者 读 访 存 阶 段 中 的 返回 值 (对 ret 指令 来 说 )。 

如 图 4.30 所 示 ， 我 们 能 移动 PC 阶段 ， 使 得 它 的 逻辑 在 时 钟 开始 时 活动 ， 计 算 当 前 指令 的 PC 
值 。 然 后 这 个 PC 值 就 可 以 输入 到 取 指 阶段 ， 剩 下 的 处 理 就 和 前 面 讲 过 的 一 样 继续 下 去 。 在 时 钟 周 
期 结束 之 前 ， 组 合 逻 辑 会 产生 计算 新 的 PC 值 所 需要 的 所 有 的 信和 号。 这 些 值 放 在 一 组 寄存 器 中 ， 在 
图 中 是 用 标号 为 “pState”( 代 表 “previous state”) 的 方 框 来 表示 的 。 现 在 PC 阶段 的 任务 变 成 了 为 
当前 指令 选择 PC 值 ， 而 不 是 为 下 一 条 指令 计算 更 新 了 的 PC. 

4.31 给 出 了 SEQ+ 硬 件 的 一 个 更 为 详细 的 说 明 。 我们 可 以 看 到 , 它 包括 与 我 们 在 SEQ 中 用 到 
的 (图 4.21) -- 样 的 硬件 单元 和 控制 块 ， 只 不 过 PC 逻辑 移 到 了 底部 。 从 前 面 一 条 指令 得 到 的 结果 
存放 在 图 中 底部 所 示 的 寄存 器 中 ， 它们 的 标号 是 它们 所 保存 的 值 前 面 加 上 一 个 前 缀 字母 “p” (RE 


“ previous”). 
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valE, valM 
写 回 
访 存 
执行 
aluA, aluB 
valA, valB 
解码 
SrCA, srcB 
dstA, dstB | A OB 
icode, valC 寄存 器 
valP | XA E 
icode, ifun valP 
rA, rB 
valC 
取 指 | 指令 存储 器 | Be 
PC 


程序 计数 器 
rita pState 


4.30 ”SEQ+ 的 抽象 视图 


在 这 个 版 本 中 ， 当 前 指令 的 程序 计数 器 (PC) 的 选择 是 根据 前 一 个 周期 的 信息 ， 在 一 个 时 钟 周期 开始 时 计算 的 。 这 种 结构 能 
帮助 我 们 得 到 一 个 流水 线 化 的 实现 。 


处 理 器 体系 结构 261 


访 存 


执行 : 


_ | pas 


arare. 


指令 存储 器 


一 = 


取 指 


my 


D 


程序 计数 器 : 
(PC) : 


4.31 SEQ+ 的 硬件 结构 
图 中 省 略 了 一 些 信号。 


Ae HS ATE Bris BPE RT PC 的 计算 ， 使 它 使 用 以 前 的 状态 值 。 下 面 这 两 个 图 表 
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HH T SEQ 和 SEQ+ 的 PC HRH: 
A) SEQ 的 新 PC 的 计算 B) SEQ+ 的 PC 的 选择 


PC 


' 
|, 


ips ee 
ploose]pech] pvam | pvac | pvaP _ 
我 们 看 到 ， 两 个 块 之 何 惟 一 的 区 别 就 是 ， 将 保存 着 处 理 器 状态 的 寄存 器 从 PC 于 算 的 后 血 移 到 
了 前 面 。 这 个 例子 是 一 种 很 常见 的 改进 ， 称 为 电路 重 定时 (circuit retiming )。 重 定时 改变 了 一 个 系 
统 的 状态 表示 ， 但 是 并 不 改变 它 的 逻辑 行为 。 通 常用 来 平衡 -一 个 系统 中 各 个 部 分 之 间 的 延 返 。 
PC 计算 的 HCL 描述 变 成 了 : 


二 = | 


icode Bch valC valM valP 


# Call. Use instruction constant 
pIcode == ICALL : pValCc; 
# Taken branch. Use instruction constant 
plcode == IJXX && pBch : pValC; 
# Completion of RET instruction. Use value from stack 
plcode == IRET : pValM; 
# Default: Use incremented PC 
l : pValP; 
ie 


附录 A 的 A.3 节 是 SEQ+ 的 所 有 HCL 描述 。 


旁 注 ，SEQ+ 中 的 PC AML? 

SEQ+ 有 一 个 很 奇怪 的 特色 ， 那 就 是 没有 硬件 寄存 器 来 存放 程序 计数 器 。 相 反 ,， 是 根据 从 前 一 条 
指令 保存 下 来 的 一 些 状态 信息 来 动态 地 计算 PC 的 。 这 就 是 一 个 小 小 的 例证 ， 证 明 我 们 可 以 以 一 种 
与 ISA 隐 含 着 的 概念 模型 不 同 的 方式 来 实现 处 理 器 ， 只 要 处 理 器 能 正确 执行 任意 的 机 器 语言 程序 .。 
我 们 不 需要 按照 程序 员 可 见 的 状态 表明 的 方式 来 对 状态 进行 编码 ， 只 要 处 理 器 能 对 任意 程序 员 可 见 
的 状态 ( 例如， 程序 计数 器 ) 产生 正确 的 值 。 在 创建 流水 线 化 的 设计 中 ， 我 们 会 更 多 地 使 用 到 这 条 
原则 。5.7 节 中 描述 的 乱 序 (out-of-order) 处 理 技术 ， 以 一 种 完全 不 同 于 机 器 级 程序 中 发 生 顺 序 的 次 
序 来 执行 指令 ， 将 这 一 思想 发 挥 到 了 极致 。 
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在 试图 设计 一 个 流水 线 化 的 Y86 处 理 器 之 前 , 让 我 们 先 来 看 看 流水 线 化 的 系统 的 一 些 通用 属性 
和 原理 。 对 于 曾经 在 日 助 餐 厅 的 服务 线 上 工作 过 或 者 开车 通过 自动 汽车 清洗 线 的 人 ， 都 会 非常 熟悉 
这 种 系统 。 在 流水 线 化 的 系统 中 ， 待 执行 的 任务 被 划分 成 了 若干 个 独立 的 阶段 。 在 自助 人 餐厅， 这 些 
阶段 包括 提供 沙拉 、 主 菜 、 甜 点 以 及 饮料 。 在 汽车 清洗 中 ， 这 些 阶段 包括 喷 水 和 打 肥 皂 、 擦 洗 、 上 
晨 和 烘 干 。 通 常 都 会 多 许多 个 顾客 同时 经 过 系统 ， 而 不 是 要 等 到 一 个 用 户 完成 了 所 有 从 头 至 尾 的 过 
程 志 让 下 一 个 开始 。 在 一 个 典型 的 自助 餐厅 流水 线 上 ， 顾 客 按照 相同 的 顺序 经 过 各 个 阶段 ， 即 使 他 
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们 并 不 需要 某 些 菜 。 对 汽车 清洗 来 说 ， 当 前 面 一 辆 汽车 从 喷 水 阶 段 进 入 擦洗 阶段 时 ， 下 一 辆 就 可 以 
进入 喷 水 阶 段 了 。 通 常 ， 汽 车 必须 以 相同 的 速度 通过 这 个 系统 ， 避 免 撞车 。 

流水 线 化 的 一 个 重要 特性 就 是 增加 了 系统 的 吞吐 量 〈throughput)， 也 就 是 单位 时 间 内 服务 的 顾 
客 总 数 ， 不 过 它 也 会 轻微 地 增加 执行 时 间 (latency)， 也 就 是 服务 一 个 用 户 需 要 的 时 间 。 例 如 ， 上 自助 
父 厅 里 的 一 个 只 舌 要 沙拉 的 顾客 ， 能 很 快 通过 一 个 非 流 水 线 化 的 系统 ， 只 在 沙拉 阶段 和 做 停留 。 但 
是 在 流水 线 化 的 系统 中 ， 这 个 顾客 如 果 试 图 直接 去 沙拉 阶段 就 有 可 能 招致 其 他 顾客 的 愤 念 了。 


4.4.1 计算 流水 线 
让 我 们 把 注意 力 放 到 计算 流水 线 上 来 , 这 里 的 “顾客 ”就 是 指令 , 每 个 阶段 执行 指令 的 一 部 分 。 
图 4.32 给 出 了 一 个 很 简单 的 非 流 水 线 化 的 硬件 系统 例子 。 它 是 由 一 些 执行 计算 的 逻辑 以 及 一 个 保存 
计算 结果 的 寄存 器 组 成 的 。 时 钟 信号 控制 在 每 个 特定 的 时 间 间 隔 加 载 寄存 器 。CD 播放 器 中 的 解码 
器 就 是 这 样 的 一 个 系统 。 输 入 信号 是 从 CD 表面 读 出 的 位 ， 风 辑 部 分 对 这 些 位 进行 解码 ， 产 生 音频 
信和 号。 图 中 的 计算 块 是 用 组 合 逻 辑 来 实现 的 ， 意 味 着 信号 会 穿 过 一 系列 逻辑 门 ， 在 一 定时 间 的 延迟 
之 后 ， 输 出 就 成 为 了 输入 的 某 个 承 数 。 
A) 硬件 : 未 流水 线 化 的 
300 ps 20 ps 


延迟 = 320 ps 
it & = 3.12 GOPS 


B) 流水 线 图 ia 


图 4.32 非 流 水 线 化 的 计算 硬件 
每 个 320ps 的 周期 和 内， 系统 用 300ps 计算 组 合 逻 辑 函 数 ，20ps 将 结果 存 到 输入 寄存 器 中 ， 


在 时 序 罗 辑 设 计 中 ， 电 路 延迟 是 以 微微 秒 (picosecond, WB “ps”, PRE 10°, Kit 
算 的 。 在 这 个 例子 中 ， 我 们 假设 组 合 逻 辑 需 要 300ps， 而 加 载 寄存 器 需要 20ps。 图 4.32 还 给 出 了 一 
种 时 序 图 ， 称 为 流水 线 图 (pipeline diagram)。 在 图 中 ， 时 间 从 左 向 右 流动 。 从 上 到 下 写 着 一 组 操作 
(在 此 称 为 OP1, OP2 和 OP3)。 实 心 的 长 方形 表示 执行 这 些 操作 的 时 间 。 这 个 系统 中 ， 在 开始 下 
一 个 操作 之 前 必须 完成 前 一 个 。 因 此 ， 这 些 方 框 在 垂直 方向 上 并 没有 相互 重 嫩 。 下 面 这 个 公式 给 出 
了 运行 这 个 系统 的 最 大 吞 吐 量 : 


Thoughput= 一 -一 一 一 一 一 一 = 3. 1 2GOPS 


我 们 以 每 秒 千 兆 次 操作 (简写 成 GOPS)， 也 就 是 每 秒 十 亿 次 操作 ， 为 单位 来 描述 吞吐 量 。 从 头 
到 尾 执行 一 条 指令 所 需要 的 时 间 称 为 执行 时 间 (latency )。 在 此 系统 中 ， 执 行 时 间 为 320ps， 也 就 是 
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否 吐 量 的 倒数 。 

假设 将 我 们 的 系统 执行 的 计算 分 成 三 个 阶段 (A、B 和 C)， 每 个 阶段 需要 100ps， 如 图 4.33 所 
未。 然后 在 各 个 阶段 之 间 放 上 流水 线 寄存 器 (pipeline registers )， 这 样 每 个 操作 都 会 按照 三 步 经 过 这 
个 系统 ， 从 头 到 尾 需 要 三 个 完整 的 时 钟 周 期 。 如 图 4.33 中 的 流水 线 图 所 示 ， 只 要 OP1 从 A 进入 B， 
BLA Ait OP2 进入 阶段 A T, 依 此 类 推 。 在 稳定 状态 下 , 三 个 阶段 都 应 该 是 活动 的 , 每 个 时 钟 周期 ， 
一 个 操作 离开 系统 ， 一 个 新 的 进入 。 从 流水 线 图 中 第 三 个 时 钟 周期 就 能 看 出 这 一 点 ， 此 时 ，OP1 是 
在 阶段 C，OP2 在 阶段 B, 而 OP3 是 在 阶段 A。 在 这 个 系统 中 , 我 们 将 时 钟 周期 设 为 100+20=120ps， 
FB A St AAA 8.33GOPS。 因 为 处 理 一 条 操作 需要 3 个 时 钟 周期 ， 所 以 这 条 流水 线 的 执行 时 
le) gi 3X120=360ps。 我 们 将 系统 吞吐 量 提 高 到 原来 的 8.33/3.12=2.67 倍 ， 代 价 是 增加 了 一 些 硬件 ， 
以 及 执行 时 间 的 少量 增加 (360/320=1.12)。 执 行 时 间 变 大 是 由 于 增加 的 流水 线 寄存 器 的 时 间 开 销 ， 

A) 硬件 ， 三 阶段 流水 线 
100 ps 20ps 100ps 20 ps 100 ps 20 ps 


延迟 = 360 ps 
吞吐 量 = 8.33 GOPS 


图 4.33 三 阶段 流水 线 化 的 计算 硬件 
计算 被 划分 为 三 个 阶段 A、B 和 C。 每 经 过 一 个 120ps 的 周期 ， 每 个 操作 就 行进 通过 一 个 阶段 。 


4.4.2 流水线 操作 的 详细 说 阴 

为 了 更 好 地 理解 流水 线 是 怎样 工作 的 ， 让 我 们 来 详细 看 看 流水 线 计 算 的 时 序 和 操作 。 图 4.34 给 
出 了 前 面 我 们 看 到 过 的 三 阶段 流水 线 (图 4.33) 的 流水 线 图 。 就 像 流 水 线 图 上 方 表明 的 那样 ， 流 水 
线 阶段 之 间 的 操作 转移 是 由 时 钟 信号 来 控制 的 。 FER 120ps, 信和 号 从 0 升 至 1， 开 始 流 水 线 阶 段 的 下 
一 组 计算 。 


时 钟 


OP1 
OP2 Ed 
OP3 SNE * 


O 120 240 360 480 640 
时 间 
图 4.34 ”三 阶段 流水 线 的 时 序 
时 钟 信 号 的 上 升 沿 控制 操作 从 一 个 流水 线 阶 段 移动 到 下 一 个 阶段 。 
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图 4.35 跟踪 了 时 刻 240~ 360 之 间 的 电路 活动 , 操作 OP1( 用 深 灰 色 表 示 ) 经 过 阶段 C,OP2 (H 
浅 灰 色 表 示 ) 经 过 阶段 B， 而 OP3 (用 中 度 灰 色 表 示 ) 经 过 阶段 A。 就 在 时 刻 240〔〈 点 1) 时 钟 上 升 


时 钟 
OPi 
OP2 
OP3 
时 间 0 4 i: 360 
© O60 
© 时 间 = 239 


100 ps 20 ps 100 ps 20 ps 100 ps 


© HA = 241 
100 ps 20 ps 100 ps 20 ps 100 ps 20 ps 


@ 时 间 = 300 
100 ps 20 ps 100 ps 20 ps 100 ps 20 ps 


@® 时 间 = 359 
100 ps 20 ps 100 ps 20 ps 100 ps 20 ps 


r 
«| kaza 
4 


图 4.35 流水 线 操作 的 一 个 时 钟 周期 
在 时 刻 240《〈 点 1)， 也 就 是 时 钟 上 升 之 前 ， 操 作 OP] (用 深 永 色 表 示 》 和 OP2 (用 浅 灰 色 表 示 ) 已 经 完成 了 阶段 B 和 A。 在 
时 钟 上 升 后 ， 这 些 操作 开始 传送 到 阶段 C 和 BB， 而 操作 OP3 (用 中 度 灰色 表示 ) 开始 经 过 阶段 A (点 2 和 3)。 就 在 时 钟 开始 
再 次 上 升 之 前 ， 这 些 操作 的 结果 就 会 传 到 流水 线 寄存 器 的 输入 〈 点 4)。 
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之 前 , 阶段 A 中 计算 的 操作 OP2 的 值 已 经 到 达 第 一 个 流水 线 寄存 器 的 输入 , 但 是 该 寄存 器 的 状态 和 
输出 还 保持 为 操作 OP1 在 阶段 A 中 计算 的 值 。 操 作 OPL 在 阶段 B 中 计算 的 值 已 经 到 达 第 二 个 流水 
线 寄存 器 的 输入 。 当 时 钟 上 升 时 ， 这 些 输 入 被 加 载 进 流水 线 寄存 器 ， 成 为 寄存 器 的 输出 《点 2). 7 
外 ， 阶 段 A 的 输入 被 设置 成 开始 操作 OP3 的 计算 。 然 后 信和 号 传播 通过 各 个 阶段 的 组 合 远 辑 〈 点 3)。 
就 像 图 中 点 3 处 的 曲线 化 的 波 阵 面 〈curved wavefront) 表明 的 那样 ， 信 号 可 能 以 不 同 的 速率 通过 各 
个 不 同 的 部 分 。 在 时 刻 360 之 前 , 结果 值 到 达 流 水 线 寄 存 器 的 输入 (点 4)。 当 时 刻 360 时 钟 上 升 时 ， 
各 个 操作 会 前 进 经 过 一 个 流水 线 阶段 。 

从 这 个 对 流水 线 操 作 详 细 的 描述 中 ， 我 们 可 以 看 到 减缓 时 钟 操 作 不 会 影响 流水 线 的 行为 。 信 号 
传播 到 流水 线 寄 存 器 的 输入 ， 但 是 直到 时 钟 上 升 时 才 会 改变 寄存 器 的 状态 。 另 一 方面 ， 如 条 时 钟 运 
行 得 太 快 ， 就 会 有 火 难 性 的 后 果 。 值 可 能 会 来 不 及 通过 组 合 逻 辑 ， 因 此 当时 钟 上 升 时 ， 寄 存 露 的 输 
入 还 不 是 合法 的 值 。 

根据 我 们 对 SEQ 处 理 器 的 时 序 的 讨论 (4.3.3 节 )， 我 们 看 到 那 种 在 组 合 逻 辑 块 之 间 有 条 用 时 钟 寄 
存 器 的 简单 机 制 就 是 够 控制 流水 线 中 的 操作 流 了 。 随 着 时 钟 周而复始 的 上 升 和 下 降 ， 不 同 的 操作 总 
会 通过 流水 线 的 各 个 阶段 ， 不 会 相互 干扰 。 


4.4.3 流水 线 的 局 限 性 

图 4.33 的 例子 给 出 了 一 个 理想 的 流水 线 化 的 系统 , 在 这 个 系统 中 ， 我 们 可 以 将 计算 分 成 三 个 相 
互 独立 的 阶段 ， 每 个 阶段 需要 的 时 间 是 原来 逻辑 需要 时 间 的 三 分 之 一 。 不 幸 的 是 ， 还 有 其 他 一 些 因 
素 会 减弱 流水 线 的 效率 。 

不 一 致 的 划分 

图 4.36 展示 的 系统 中 ， 和 前 面 一 样 ， 我 们 将 计算 划分 为 了 三 个 阶段 , 但 是 通过 这 些 阶段 的 延迟 从 
50ps 到 150ps 不 等 。 通 过 所 有 阶段 的 延迟 和 仍然 为 300ps。 不 过 ， 我 们 运行 时 钟 的 速率 是 由 最 慢 的 阶 
段 的 速度 限制 的 。 正 如 本 图 中 流水 线 图 表明 的 那样 ， 每 个 时 钟 周期 阶段 A Mee CHAR ATER 
AR) 100ps， 而 阶段 C 会 空闲 50ps。 只 有 阶段 B 会 一 直 处 于 活动 状态 。 我 们 必须 将 时 钟 周 期 设 为 
150+20=170ps, 也 就 是 吞吐 量 为 5.88 GOPS. 另外 , 由 于 时 钟 周期 减 慢 了 , 执行 时 间 也 增加 到 了 510ps。 

A) 硬件 ， 三 阶段 流水 线 ， 不 一 致 的 阶段 延迟 
50 ps 20ps 150 ps 20ps 100ps 20 ps 


XER = 510 ps 
吞吐 量 = 5.88 GOPS 


图 4.36 ”由 不 一 致 的 阶段 延迟 造成 的 流水 线 技术 的 局 限 性 
系统 的 看 叶 量 为 最 锚 阶 段 的 速度 所 限 。 
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AF RA AR OL, 将 系统 计算 设计 划分 成 一 组 具有 相同 延迟 的 阶段 是 一 个 主要 的 挑战 。 通 常 ， 
处 理 器 中 的 某 些 硬件 单元 ， 如 ALU 和 存储 器 ， 是 不 能 被 划分 成 多 个 延迟 较 小 的 单元 的 。 这 就 使 得 
创建 一 组 平衡 的 阶段 非常 困难 。 在 设计 我 们 的 流水 线 化 的 Y86 处 理 器 中 ， 我 们 不 会 过 于 关注 这 一 层 
次 的 细节 ， 但 是 理解 时 序 优化 在 实际 系统 设计 中 的 重要 性 还 是 非常 重要 的 。 


练习 题 4.21 
假设 我 们 分 析 图 4.32 中 的 组 合 逻 辑 ， 认 为 它 可 以 分 成 6 个 块 ， 依 次 命名 为 A~F， 延 迟 分 别 为 
ea ee 
PS 30 ps 60 ps 50 ps 70 ps 10ps 20ps 


ay a ee ere 
和 寄存器， 会 出 现 不 同 的 流水 线 深 度 (AS YAO) 和 最 大 吞吐 量 的 组 合 。 假设 每 个 流水 线 和 寄存 器 
的 延迟 为 20ps。 

A. 只 插入 一 个 寄存 器 ,得 到 一 个 两 阶段 的 流水 线 . 要 使 吞吐 量 最 大 化 ,该 在 哪里 插入 寄 夺 器 呢 ? 
吞吐 量 和 执行 时 间 是 多 少 ? 

B. 要 使 一 个 三 阶段 的 流水 线 的 吞吐 量 最 大 化 , 该 将 两 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 和 执行 时 间 
是 多 少 ? 

C. 要 使 一 个 四 阶段 的 流水 线 的 吞吐 量 最 大 化 , 该 将 三 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 和 执行 时 间 
是 多 少 ? 

D. 要 得 到 一 个 吞吐 量 最 大 的 设计 ， 至 少 要 有 几 个 阶段 ? 描述 这 个 设计 及 其 吞吐 量 和 执行 时 间 。 

流水 线 过 深 收益 反而 下 降 

图 4.37 说 明了 流水 线 技术 的 另 一 个 局 限 性 。 在 这 个 例子 中 ， 我 们 把 计算 分 成 了 6 个 阶段 ， 每 个 
阶段 需要 50ps。 在 每 对 阶段 之 间 插 入 流水 线 寄存 器 就 得 到 了 一 个 六 阶段 流水 线 。 这 个 系统 的 最 小 时 
钟 周 期 为 50+20=70ps, FILEN 14.29 GOPS。 因 此 ， 通 过 将 流水 线 的 阶段 数 加 倍 ， 我 们 将 性 能 提 
局 了 14.29/8.33=1.71。 虽 然 我 们 将 每 个 计算 时 钟 的 时 间 缩 短 了 两 倍 ， 但 是 由 于 通过 流水 线 寄 存 器 的 
延 夫 ， 耕 吐 量 并 没有 加 倍 。 这 个 延迟 成 了 流水 线 乔 吐 量 的 一 个 制约 因素 。 在 我 们 的 新 设计 中 ， 这 个 
延 运 占 到 了 整个 时 钟 周期 的 28.6%。 

现代 处 理 器 为 了 提高 时 钟 频率 ， 采 用 了 很 深 的 〈15 或 更 多 的 阶段 ) 流水 线 。 处 理 器 设计 师 将 指 
令 的 执行 划分 成 很 多 非常 简单 的 步骤 ， 这 样 一 来 每 个 阶段 的 延迟 就 很 小 。 电 路 设计 者 小 心地 设计 流 
水 线 寄存 器 ， 使 其 延迟 尽 可 能 得 小 。 芯 片 设计 者 也 必须 小 心地 设计 时 钟 传播 网 络 ， 以 保证 时 钟 在 整 
个 心 厂 上 同时 改变 。 所 有 这 些 都 是 设计 高 速 微 处 理 器 面临 的 挑战 。 

练习 题 4.22 

让 我 们 来 看 看 图 432 中 的 系统 ， 将 它 划 分 成 任意 多 个 流水 线 阶段 ， 每 个 阶段 有 相同 的 延迟 。 和 如 
RY RRKR GAS HERA 20ps， 知 吐 量 的 上 限 是 多 少 呢 ? 
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50ps 20ps 50ps 20ps 50ps fd 50 ps fni 50ps 20ps 50ps 20ps 


Ac Gi 组 合 al 组 合 了 弓 合 
L 420 ps, fit & = 14.29 GOPS 


图 4.37 ”由 开销 造成 的 流水 线 技术 的 局 限 性 
在 组 合 逻 辑 被 分 成 较 小 的 块 时 ， 由 寄存 器 更 新 引起 的 延迟 就 成 为 了 一 个 限制 因素 。 


4.4.4 市 反馈 员 的 流水 线 系统 

到 目前 为 止 , 我 们 只 考虑 这 样 一 种 系统 ， 其 中 传 过 流水 线 的 对 和 象 , 无 论 是 汽车 、 人 ,还 是 指令 ， 
相互 都 是 完全 独立 的 。 但 是 ， 对 于 像 IA32 或 Y86 这 样 执行 机 器 程序 的 系统 来 说 ， 相 邻 指 令 之 间 很 
可 能 是 相关 的 。 例 如 ， 考 虑 下 面 这 个 Y86 指令 序列 : 


1 irmovl $50, 
3 mrmovl 100((%ebx 


在 这 个 包含 三 条 指令 的 序列 中 ， 每 对 相 邻 的 指令 之 间 都 有 数据 相关 〈data dependency), FARM 
的 寄存 器 名 字 和 它们 之 间 的 箭头 来 表示 。irmovl 指令 (第 一 行 ) 将 它 的 结果 存放 在 %eax 中 ， 然 后 
addl 指令 第 二 行 》 要 读 这 个 值 ， 而 add 指令 将 它 的 结果 存放 在 9%ebx 中 ，mrmovl 指令 (第 三 
要 读 这 个 值 。 

另 一 种 相关 是 由 指令 控制 流 造成 的 顺序 相关 (sequential dependency)。 来 看 看 下 面 这 个 Y86 指 
令 序列 


), SEedx 


1 loop: 

2 subl %edx, tebx 
3 jne targ 

4 irmovl $10, %edx 
5 jmp loop 

6 targ: 

7 halt 


jne 指令 【第 三 行 ) 产生 了 一 个 控制 相关 〈control dependency)， 因 为 条 件 测试 的 结果 会 决定 要 
执行 的 新 指令 是 irmovl 指令 (第 四 行 ) 还 是 hat 指令 (第 七 行 )。 在 我 们 的 SEQ 设计 中 ， 这 些 相关 
部 是 由 反馈 路 径 来 解决 的 ， 如 图 4.20 的 右边 所 示 。 这 些 反馈 将 更 新 的 寄存 器 值 向 下 传送 到 寄存 器 文 
件 ， 将 新 的 PC 值 传送 到 PC 寄存 器 。 

图 4.38 举例 说 明了 将 流水 线 引 入 含有 反馈 路 径 的 系统 中 的 危险 。 在 原来 的 系统 (A) 中， 每 
个 操作 的 结果 都 反馈 给 下 一 个 操作 。 流 水 线 图 CB) 就 说 明了 这 个 情况 ，OP1 的 结果 成 为 OP2 的 
输入 ， 依 此 类 推 。 如 果 我 们 试图 将 它 转 换 成 一 个 三 阶段 流水 线 (C)， 我 们 将 改变 系统 的 行为 。 如 
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流水 线 图 CC) Pras, OPI 的 结果 成 为 OP4 的 输入 。 为 了 通过 流水 线 技术 加 速 系统 ， 我 们 改变 了 
系统 的 行为 。 

当 我 们 将 流水 线 技术 引入 Y86 处 理 器 时 ， 我 们 必须 正确 处 理 反 馈 的 影响 。 很 明显 ， 像 图 4.38 
中 例子 那样 改变 系统 的 行为 是 不 可 接收 的 。 我 们 必须 以 某 种 方式 来 处 理 指令 间 的 数据 和 控制 相关 ， 
以 使 得 到 的 行为 与 ISA 定义 的 模型 相符 。 


A) E: 未 流水 线 化 ， 带 反馈 


: 寄 
组 全 逻辑 E 
起 
时 钟 
BP) 流水 线 图 
oP10 
OP2 


OP3 


时 间 


O 硬件 : 带 反 馈 的 三 阶段 流水 线 


时 间 


图 4.38 由 逻辑 相关 造成 的 流水 线 技术 的 局 限 性 
在 从 未 流水 线 化 的 带 反馈 的 系统 (A) 转化 到 流水 线 化 的 系统 (CC) 的 过 程 中 ， 我 们 改变 了 它 的 组 合 逻 辑 的 行为 ， 可 以 从 两 个 
流水 线 图 (BAD) 中 看 出 来 。 
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4.5 Y86 的 流水 线 实 现 


我 们 终于 准备 好 要 开始 本 章 的 主要 任务 一 一 设计 一 个 流水 线 化 的 Y86 处 理 器 了 。 我 们 开始 时 以 
SEQ+ 作 为 基础 ， 在 各 个 阶段 之 间 添 加 流水 线 寄 存 器 。 我 们 最 初 并 不 尝试 正确 地 处 理 不 同 的 数据 和 和 控 
制 相 关 。 不 过 ， 经 过 一 些 修 改 ， 我 们 将 达到 目的 ， 得 到 一 个 实现 Y86 ISA 的 、 有 效 的 、 流 水 线 化 的 
处 理 器 。 


4.5.1 插入 流水 线 寄存 器 

在 我 们 创建 一 个 流水 线 化 的 Y86 处 理 器 的 最 初 尝 试 中 ， 我 们 要 在 SEQ+ 的 各 个 阶段 之 间 插 入 流 
水 线 寄存 器 ， 并 对 信号 重新 做 了 排列 ， 得 到 PIPE- 处 理 器 ， 这 里 名 字 中 和 的“- ”代表 这 个 处 理 器 和 
最 终 的 处 理 器 设计 相 比 ， 性 能 要 差 一 点 。PIPE- 的 抽象 结构 如 图 4.39 所 示 。 流 水 线 寄 存 器 在 该 图 中 
用 浅 灰 色 方 框 表示 。 每 个 寄存 器 可 以 存放 多 个 字 节 和 字 ， 待 会 我 们 会 看 到 。 可 以 观察 到 PIPE- 使 用 
的 硬件 单元 与 我 们 的 两 个 顺序 设计 : SEQ (图 4.20) 和 SEQ+ (图 4.30) 完全 一 样 。 

流水 线 寄存 器 是 按 如 下 方式 标号 的 : 

F 保存 程序 计数 器 的 预测 值 ， 待 会 儿 会 讨论 。 

D 位 于 取 指 和 解码 阶段 之 间 。 它 保存 关于 最 新 取出 的 指令 的 信息 ， 即 将 由 解码 阶段 进行 处 理 。 

E 位 于 解码 和 执行 阶段 之 间 。 它 保存 关于 最 新 解码 的 指令 和 从 寄存 器 文件 读 出 的 值 的 信息 ， 
即将 由 执行 阶段 进行 处 理 。 

M 位 于 执行 和 访 存 阶段 之 间 。 它 保存 最 新 执行 的 指令 的 结果 ， 中 将 由 访 存 阶段 进行 处 理 。 亡 
还 你 存 关 于 用 于 处 理 条 件 转移 的 分 文 条 件 和 分 支 目 标的 信息 。 

W 位 于 访 存 阶段 和 反馈 路 径 之 间 ， 反 馈 路 径 将 计算 出 来 的 值 提 供给 寄存 器 文件 号， 而 当 完 成 
ret 指令 时 ， 它 还 要 间 PC 选择 逻辑 提供 返回 地 址 ， 

图 4.40 表明 的 是 下 面 这 段 代码 序列 是 怎样 通过 我 们 的 五 阶段 流水 线 的 , 其 中 对 各 条 指令 的 注释 
用 I~ 15 来 表示 : 


irmovl S$1, Seax I1 


1 # 

2 irmovl $2,%ecx # I2 

3 irmovl $3,%edx # I3 

4 irmovl $4,%ebx # 14 

5 halt # I5 

图 中 石 边 给 出 了 这 个 指令 序列 的 流水 线 图 。 同 4.4 节 中 简单 流水 线 化 的 计算 单元 的 流水 线 图 -- 
样 ， 这 个 图 摘 述 了 每 条 指令 通过 流水 线 各 个 阶段 的 行进 过 程 ， 时 间 是 从 左 往 右 增 大 的 。 寺 和 面 一 条 数 
字 表 明 各 个 阶段 发 生 的 时 钟 周期 。 例 如 ， 在 周期 1 取出 指令 11， 然 后 它 开始 通过 流水 线 各 个 阶段 ， 
到 周期 5 结束 时 ， 其 结果 写 入 寄存 器 文件 。 在 周期 2 取出 指令 11， 到 周期 6 结束 时 ， 其 结果 写 回 ， 
以 此 类 推 。 在 最 下 面 ， 我 们 给 出 了 当 周 期 为 5 时 的 流水 线 的 扩展 图 。 此 时 ， 每 个 流水 线 阶段 中 各 有 
一 条 指令 ， 

从 图 4.40 F, 我 们 还 可 以 看 到 我 们 画 处 理 器 的 习惯 是 合理 的 , 这 样 , 指令 是 自 底 向 上 的 流动 的 。 
周期 5 时 的 扩展 图 表明 的 流水 线 阶段 , 取 指 阶段 在 底部 , 写 回 阶段 在 最 上 面 , 正如 流水 线 硬件 图 (图 
4.39) 表明 的 一 样 ， 如 果 看 看 流水 线 各 个 阶段 中 指令 的 顺序 ， 就 会 发 现 它们 出 现 的 顺序 与 在 程序 中 
列 出 的 顺序 一 样 。 因 为 正常 的 程序 是 从 上 到 下 列 出 的 ,我 们 保留 这 种 顺序 , 让 流水 线 从 下 到 上 进行 。 
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在 使 用 与 本 内 容 有 关 的 模拟 器 时 ， 这 个 习惯 会 特别 有 用 。 


W_valE, W_valM, W_dstE, W_dstM 


W_icode, W_valM 


访 存 
执行 ALU 
aluA, aluB 
valA, valB 
d_srcA, — a 
RES d srcB A By 
寄存 器 文件 
| 3 写 回 
icode, ifun 
rÀ, rB, valC ia _ valP 
取 指 Le | ai E | o > ` 1 
mone | oe 
PE de a predPC 
程序 计数 器 
(PC) f PC 


4.39 PIPE- 的 抽象 视图 


通过 往 SEQ+ (E 4.30 中 插入 流水 线 寄存 器 ， 我 们 创建 了 一 个 五 阶段 的 流水 线 。 这 个 版 本 有 几 个 缺陷 ， 待 会 儿 我 们 就 会 解决 
这 些 问 题 。 
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irmovl $1, teax #T1 
irmovl $2, tecx #I2 
irmovl $3, tedx #I3 
irmovl $4, tebx #14 
halt #15 


图 4.40 ”指令 流通 过 流水 线 的 示例 


图 4.41 给 出 了 一 个 更 详细 的 PIPE- 硬 件 结构 的 说 明 。 可 以 看 到 每 个 流水 线 寄 存 器 包含 多 个 字段 
《用 日 色 方 框 表示 )， 对 应 于 与 不 同 指令 通 过 流水 线 有 关 的 信和 号。 与 两 个 顺序 处 理 器 的 硬件 结构 (图 
4.21 和 4.31〉 中 用 贺 角 方 框 表示 的 标号 不 同 ， 这 些 白色 方 框 代表 实际 的 硬件 部 件 。 

比较 SEQ+ 的 抽象 结构 (图 4.30 和 PIPE- 的 抽象 结构 (图 4.39)， 我 们 看 到 虽然 通过 各 个 阶段 
的 流 非常 相似 ， 但 是 还 是 有 一 些 细微 的 差别 的 。 在 继续 详细 实现 之 前 ， 让 我 们 来 看 看 这 些 差别 。 


45.2 ”对 信号 进行 重新 排列 和 标号 

SEQ+ 一 次 只 处 理 一 条 指令 ， 所 以 诸如 valC. srcA 和 valE 这 样 的 信号 有 惟 一 的 值 。 在 流水 线 
化 的 设计 中 ， 对 应 于 正在 经 过 系统 的 各 个 指令 ， 有 多 组 这 样 的 值 。 例 如 ， 在 PIPE- 的 详细 结构 中 ， 
有 四 个 标号 为 “icode ”的 白色 方 框 ， 保 存 着 四 个 不 同 指令 的 icode 信号 ( 见 图 4.41)。 我 们 要 很 小 
心地 保证 使 用 的 是 正确 的 信号 值 ， 否 则 就 会 出 现 严重 错误 ， 例 如 ， 将 一 条 指令 计算 出 的 结果 存 入 
为 一 条 指令 指定 的 目的 寄存 器 中 。 在 我 们 采用 的 命名 机 制 中 ， 通过 在 信号 名 字 前 加 上 大 写 的 流水 
线 寄存 器 的 名 字 作 为 前 级， 可 以 惟一 地 确定 存放 在 流水 线 寄存 器 中 的 信号 。 例 如， 由 个 icode 但 
Tt il tit A D_icode. E_icode. M_icode 和 W_icode。 我 们 还 需要 引用 某 些 在 一 个 阶段 内 刚刚 计算 
出 来 的 信和 号。 它们 的 命名 是 在 信号 名 前 面 加 上 小 写 的 阶段 名 的 第 -一 个 字母 作为 前 绿 ， 例 如 d_srcA 
和 e_Bch. 

SEQ+ 和 PIPE- 的 解码 阶段 都 产生 信号 dstE 和 dstM， 它 们 指明 值 valE 和 valM FY ERO By 4738. 
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在 SEQ+ 中 ， 我 们 可 以 将 这 些 信号 直接 连 到 寄存 器 文件 写 端口 的 地 址 输入 。 在 PIPE- 中 ， 会 在 流水 
线 中 一 直 携 带 这 些 信号 穿 过 执行 和 访 存 阶段 ， 直 到 写 回 阶段 才 送 到 寄存 器 文件 〈 见 各 个 阶段 的 详细 
描述 所 示 )。 我 们 这 样 做 是 为 了 确保 写 端 口 的 地 址 和 数据 输入 是 来 自 同 一 条 指令 。 否 则 , 会 将 处 于 写 
回 阶段 的 指令 的 值 写 入 ， 而 寄存 器 D 却 来 自 于 处 于 解码 阶段 的 指令 。 作 为 一 条 通用 有 原则， 我 们 要 
保存 处 于 一 个 流水 线 阶 段 中 的 指令 的 所 有 信息 。 


= | icode ifun valC 


PEE 


[B fes itun] ajej vac || ve | 


| L 
取 指 指令 寄存 器 PC 
增加 
LPC 本 \ 


En eee 


图 4.41 PIPE- 的 硬件 结构 ， 一 个 初始 的 流水 线 化 的 实现 
并 没有 画 出 所 有 的 连接 。 


PIPE- 中 有 一 个 块 是 在 相同 表示 形式 的 SEQ+ 中 没有 的 ， 那 就 是 解码 阶段 中 标号 为 “Select A” 
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一 一 P O 
的 块 。 我 们 可 以 看 出 ， 这 个 块 会 从 来 自流 水 线 寄存 器 D 的 valP 或 从 寄存 器 文件 A 端口 中 读 出 的 值 
中 选择 一 个 , 作为 流水 线 寄 存 器 E 的 值 vala. 包括 这 个 块 是 为 了 减少 要 携带 给 流水 线 寄存 器 E 和 M 
的 状态 数量 ， 在 所 有 的 指令 中 ， 只 有 call 在 访 存 阶段 需要 vaP 的 值 ， 只 有 跳 转 指令 在 执行 阶段 ( 当 
不 需要 进行 跳 转 时 ) 需要 valP 的 值 ， 而 这 些 指令 又 都 不 需要 从 寄存 器 文件 中 读 出 的 值 。 因 此 我 们 合 
并 这 两 个 信号 ,将 它们 作为 信号 valA 携带 穿 过 流水 线 ， 从 而 可 以 减少 流水 线 寄存 器 的 状态 数量 。 这 
丁 做 就 消除 了 SEQ (图 4.21) 和 SEQ+ (图 4.31) 中 标号 为 “Data” 的 块 ， 这 个 块 完成 的 就 是 类 似 
的 功能 。 在 硬件 设计 中 ， 像 这 样 仔细 确认 信号 是 如 何 使 用 的 ， 然后 通过 合并 信号 来 减少 寄存 器 状态 
和 线路 的 数量 ， 是 很 常见 的 。 


4.5.3 预测 下 一 个 PC 

{E PIPE- 设 计 中 ， 我 们 采取 了 一 些 措施 来 正确 处 理 控制 相关 。 我 们 流水 线 化 的 设计 的 目的 就 是 
每 个 时 钟 周期 都 发 射 (issue) 一 条 新 指令 ， 也 就 是 说 每 个 时 钟 周期 都 有 条 新 指令 进入 执行 阶段 并 
节余 完成 。 要 是 达到 这 个 目的 也 就 意味 着 吞吐 量 是 每 个 时 钟 周 期 一 条 指令 。 为 了 达到 这 个 目的 ， 我 
们 必须 在 取出 当前 指令 之 后 ， 马 上 确定 下 一 条 指令 的 位 置 。 不 幸 的 是 ， 如 朱 取 出 的 指令 是 条 件 分 支 
指令 ， 要 到 几 个 周期 后 ， 也 就 是 指令 通过 执行 阶段 之 后 ， 我 们 才能 知道 是 否 要 选择 分 支 。 类 似 地 ， 
如 朱 取 出 的 指令 是 ret， 要 到 指令 通过 访 存 阶段 ， 才 能 确定 返回 地 起 。 

除了 条 件 转移 指令 和 ret 这 些 例外 ， 根 据 取 指 阶段 中 计算 的 信息 ， 我 们 能 够 确定 下 一 条 指令 的 
地 址 。 对 于 call 和 jmp (RABE) 来 说 ， 下 一 条 指令 的 地 址 是 指令 中 的 常数 字 valC， 而 对 于 其 
他 指令 来 说 就 是 valP。 因 此 ， 通 过 预测 PC 的 下 一 个 值 ， 在 大 多 数 情 况 下 ， 我 们 能 达到 每 个 时 钟 周 
期 发 射 一 条 新 指令 的 目的 。 对 大 多 数 指令 类 型 来 说 ， 我 们 的 预测 是 完全 可 靠 的 。 对 条 件 转移 来 说 ， 
我 们 陛 可 以 预测 选择 了 分 支 ， 那 么 新 PC 值 应 为 valc, 也 可 以 预测 没有 选择 分 支 ， 那 么 新 PC 值 应 
为 valP。 无 论 在 哪 种 情况 中 ， 我 们 都 必须 以 某 种 方式 来 处 理 我 们 预测 错误 的 情况 ， 因 为 此 时 我 们 已 
红 取 出 并 部 分 执行 了 错误 的 指令 。 我 们 会 在 4.5.9 节 中 再 讨论 这 个 问题 。 

独 负 分 支 方向 并 根据 猜测 开始 取 指 的 技术 称 为 分 支 预测 。 实 际 上 所 有 的 处 理 器 都 采用 了 某 种 形 
式 的 此 类 技术 。 对 于 预测 是 否 选 择 分 支 的 有 效 策略 已 经 进行 了 广泛 的 研究 [31]。 有 的 系统 花费 了 大 
量 使 件 来 解决 这 个 任务 。 在 我 们 的 设计 中 ,只 使 用 了 简单 的 策略 ， 那 束 十 总 是 预测 选择 了 条 件 分 支 ， 
Alm FA PC 的 新 值 为 valC。 


Sit: 其 他 的 分 支 预 测 策略 

我 们 的 设计 使 用 总 是 选择 (always taken) 分 支 的 预测 策略 ， 研究 表明 这 个 策略 的 成 功率 大 约 为 
00%[31]。 反 过 米 ， 从 不 选择 〔【nevertaken，NT) 策略 的 成 功率 大 约 为 40%. 一 种 稍微 复杂 一 点 的 ， 
称 为 反 向 选择 、 正 向 不 选择 (backward taken, forward not-taken, BTFNT) 的 策略 ， 当 分 支 地 址 较 
低 时 就 预测 选择 分 支 ， 而 分 支 地 址 较 高 时 ， 就 预测 不 选择 分 支 而 选择 下 一 条 指令 。 这 种 策略 的 成 功 
率 大 约 为 65%。 这 种 改进 是 源 自 这 样 一 个 事实 ， 那 就 是 循环 是 由 后 向 分 支 结束 的 ， 而 循环 通常 会 执 
行 多 次 。 前 向 分 支 用 于 条 件 操 作 ， 而 选择 的 可 能 性 较 小 、 在 家 庭 作 业 4.39 和 440 中 ， 你 可 以 修改 
Y86 流水 线 处 理 器 来 实现 NT 和 BTFNT 分 支 预测 策略 ， 

不 成 功 的 分 支 预测 对 程序 性 能 的 影响 将 在 5.12 节 中 程序 优化 的 上 下 文中 讨论 ， 


RIDERIT ret 指令 的 新 PC 值 没有 讨论 。 同 条 件 转移 不 同 , 此 时 可 能 的 返回 值 几乎 是 无 限 的 ， 
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因为 返回 地 址 是 位 于 栈 项 的 字 ， 其 内 容 可 以 是 任意 的 。 在 我 们 的 设计 中 ， 我 们 不 会 试图 对 返回 地 址 
做 任何 预测 。 我 们 只 是 简单 地 暂停 处 理 新 指令 ， 直 到 ret 指令 通过 写 回 阶段 。 在 4.5.9 节 中 ， 我 们 将 
回 过 来 讨论 这 部 分 的 实现 。 


Sit: 带 堆 栈 的 返回 地 址 预测 

对 大 多 数 程序 来 说 ,很 容易 预测 返回 值 ， 因 为 过 程 调用 和 返回 是 成 对 出 现 的 。 大 多 数 函 数 调 用 ， 
会 返回 到 调用 后 的 那 条 指令 。 高 性 能 处 理 器 中 运用 了 这 个 属性 ， 在 取 指 单元 中 放 入 一 个 硬件 栈 ， 它 
保存 着 过 程 调用 指令 产生 的 返回 地 址 。 每 次 执行 过 程 调用 指 邻 时， 都 将 其 返回 地 址 压 入 栈 中 。 当 取 
出 一 个 返回 指令 时 ， 就 从 栈 中 弹出 最 上 面 的 值 ， 作 为 预测 的 返回 值 。 同 分 支 预测 一 样 ， 也 必须 提供 
在 预测 错误 时 的 恢复 机 制 ， 因 为 还 是 有 调用 和 返回 不 匹配 的 时 候 。 通 常 ， 这 种 预测 是 很 可 靠 的 。 这 
个 硬件 栈 对 程序 员 来 说 是 不 可 见 的 。 


PIPE- 的 取 指 阶段 ， 如 图 4.41 底部 所 示 ， 负 责 预测 PC 的 下 一 个 值 ， 以 及 为 指令 的 读 取 选择 实 
际 的 PC。 我 们 可 以 看 到 ， 标 号 为 “Predict PC (预测 PC)” 的 块 会 从 PC 增加 器 (incrementer) 计算 
出 的 valP 和 取出 的 指令 中 得 到 的 valC 中 进行 选择 。 这 个 值 会 存放 在 流水 线 寄存 器 下 中， 作为 程序 
计数 器 的 预测 值 。 标 号 为 “Select PC (选择 PC)” 的 块 类 似 于 SEQ+ 的 PC 选择 阶段 中 标号 为 “PC” 
的 块 (图 4.31)。 它 从 三 个 值 中 选择 一 个 作为 指令 存储 器 的 地 址 : 预测 的 PC， 对 于 不 选择 分 支 的 指 
令 来 说 的 valP 的 值 〈 该 指令 到 达 流 水 线 寄存 器 M， 并 且 vaP 值 存储 在 寄存 器 M_valA F), 或 是 当 
ret 指令 到 达 流 水 线 寄存 器 W (存储 在 W_valM) 时 的 返回 地 址 的 值 。 

当 我 们 在 4.5.9 节 完 成 流水 线 控制 逻辑 时 ， 会 返回 来 处 理 跳 转 和 返回 指令 的 。 


4.5.4 WKK (hazard) 

我 们 的 PIPE- 结 构 是 创建 一 个 流水 线 化 的 Y86 处 理 器 的 好 开端 。 不 过 ， 回 忆 一 下 我 们 在 4.4.4 
广 中 的 讨论 ， 将 流水 线 技术 引入 一 个 带 反 馈 的 系统 会 导致 相 邻 指令 间 在 发 生 相 关 时 出 现 问 题 。 在 完 
成 我 们 的 设计 之 前 ， 必 须 解决 这 个 问题 。 这 些 相关 有 两 种 形式 : 数据 相关 ， 下 一 条 指令 会 用 到 这 
一 条 指令 计算 出 的 结果 ; 人 @@ 控 制 相 关 ， 一 条 指令 要 确定 下 一 条 指令 的 位 置 ， 例 如 在 执行 跳 转 、 调 用 
或 返回 指令 时 。 这 些 相关 可 能 会 导致 流水 线 产 生计 算 错误 ， 称 为 冒险 。 同 相关 一 样 ， 冒 险 也 可 以 分 
为 两 类 : 数据 冒险 (data hazard) 和 控制 冒险 (control hazard)。 在 本 节 中 ,我们 关心 的 是 数据 冒险 。 
我 们 会 将 控制 冒险 作为 整个 流水 线 控制 的 一 部 分 加 以 讨论 (4.5.9 节 )。 

图 4.42 描述 的 是 PIPE- 处 理 器 处 理 称 为 prog1 的 指令 序列 的 情况 。 这 段 代码 将 值 10 和 3 放 入 程 
序 寄存 器 %edx Al%eax, 执行 三 条 nop 指令 ,然后 将 寄存 器 9%edx 加 到 %eax .我 们 重点 关注 两 条 irmovl 
指令 和 add] 指令 之 间 的 数据 相关 可 能 造成 的 数据 冒险 。 在 图 的 右边 ,我 们 给 出 了 这 个 指令 序列 的 流 
水 线 图 。 在 这 个 流水 线 图 中 突出 显示 了 周期 6 和 7 的 流水 线 阶段 。 流 水 线 图 的 下 面 是 周期 6 中 写 回 
aA AT 中 解码 活动 的 详细 说 明 。 在 周期 7 开始 以 后 ， 两 条 irmovl 都 已 经 通过 写 回 阶段 ， 所 以 
寄 仓 加 文件 保存 着 更 新 过 的 9oedx 和 9%eax 的 值 。 因 此 ， 当 add 指令 在 周期 7 经 过 解码 阶段 时 ， 它 是 
可 以 读 到 源 操作 数 的 正确 值 的 。 在 此 示例 中 , 两 条 irmovl 指令 和 add 指令 之 间 的 数据 相关 没有 造成 
数据 冒险 。 

我 们 看 到 prog) 通过 流水 线 并 得 到 正确 的 结果 ， 因 为 三 条 nop 指令 在 有 数据 相关 的 指令 之 间 创 
运 了 一 些 延 迟 。 让 我 们 来 看 看 如 果 去 掉 这 些 nop 指令 会 发 生 些 什么 。 图 4.43 描述 的 是 一 个 叫做 prog2 
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的 程序 的 流水 线 流程 ,在 两 条 产生 寄存 器 Wedx 和 9%eax 值 的 irmovl 指令 和 以 这 两 个 寄存 器 作为 操作 
数 的 addl 指令 之 间 有 两 条 nop 指令 。 在 这 种 情况 下 ， 关 键 步骤 发 生 在 周期 6， 此 时 add 指令 从 寄存 
器 文件 中 读 取 它 的 操作 数 。 该 图 底部 给 出 的 是 这 个 周期 内 流水 线 活 动 的 详细 描述 。 第 一 个 immavl 指 
令 已 经 通过 了 写 回 阶段 ， 因 此 程序 寄存 器 %edx 已 经 在 寄存 器 文件 中 更 新 过 了 。 在 该 周期 内 ， 第 二 
个 irmovl 指令 处 于 写 回 阶段 ， 因 此 对 程序 寄存 器 %eax 的 写 要 到 周期 7 开始 ， 时 钟 上 升 时 ， 才 会 发 
生 。 结 果 ， 会 读 出 %eax 的 错误 值 〈 在 此 我 们 假设 所 有 的 寄存 器 的 初始 值 为 0)， 因 为 对 该 寄存 器 的 
写 还 未 发 生 。 很 明显 ， 我 们 的 流水 线 还 不 能 正确 处 理 这 样 的 冒险 。 


# progl 

0x000: irmovl $10, tedx 
0x006: irmovl $3, teax 
Ox00c: nop 

0x00d: nop 

Ox00e: nop 

Ox00f: addl tedx, teax 


Ox01l1: halt 


| 只 [seax] 4 一 3 


周期 7 


valA +— R[tedx] = 10 
valB +— Rlseax] = 3 


图 4.42 prog] 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 
在 周期 6 中 ， 第 二 个 irmovl 将 结果 写 入 寄存 器 %eax。addl 指令 在 周期 7 读 源 操作 数 ， 因 此 得 到 的 是 %edx 和 %eax 的 正确 值 。 


图 4.44 给 出 的 是 当 rimovl 指令 和 addl 指令 之 间 只 有 一 条 nop 指令 , 即 为 程序 prog3 Hj, RÆK 
情况 。 现 在 我 们 必须 检查 周期 5 内 流水 线 的 行为 ， 此 时 add 指令 通过 解码 阶段 。 不 幸 的 是 ， 对 寄存 
fr Yoedx 的 与 仍 处 在 写 回 阶段 ， 而 对 寄存 器 %eax 的 写 还 处 在 访 存 阶段 。 因 此 ，addl 指令 会 得 到 两 个 
错误 的 操作 数 。 

图 4.45 给 出 的 是 当 我 们 去 掉 irmovl 指令 和 add 指令 间 的 所 有 nop 指令 , 即 为 程序 prog4 时 , 发 
生 的 情况 。 现 在 我 们 必须 检查 周期 4 内 流水 线 的 行为 ， 此 时 addl 指令 通过 解码 阶段 。 NEA HE, X) 
寄存 器 %edx 的 写 仍 处 在 访 存 阶 段 ， 而 执行 阶段 正在 计算 寄存 器 %eax 的 新 值 。 因 此 ，addl 指令 的 两 
个 操作 数 都 是 不 正确 的 。 

这 些 例子 说 明 ， 如 果 一 条 指令 的 操作 数 被 它 前 面 三 条 指令 中 的 任意 一 条 改变 的 话 ， 都 会 出 现 
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数据 冒险 。 之 所 以 会 出 现 这 些 冒 险 ， 是 因为 我 们 的 流水 线 化 的 处 理 器 是 在 解码 阶段 从 寄存 器 文件 
中 读 取 指令 的 操作 数 ， 而 要 到 三 个 周期 以 后 ， 指 令 经 过 写 回 阶 段 时 ， 才 会 将 指令 的 结果 写 到 寄存 
器 文件 。 


# prog2 1 2 3 4 5 6 T 8 9 10 
0x000: irmovl $10, tedx 
0x006: irmovl $3, teax 
OxO0Cc: nop 

Ox00d: nop 

Ox00e: addl tedx, teax 


0x010: halt 


JRA 6 


valA + R[ztedx] = 10 
valB e R[seax] = O 


mE 


图 4.43 prog2 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 
直到 周期 6 结束 时 ， 对 寄存 器 9%eax 的 写 才 发 生 ， 导 致 aadl 指令 在 解码 阶段 读 出 的 是 该 寄存 器 的 错误 值 。 


Bit: 列举 数据 冒险 的 类 型 

当 一 条 指令 更 新 后 面 指令 会 读 到 的 那些 程序 状态 时 ， 就 有 可 能 出 现 冒 险 。 所 谓 的 程序 状态 包括 
程序 寄存 器 、 条 件 码 、 存 储 跨 和 程序 计数 器 。 下 面 让 我 们 来 看 看 每 类 状态 出 现 ,冒险 的 可 能 性 . 

BAERS: 我们 已 经 认识 这 种 冒险 了 。 出 现 这 种 冒险 是 因为 寄存 器 文件 的 读 写 是 在 不 同 的 阶 
段 进行 的 ， 导 致 不 同 指令 之 间 可 能 出 现 不 希望 的 相互 作用 。 

RM: 在 执行 阶段 中 ， 距 可 能 写 (整数 操作 ) 也 可 能 读 (条 件 转移 ) 条 件 码 。 在 条 件 转移 经 
过 这 个 阶段 之 前 ， 前 面 所 有 的 整数 操作 都 已 经 完成 这 个 阶段 了 。 所 以 不 会 发 生 冒 险 。 

程序 计数 器 : 更 新 和 读 取 程 序 计数 器 之 间 的 冲突 导致 了 控制 冒险 。 当 我 们 的 取 指 阶段 还 辐 在 取 
下 一 条 指令 之 前 ， 正 确 预 测 了 程序 计数 器 的 新 值 时 ， 就 不 会 产生 冒险 。 预 测 错误 的 分 支 和 ret 指令 
需要 特殊 的 处 理 ， 会 在 4.5.9 节 中 讨论 。 

BME: 对 数据 存储 器 的 读 和 写 都 发 生 在 访 存 阶 段 。 在 一 条 读 存 储 器 的 指令 到 达 这 个 阶段 之 前 ， 
前 面 所 有 和 要 写 存储 器 的 指令 都 已 经 完成 这 个 阶段 了 。 另 外， 在 访 存 阶段 中 写 数 据 的 指令 和 在 取 指 阶 
段 中 读 指 令 之 间 也 有 冲突 ， 因 为 指令 和 数据 存储 器 访问 的 是 同一 个 地 址 空间 .只 有 包含 自我 修改 代 
#4, ( self-modifying code) 的 程序 才 会 发 生 这 种 情况 ， 在 这 样 的 程序 中 ， 指 令 写 存储 器 的 一 部 分 ， 过 
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后 会 从 中 取出 指令 ,有 些 系统 有 复杂 的 机 制 来 发 现 和 吉 免 这 种 冒险 ， 而 有 些 系统 只 是 简单 地 强制 要 
求 程序 不 应 该 使 用 自我 修改 代码 。 为 了 简便 ， 我 们 假设 程序 不 能 修改 自身 . 
这 些 分 析 表 明 我 们 只 需要 处 理 寄存 器 数据 霄 险 和 控制 冒险 . 


# prog3 1 2 3 4 5 6 7 8 9 
0x000: irmovl $10, tedx 
090x006: irmovl $3, %eax 
0x00c: nop 

9x00d: addl tedx, teax 


Ox00f: halt 


M valE = 3 
M_dstE = teax 


valA +— R[tedx] = 0 
valB 4 一 只 [seaxj = 0 


错误 值 


图 4.44 prog3 的 流水 线 化 的 热 行 ， 没 有 特殊 的 流水 线 控 制 


在 周期 5，addl 指令 从 寄存 器 文件 中 读 源 操作 数 。 对 寄存 器 %edx 的 写 仍 处 在 写 句 阶段 ， 而 对 寄存 器 %eax 的 写 还 在 访 存 阶段 。 
WA ER vala 和 valB 得 到 的 都 是 错误 值 。 


455 用 暂停 (stalling) 来 避免 数据 冒险 
暂停 (stalling) 是 一 种 常用 的 用 来 避免 冒险 的 技术 。 暂 停 时 ， 处 理 器 会 停止 流水 线 中 一 条 或 多 
条 指令 , 直到 冒险 条 件 不 再 满足 。 只 要 一 条 指令 的 源 操 作 数 会 被 流水 线 后 面 某 个 阶段 中 的 指令 产生 ， 
处 理 器 就 会 通过 将 指令 阻塞 在 解码 阶段 来 避免 数据 冒险 。 图 4.46 (prog2)、 图 4.47 (prog3) 和 图 4.48 
(prog4) 就 说 明了 这 项 技术 。 当 指令 addi 处 于 解码 阶段 时 ， 流 水 线 控制 逻辑 发 现 执 行 、 访 存 或 写 
回 阶段 中 至 少 有 一 条 指令 会 更 新 寄存 器 %edx 或 %eax。 处 理 器 不 会 让 addl 指令 带 着 不 正确 的 结果 通 
过 这 个 阶段 ， 而 是 会 暂停 指令 ,将 它 阻塞 在 解码 阶段 ， 时 间 为 一 个 周期 (对 prog2 来 说 )、 两 个 周期 
(对 prog3 来 说 ) 或 者 甚至 于 三 个 周期 (对 prog4 来 说 )。 对 所 有 这 三 个 程序 来 说 ，addl 指令 最 终 都 
会 在 周期 7 中 得 到 两 个 源 操 作 数 的 正确 值 ， 然 后 继续 沿 着 流水 线 进 行 下 去 。 


# prog4 1 2 3 4 5 6 7 8 
0x000: irmovl $16, tedx pF iD] E. i 

0x006: irmovl $3,%eax Flo 
Ox00c: addl tedx, teax 


Ox00e: halt 


M_valE = 10 
| M_dstE = tedx 


e valE*+0+3=3 | 
F dstE = teax | 


valA +— Fitedx] = 0 
valB 4+— FA[teax] = 0 


图 4.45 prog4 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 
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和 在 周期 4，addl 指令 从 寄存 器 文件 中 读 源 操作 数 。 对 寄存 器 Wedx 的 写 仍 处 在 访 存 阶 段 , 而 执行 阶段 正在 计算 寄存 器 %eax 的 新 
值 。 两 个 操作 数 vala 和 valB 得 到 的 都 是 错误 值 。 


# prog2 


OX000: 


0x006: 


OxO00c: 


Oox0o0d: 


Oox0o0e: 


0x010: 


irmovl $10, tedx 
irmovl $3, %teax 
nop 

nop 

bubble 

addl tedx, teax 
halt 


4.46 Prog2 的 使 用 暂停 的 流水 线 化 的 执行 


在 周期 6 中 对 add 指令 解码 之 后 , 暂停 控制 逻辑 发 现 一 个 数据 冒险 , 它 是 由 写 回 阶段 中 对 寄存 器 Weax 未 进行 的 写 造 成 的 。 它 
在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 add 的 解码 。 实 际 上 ， 机 器 是 动态 地 插入 一 条 nop 指令 ， 得 到 的 执行 
RAS prog] 的 流 ( 图 4.42). 


将 addl 指令 阻塞 在 解码 阶段 时 ， 我 们 还 必须 将 紧 跟 其 后 的 hat 指令 阻塞 在 取 指 阶段 。 通 过 将 程 


序 计数 器 保持 不 变 就 能 做 到 这 一 点 ， 这 样 一 来 ， 会 不 断 地 对 halt 指令 进行 取 指 ， 直 到 暂停 结束 。 


暂停 技术 就 是 让 一 组 指令 阻塞 在 它们 的 阶段 ， 而 允许 其 他 指令 继续 通过 流水 线 。 在 我 们 的 示例 
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中 ， 我 们 将 add 指令 阻塞 在 解码 阶段 ， 让 halt 指令 阻塞 在 取 指 阶段 ， 持 续 1 一 3 个 额外 的 周期 ， 而 
让 两 条 irmovl 指令 以 及 nop 指令 (在 prog2 和 prog3 情况 中 ) 继续 通过 执行 、 访 存 和 写 回 阶段 。 异 
么 ， 我 们 该 让 那些 在 正常 情况 下 该 处 理 addl 指令 的 阶段 干什么 呢 ?” 我 们 解决 这 个 问题 的 方法 是 : 每 
次 将 一 条 指令 内 塞 在 解码 阶段 时 ， 都 会 在 执行 阶段 中 插入 一 个 气泡 (bubble)。 气 泡 就 像 一 个 动态 产 
EH nop 指令 一 一 它 不 会 对 寄存 器 、 存 储 器 或 条 件 码 产 生 任 何 改变 。 在 图 4.46 一 图 4.48 的 流水 线 图 
中 用 白色 方 框 表 示 。 在 这 些 图 中 ， 我 们 用 一 个 add 指令 的 标号 为 “D” 的 方 框 到 标号 为 “E” 的 方 
框 之 间 的 箭头 来 表示 一 个 流水 线 气 泡 。 这 些 箭头 表明 , 在 执行 阶段 中 插入 气泡 是 为 了 符 代 addl 指令 ， 
它 本 来 应 该 经 过 解码 阶段 进入 执行 阶段 。 在 4.5.9 节 中 ， 我 们 将 看 到 使 流水 线 暂停 以 及 插入 气泡 的 
详细 机 制 。 


# prog3 
Dx000: irmovl $10, %tedx 
Ox006: irmovl $3, teax 
ox00c: nop 

bubble 

bubble 
Ox00d: addl tedx, teax 


oxcof: halt 


FA 4.47 prog3 的 使 用 暂停 的 流水 线 化 的 热 行 
在 周期 5 中 对 add 指令 解码 之 后 ， 暂 停 控 制 逻辑 发 现 了 对 两 个 源 寄存 器 的 数据 冒险 。 它 在 执行 阶段 中 插入 -个 气泡 ， 并 在 周 
期 6 中 重复 对 指令 add 的 解码 。 它 再 次 发 现 对 寄存 器 Weax 的 冒险 , 就 在 执行 阶段 中 又 插入 一 个 气泡 ， 并 在 周期 7 中 重复 对 指 
A addi 的 解码 。 实 际 上 ， 机 器 是 动态 地 插入 两 条 nop 指令 ， 得 到 的 执行 流 类 似 于 prog] 的 流 (图 4.42)。 


# prog4 1 2 3 4 5 6 7 8 9 10 1 
0x000: irmovl $10, tedx 下 
0x006: ixrmovi $3,%eax 
bubble 
bubble 
bubble 
Ox00c: addl tedx, teax 


oxode: halt 


图 4.48 prog4 的 使 用 暂停 的 流水 线 化 的 执行 
在 周期 4 中 对 add 指令 解码 之 后 ， 暂 停 控制 逻辑 发 现 了 对 两 个 源 寄存 器 的 数据 冒险 。 它 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周 
期 5 中 重复 对 指令 add 的 解码 。 它 再 次 发 现 对 两 个 源 寄存 器 的 冒险 ， 就 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 6 中 重复 对 指 
令 add 的 解码 。 它 再 次 发 现 对 寄存 器 %eax 的 冒险 ， 就 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addi 的 解码 。 
实际 上 ， 机 器 是 动态 地 插入 三 条 nop 指令 ， 得 到 的 执行 流 类 似 于 prog! 的 流 〈 图 4.42)。 


在 使 用 暂停 技术 来 解决 数据 冒险 中 ， 我 们 通过 动态 地 产生 和 progl 流 (图 4.42) 一 样 的 流水 线 
流 ， 有 效 地 执行 了 程序 prog2、prog3 和 prog4。 为 prog2 插入 一 个 气泡 ， 为 prog3 插入 两 个 气泡 , 为 
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prog4 插入 三 个 气泡 ， 与 在 第 二 条 irmovl 指令 和 add 指令 之 间 有 三 条 nop 指令 ， 有 相同 的 效果 。 员 
然 实现 这 一 机 制 相当 容易 〈 参 考 家 庭 作 业 4.36)， 但 是 得 到 的 性 能 并 不 很 好 。 一 条 指令 更 新 -一 个 寄 
存 器 ， 紧 跟 其 后 的 指令 恰恰 使 用 被 更 新 的 寄存 器 ， 像 这 样 的 情况 不 胜 枚 举 。 这 会 导致 流水 线 暂 停 长 
达 二 个 周期 ， 严 重 降低 了 整个 的 吞吐 量 。 


4.5.6 ”用 转发 (forwarding) 来 避免 数据 冒险 
我 们 PIPE- 的 设计 是 在 解码 阶段 从 寄存 器 文件 中 读 入 源 操作 数 ， 但 是 有 可 能 对 这 些 源 寄存 器 的 

写 要 在 写 回 阶段 才能 进行 。 与 其 暂停 直到 写 完 成 ， 不 如 简单 地 将 要 写 的 值 传 到 流水 线 寄存 器 E 作为 
JRERTE SL. FA 4.49 用 prog2 周期 6 的 流水 线 图 的 详细 描述 来 说 明了 这 一 策略 。 解 码 阶 段 逻 辑 发 现 ， 
寄存 器 %eax 是 操作 数 valB 的 源 寄存 器 , 而 在 写 端口 E 上 还 有 一 个 对 %eax 的 未 进行 的 写 。 它 只 要 简 
单 地 将 提供 到 端口 E 的 数据 字 〈 信 号 W_valE) 作为 操作 数 valB 的 值 ， 就 能 避免 暂停 。 这 种 将 结果 
值 直接 从 一 个 流水 线 阶 段 传 到 较 早 阶段 的 技术 称 为 数据 转发 (data forwarding， 或 简称 转发 )。 它 使 
得 prog2 的 指令 能 通过 流水 线 而 不 需要 任何 暂停 。 

# prog? 1 2 3 4 5 6 7 B 9 1 

0x000: irmovl $10, tedx 

0x006: irmovl 53, teax 

0x00c: nop 

0x00d: nop 


OxO00e: addl tedx, teax 


0x010: halt 


rs 
R[seax] + 3 


W_dstE = seax 
W_valE = 3 


a= 


valA + RIseax] = 10 
valB — W_valE = 3 


图 4.49 prog2 的 使 用 转发 的 流水 线 化 的 执行 


在 周期 6 中 ， 解 码 阶段 逻辑 发 现 有 在 写 回 阶 段 中 对 寄存 器 %eax 未 进行 的 写 。 它 用 这 个 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 
作为 源 操作 数 valB。 


如 图 4.50 描述 的 那样 ， 当 访 存 阶段 中 有 对 寄存 器 未 进行 的 写 时 ， 也 可 以 使 用 数据 转发 ， 以 避免 
程序 prog3 中 的 暂停 。 在 周期 5 中 ， 解 码 阶段 逻辑 发 现 ， 在 写 回 阶段 中 端口 E 上 有 对 寄存 器 %edx 
未 进行 的 写 ， 以 及 在 访 存 阶段 中 有 会 在 端口 E 上 对 寄存 器 %eax 未 进行 的 写 。 它 不 会 暂停 直到 这 些 
写真 正 发 生 ， 而 是 用 写 回 阶段 中 的 值 (信号 W_valE) 作为 操作 数 valA， 用 访 存 阶段 中 的 值 ( 信 号 
M_valE) 作为 操作 数 valB。 


为 了 充分 利用 数据 转发 技术 ， 我 们 还 可 以 将 新 计算 出 来 的 值 从 执行 阶段 传 到 解码 阶段 ， 以 避免 
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程序 prog4 所 需要 的 暂停 ， 如 图 4.51 所 示 。 在 周期 4 中 ， 解 码 阶 段 逻 辑 发 现在 访 存 阶段 中 有 对 寄存 
器 %edx 未 进行 的 写 ， 而 且 执 行 阶段 中 ALU 正在 计算 的 值 稍 后 也 会 写 入 寄存 器 Weax。 它 可 以 将 访 存 
阶段 中 的 值 ( 信 和 号 M_valE ) 作 为 操作 数 vala, 也 可 以 将 ALU 的 输出 (信号 e_valE) 作为 操作 数 valB。 
注意 ， 使 用 ALU 的 输出 不 会 造成 任何 同步 问题 。 解 码 阶 段 只 要 在 时 钟 周期 结束 之 前 产生 信号 valA 
和 valB， 这 样 在 时 钟 上 升 开 始 下 一 个 周期 时 ,流水 线 寄存 器 E 就 能 装载 来 自 解码 阶段 的 值 了 。 而 在 
此 之 前 ALU 的 输出 已 经 是 合法 的 了 。 

# prog3 

Ox000: irmovl $19, tedx 

0x006: irmovl $3, teax 

Ox00c: nop 

Ox00d: addl tedx, teax 


Ox00f: halt 


W_dstE = seax 
W_valE = 10 

| M_dstE = eax 
M_valE = 3 


srcA = tedx valA +— W_valE = 10 
srcB = %eax valB<— M_valE = 3 


图 4.50 prog3 的 使 用 转发 的 流水 线 化 的 执行 
在 周期 5 中 ， 解 码 阶 段 逻 辑 发 现 有 在 写 回 阶段 中 对 寄存 器 %edx 未 进行 的 写 ， 以 及 在 访 存 阶 段 中 对 寄存 器 Weax 未 进行 的 写 。 
它 用 这 些 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 vaa 和 valB 的 值 。 


在 厅 prog2 一 prog4 中 描述 的 转发 技术 的 使 用 都 是 将 ALU 产生 的 以 及 其 目标 为 写 端口 E 的 值 进 
行 转发 ， 其实 也 可 以 转发 从 存储 器 中 读 出 的 以 及 其 目标 为 写 端 口 M 的 值 。 从 访 存 阶段 , 我 们 可 以 转 
发 刚刚 从 数据 存储 器 中 读 出 的 值 ( 信 号 m_valM)。 从 写 回 阶段 ， 我 们 可 以 转发 对 端口 M 未 进行 的 
与 (信号 W_valM )。 这 样 一 共 就 有 五 个 不 同 的 转发 源 (e_valE.m_valM、M_valE、W_valM 和 W_valE), 
以 及 两 个 不 同 的 转发 目的 (vala 和 valB )。 

图 4.49 一 图 4.51 的 扩展 图 还 表明 解码 阶段 如 何 确定 是 要 用 来 自 寄存 器 文件 的 值 , 还 是 要 用 转发 
过 来 的 值 。 与 每 个 要 写 回 寄存 器 文件 的 值 相 关 的 是 目的 寄存 器 ID。 逻 辑 会 将 这 些 ID 与 源 寄存 器 ID 
srcA 和 srcB 相 比 镑 ， 以 此 来 发 现 是 否 需 要 转发 。 可 能 有 多 个 目的 寄存 器 ID 与 一 个 源 ID 相等 。 要 
解决 这 样 的 问题 ， 我 们 必须 在 各 个 转发 源 中 建立 起 优先 级 关系 。 在 学 习 转 发 逻辑 的 详细 设计 时 ， 我 
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们 会 讨论 这 个 内 容 。 
# prog4 1 
0x000: irmovl $10, tedx EART 
0x006: irmovl $3,%eax Ba 
0x00c: addl tedx, teax 


Ox00e: halt 


W_dstE = seax 

W_valE = 10 

E dstE = teax 

e valE*+-0+3=3 ] 

srcA = tedx | valA +— M_valE = 10 
| srcB = %eax valB «e valE = 3 


图 4.51 prog4 的 使 用 转发 的 流水 线 化 的 执行 
在 周期 4 中 ， 解 码 阶段 逻辑 发 现 有 在 访 存 阶段 中 对 寄存 器 %edx 未 进行 的 写 ， 还 发 现在 执行 阶段 中 正在 计算 寄存 器 %eax 的 新 
值 。 它 用 这 些 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 valA 和 valB 的 值 。 


图 4.52 给 出 的 是 PIPE 的 抽象 结构 ， 它 是 PIPE- 的 扩展 ， 能 通过 转发 处 理 数据 冒险 。 我 们 可 以 
看 到 添加 了 从 五 个 转发 源 到 解码 阶段 的 额外 的 反馈 路 径 〈 用 深 灰 色 表示 )。 这 些 旁 路 路 径 (bypass 
path) 反馈 到 解码 阶段 中 一 个 标号 为 “Forward” 的 块 。 这 个 块 会 用 从 寄存 器 文件 中 读 出 的 值 或 转发 
过 来 的 值 作为 源 操作 数 valA 和 valB。 

图 4.53 给 出 了 PIPE 硬件 结构 的 一 个 更 为 详细 的 说 明 。 将 这 幅 图 与 PIPE_ 的 结构 (图 4.41) 相 
比 ， 我 们 可 以 看 到 来 自 五 个 转发 源 的 值 反馈 到 解码 阶段 中 两 个 标号 为 “Sel+Fwd A” 和 “Fwd B” 的 
块 。 标 号 为 “Sel+Fwd A” 的 块 是 PIPE- 中 标号 为 “Select A” 的 块 的 功能 与 转发 逻辑 的 结 会 。 Ef 
许 流水 线 寄存 器 M 的 valA 为 已 增加 的 程序 计数 器 值 valP， 从 寄存 器 文件 A 端口 读 出 的 值 ， 或 者 某 
个 转发 过 来 的 值 。 标 号 为 “Fwd B” 的 块 实现 的 是 源 操作 数 valB 的 转发 逻辑 。 


4.5.7 ”加 载 /使 用 (load/use ) 数据 冒险 

有 一 -类 数据 冒险 不 能 单纯 用 转发 来 解决 ， 因为 存储 器 读 是 在 流水 线 较 后 面 才 发 生 的 。 图 4.54 
举例 说 明了 加 载 /使 用 冒险 (load/use hazard), 其 中 一 条 指令 (位 于 地 址 0x018 的 mrmovl) 从 存 
笃 禹 中 读 出 寄存 器 9%eax 的 值 ， 而 下 一 条 指令 (位 于 地 址 OxOle 的 adi) 需要 该 值 作为 源 操作 数 。 
图 的 下 部 是 周期 7 和 8 的 扩展 说 明 。addl 指令 在 周期 7 中 需要 该 寄存 器 的 值 ， 但 是 mmol 指令 
直到 周期 8 才 产生 出 这 个 值 。 为 了 从 mrmovl“ 转 发 到 ”addl， 转发 逻辑 不 得 不 将 值 送 回 到 过 去 的 
时 间 ! 这 显然 是 不 可 能 的 ， 我 们 必须 找到 其 他 机 制 来 解决 这 种 形式 的 数据 冒险 。 注意 ， 位 于 地 址 
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0x00c 的 irmov] 指令 产生 的 寄存 器 %ebx 的 值 , 可 以 从 访 存 阶段 转发 到 周期 7 处 于 解码 阶段 中 的 addl 
指令 。 


W_icode, W_valM W_valE. W_valM, W _dstE. W_dsiM 


访 存 
执行 | 
E_valA, E_valB, | 
E_stcA, E_srcB | 
valA, valE | i pi 
解码 
icode, ifun 
rA, rB. valC 
取 指 
指令 存储 器 
predPC 
程序 计数 器 
(PC) f PC 


图 4.52 我们 最 终 的 流水 线 化 的 实现 一 PIPE 的 抽象 图 
新 添加 的 旁 路 路 和 反 用 深 灰 色 表 示 〉 使 得 可 以 转发 来 自前 面 三 条 指令 的 结果 。 这 使 得 我 们 可 以 处 理 大 部 分 形式 的 数据 野 隐 ， 
而 不 下 要 暂停 流水 线 。 


如 图 4.55 展示 的 那样 ， 我 们 可 以 通过 将 暂停 和 转发 结合 起 来 ， 避 免 加 载 /使 用 数据 冒险 。 当 
mrmovl 指令 通过 执行 阶段 时 ， 流 水 线 控制 逻辑 发 现 解 码 阶 段 中 的 指令 (add) 需要 这 个 从 存储 器 中 


处 理 问 体系 结构 


D jcodel ifuni rA | rB 


取 指 


oT bbb lb TT TTT TIT TT 


| eee oS a 


图 4.33 ”我 们 最终 的 流水 线 化 的 实现 一 一 PIPE 的 硬件 结构 


有 些 连 接 没有 画 出 来 
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读 出 的 结果 。 它 会 将 解码 阶段 中 的 指令 暂停 一 个 周期 ， 导 致 执行 阶段 中 插入 一 个 气泡 。 如 周期 8 的 
扩展 说 明 所 示 ， 从 存储 器 中 读 出 的 值 可 以 从 访 存 阶段 转发 到 解码 阶段 中 的 addl 指令 。 寄 存 器 9%edx 
的 值 也 可 以 从 写 回 阶段 转发 到 访 存 阶段 。 就 像 流 水 线 图 中 ， 从 周期 7 中 标号 为 “D” 的 方 框 到 周期 8 
中 标号 为 “E” 的 方 框 的 第 头 表 明 的 那样 ， 插 入 的 气泡 代替 了 正常 情况 下 本 来 应 该 继续 通过 流水 线 
的 addl 指令 。 


# progs 1 2 3 4 5 6 7 8 9 10 11 
OxCOO: irmovl $128, edx 
OxCO6: irmovl $3, tecx 
OXCOC: rmmovl %tecx, 0 (%edx) 


OxC12: irmovl $10, tebx 


OxC1l8: mrmovl 0 (%edx) , teax # Load teax 
OxCle: addi tebx,teax # Use teax 


Ooxc20: halt 


M_dstM = teax 
m_vaiM 4 一 M[128] = 3 


M valE = 10 


valA + M_valE = 10 
valB + Rfseax] = 0 


图 4.54 加 载 /使 用 数据 冒险 的 示例 
addi 指令 在 周期 7 解码 阶段 中 需要 寄存 器 Weax HIE. 前 面 的 mrmovl 指令 在 周期 8 访 存 阶段 中 读 出 寄存 器 Weax 的 新 值 ， 这 对 
F addl 指令 来 说 太 迟 了 。 


这 种 用 暂停 来 处 理 加 载 /使 用 冒险 的 方法 称 为 加 载 互 锁 (load interlock)。 加 载 互 锁 和 转发 技术 结 
合 起 来 足以 处 理 所 有 可 能 类 型 的 数据 冒险 。 因 为 只 有 加 载 互 锁 会 降低 流水 线 的 吞吐 量 ， 我 们 几乎 可 
以 实现 每 个 时 钟 周期 发 射 一 条 新 指令 的 吞吐 量 目标 。 


45.8 PIPE 各 阶段 的 实现 

现在 我 们 已 经 创建 了 PIPE( 即 我 们 使 用 转发 技术 的 流水 线 化 的 Y86 处 理 器 ) 的 整体 结构 。 它 
使 用 了 一 组 与 前 面 顺序 设计 相同 的 硬件 单元 , 另外 增加 了 一 些 流水 线 寄存 器 、 重新 配置 了 的 好 辑 块 ， 
以 及 流水 线 控制 逻辑 。 在 本 节 中 ， 我 们 将 浏览 各 个 逻辑 块 的 设计 ， 而 将 流水 线 控制 逻辑 的 设计 放 到 
下 一 市 中 再 讲 。 许 多 逻辑 块 与 SEQ 和 SEQ+ 中 相应 部 件 完全 相同 ， 除 了 我 们 必须 从 来 自 不 同 流水 线 
寄存 器 (用 大 写 的 流水 线 寄存 器 的 名 字 作 为 前 缀 ) 或 来 自 各 个 阶段 计算 (用 小 写 的 阶段 名 字 的 第 一 
个 字母 作为 前 缀 ) 的 信和 号 中 选择 适当 的 值 。 

作为 一 个 示例 ， 比 较 一 下 SEQ 中 产生 sra 信和 号 的 逻辑 的 HCL 代码 与 PIPE 中 相应 的 代码 ; 


# Code from SEO 


处 理 跨 体系 结构 


int srcA = [ 
icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } 
icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 


); 
# Code from PIPE 
int new_E_srcA = [ 


D_icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } 


D_icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don’t need register 


# prog5 1 2 3 4 5 6 
Ox000: irmovl $128, tedx 
0x006: irmovl $3,%ecx 
ok00c: <mmovl tecx, 0(tedx) 
0x012: irmovl $10, %tebx 
0x018: mrmovl 0 (tedx), teax # Load teax 
bubble 
OxDle: addl tebx,teax # Use teax 


0x320: hait 


valA +— W_valE = 10 
valib + m_valM = 3 


M455 用 暂停 来 处 理 加 载 /使 用 冒险 


: YA; 


+ DATA: 
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通过 将 add 指令 在 解码 阶段 暂停 一 个 周期 ， 就 可 以 将 valB 的 值 从 访 存 阶 段 中 的 mrmovl 指令 转发 到 解码 阶段 中 的 addl 指 今 。 


它们 的 不 同 之 处 只 在 于 PIPE 信号 都 如 上 了 前 缀 “D_”， 以 表明 信和 号 是 来 自流 水 线 寄存 器 D。 为 
了 避免 重复 ， 我 们 在 此 就 不 列 出 那些 与 SEQ 中 代码 只 有 名 字 前 缀 不 同 的 块 的 HCL 代码 。 不 过 作为 


参考 ， 附 录 A 的 A.4 节 中 列 出 了 PIPE 的 完整 HCL 代码 。 
PC 选择 和 取 指 阶段 


图 4.56 提供 了 PIPE 取 指 阶段 逻辑 的 一 个 详细 描述 。 像 前 面 讨论 过 的 那样 ， 这 个 阶段 还 必须 选 
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择 程序 计数 器 的 当前 值 ， 以 及 预测 下 一 个 PC 值 。 用 于 从 存储 器 中 读 取 指令 和 抽取 不 同 指令 字段 的 
硬件 单元 与 SEQ 中 考虑 的 那些 一 样 〈 参 见 4.3.4 节 中 的 取 指 阶段 )。 

PC 选择 逻辑 从 三 个 程序 计数 器 源 中 进行 选择 。 当 一 条 预测 错误 的 分 支 进 入 访 存 阶段 时 , 会 从 流 
水 线 寄存 器 M( 信 号 M_valA) 中 读 出 该 指令 valP 的 值 (指明 下 一 条 指令 的 地 址 )。 当 ret 指令 进入 
写 回 阶段 时 ， 会 从 流水 线 寄存 器 W (信号 W_valM) 中 读 出 返回 地 址 。 其 他 情况 会 使 用 存放 在 流水 
线 寄存 器 F 中 (信和 号 F_oredPC) 的 PC 的 预测 值 。 

int f pc = I 

# Mispredicted branch. Fetch at incremented PC 


M_icode == IJXX && !M_Bch : M valA; 
# Completion of RET instruction. 
W_icode == IRET : W_valM; 


# Default: Use predicted value of PC 
1 : F_predPCc; 


M_icode 
M_Bch 
: M_valA 
ee ot oe | | we | vee 


W_valM 


一 
= PC 


增加 


Split | Align 
Byte 0 Bytes 1-5 


指令 存储 器 


| po 


图 4.56 PIPE 的 PC 选择 和 取 指 逻辑 
在 一 个 周期 的 时 人 间 限 制 内 ， 处 理 器 只 能 预测 下 一 条 指令 的 地 址 。 
当 取 出 的 指令 为 函数 调用 或 跳 转 时 ，PC 预测 逻辑 会 选择 valC， 和 否则 就 会 选择 vaP: 
int new_F_predPC = [ 
F_icode in { IJXX, ICALL } : £_valc; 
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1 : f_valP; 
\; 
标号 为 “Instr valid”. “Need regids” Al “Need valC” 的 逻辑 块 和 SEQ 中 的 一 样 ， 同 时 对 信号 
做 适当 的 重 命名 。 


解码 和 写 回 阶段 
图 4.57 给 出 的 是 PIPE 的 解码 和 写 回 逻辑 的 详细 说 明 。 标 号 为 “dstE”"“dstM”“srcA” 和 “srcB” 
的 块 非常 类 似 于 它们 在 SEQ 的 实现 中 的 相应 部 件 。 我 们 观察 到 ， 提 供给 写 端 口 的 寄存 器 ID 来 自 于 


写 回 阶段 (信号 W_dstE 和 W_dstM)， 而 不 是 来 自 于 解码 阶段 。 这 是 因为 我 们 希望 进行 写 的 目的 寄 
存 器 是 由 写 回 阶段 中 的 指令 指定 的 。 


ee ee 
Er 


图 4.57 PIPE 的 解码 和 与 回 阶段 逻辑 
HAWEA vl. 又 需要 来 自 寄 存 跨 端口 A 中 读 出 的 值 ， 因 此 对 后 面 的 阶段 来 说 ， 这 两 者 可 以 合并 为 信号 valA。 标 号 为 
“Sel+Fwd A ”的 块 执行 该 任务 ， 并 实现 源 操作 数 vala 的 转发 逻辑 。 标 号 为 “Fwd B” 的 块 实现 源 操作 数 valB 的 转发 逻辑 ， 


寄存 器 写 的 位 置 是 由 来 自 写 回 阶段 的 dstA 和 dstB 信号 指定 的 , 而 不 是 来 自 于 解码 阶段 , 因为 它 要 和 写 的 是 当前 正在 写 回 阶段 中 
的 指令 的 结果 。 
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练习 题 4.23 
解码 阶段 中 标号 为 “dstE” 的 块根 据 来 自流 水 线 寄 存 器 D 中 取出 的 指令 的 各 个 字段 ， 产 生 dstE 
fe. Æ PIPE 的 HCL 描述 中 ， 得 到 的 信号 命名 为 new E dstE。 根 据 SEQ 信号 dstE 的 HCL 描述 ， 
写 出 这 个 信号 的 HCL 代码 。( 参考 4.3.4 节 中 的 解码 阶段 .) 


这 个 阶段 的 复杂 性 主要 是 跟 转发 逻辑 相关 。 就 像 前 面 提 到 的 那样 ， 标 号 为 “Sel+Fwd A” 的 块 
扮演 两 个 角色 。 它 为 后 面 的 阶段 将 valP 信号 合并 到 vaa 信号， 这 样 可 以 减少 流水 线 寄存 器 中 的 状 
态 数 量 。 它 还 实现 了 源 操作 数 valA 的 转发 逻辑 。 

合并 信号 vala 和 valP 应 用 了 这 样 一 个 事实 ， 那 就 是 只 有 call 和 跳 转 指令 在 后 面 的 阶段 中 需要 
valP 的 值 ， 市 这 些 指令 并 不 需要 从 寄存 器 文件 A 端口 中 读 出 的 值 。 这 个 选择 是 由 该 阶段 的 icode 信 
写 来 控制 的 。 当 信号 D_icode 与 call 或 jiXX 的 指令 代码 相 匹 配 时 ， 这 个 块 就 会 选择 D_valP 作为 它 
的 输出 。 

如 4.5.6 节 中 提 到 的 那样 ， 有 五 个 不 同 的 转发 源 ， 每 个 都 有 一 个 数据 字 和 一 个 目的 寄存 器 ID; 


ALU 输出 
存储 器 输出 


访 存 阶段 中 对 端口 E 未 进行 的 写 
SEB RRO M 未 进行 的 写 
号 回 阶段 中 对 端口 E 未 进行 的 写 


如 条 不 满 忠 任何 转发 条 件 ， 这 个 块 就 会 选择 d_rvalA( 即 从 寄存 器 端口 A 中 读 出 的 值 ) 作为 它 
的 输出 。 
红 上 所 述 ， 我 们 得 到 下 面 这 样 的 流水 线 寄存 器 EE 的 vala 的 新 值 的 HCL 描述 : 
int new_E_valA = [ 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 
d_srcA == E_dstE ; e valE: # Forward valE from execute 
d_srcA == M_dstM : m valM; # Forward valM from memory 
d_srcA == M_dstE : M valk; # Forward valE from memory 
d_srcA == W_dstM : W_valM; # Forward valM from write back 
disrcA == W dstE : W_valE; # Forward valE from write back 
1 : d_rvalA; # Use value read from register file 
l; 
上 述 HCL 代码 中 赋予 这 五 个 转发 源 的 优先 级 是 非常 重要 的 。 这 种 优先 级 是 由 HCL 代码 中 检测 
五 个 目的 寄存 器 ID 的 顺序 来 确定 的 。 如 果 选 择 了 其 他 顺序 ， 对 某 些 程序 来 说 ,流水线 就 会 出 错 。 
图 4.58 给 出 了 一 个 程序 示例 ， 它 要 求 对 执行 和 访 存 阶段 中 的 转发 源 设置 正确 的 优先 级 。 在 这 个 程序 
中 ， 前 畏 条 指令 写 寄存 器 9%oedx， 而 第 三 条 指令 用 这 个 寄存 器 作为 它 的 源 操 作 数 。 当 指 令 rrmevl 在 周 
期 4 到 达 解 码 阶段 时 ， 转 发 逻辑 必须 在 两 个 都 以 该 源 寄存 器 为 目的 的 值 中 选择 一 个 。 它 应 该 选择 哪 
TE? 为 了 设 定 优先 级 ， 我 们 必须 考虑 当 一 次 执行 一 条 指令 时 ， 机 器 语言 程序 的 行为 。 第 一 条 
irmov] 指令 会 将 寄存 器 Wedx 设 为 10， 第 二 条 irmovl 指令 会 将 之 设 为 3， 然后 rrmovl 指令 会 从 9poedx 


中 该 出 3。 为 了 模拟 这 种 行为 ， 我 们 的 流水 线 化 的 实现 应 该 总 是 给 处 于 最 早 流水 线 阶段 中 的 转发 源 
以 较 噩 的 优先 级 ， 因 为 它 保持 着 程序 序列 中 设置 该 寄存 器 的 最 近 的 指令 。 因 此 ， 上述 HCL 代码 中 的 
迎 界 自 先 会 检测 执行 阶段 中 的 转发 源 ， 然 后 是 访 存 阶段 中 的 ， 最 后 才 是 写 回 阶段 中 的 。 

对 同 在 访 存 或 写 回 阶 段 中 的 两 个 源 之 间 的 转发 优先 级 ， 只 对 指令 popl %esp 有 影响 ， 因 为 只 有 


这 条 指令 能 同时 写 两 个 寄存 器 。 


在 周期 4 中 ，%edx 的 值 既 可 以 从 执行 阶段 也 可 以 从 访 存 阶 段 中 得 到 。 转 发 逻辑 应 该 选择 执行 阶段 中 的 值 ， 因 为 它 代 表 最 近 产 


# prog6 

0x000: irmovl $19, tedx 
Ox006: irmovl $3, tedx 
Ox00c: rrmovl tedx, teax 


Ox00e: halt 


At IE 2S 46 A 95 HH 


M dstE = sedx 


M_valE = 10 he 


E dstE = %edx 
e valE¢-0+3=3 


SICA = tedx valA ¢e_valE = 3 


F458 转发 优先 级 的 说 明 


生 的 该 寄存 器 的 值 。 


练习 题 4.24 


假设 new_E_valA 的 HCL 代码 中 第 三 和 第 四 种 情况 ( 来 自 访 存 阶 段 的 两 个 转发 源 ) 的 顺序 是 反 


过 来 的 。 请 描述 下 列 程序 中 rmovl 指令 (第 5 行 ) 造成 的 行为 - 


irmovl $5, $edx 
irmovl $0x100, %esp 
rmmovl %edx,0(%esp) 
popl %tesp 

rrmovl %tesp, teax 


mm WwW N eS 


练习 题 4.25 


假设 new_E_valA 的 HCL 代码 中 第 五 和 第 六 种 睛 况 (来 自 写 回 阶段 的 两 个 转发 源 ) 的 顺序 是 
反 过 来 的 。 写 出 一 个 会 运行 错误 的 Y86 程序 。 请 描述 错误 是 如 何 发 生 的 ， 以 及 它 对 程序 行为 的 影 
响 。 
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练习 题 4.26 

根据 提供 到 流水 线 寄存 器 正 的 源 操 作 数 valB 的 值 ， 写 出 信号 new_E valB 的 HCL KA. 

执行 阶段 

图 4.59 展现 的 是 PIPE 执行 阶段 的 逻辑 。 这 些 硬件 单元 和 逻辑 块 同 SEQ 中 的 相同 ， 同 时 对 信和 己 
做 适当 的 重 命 名 。 我 们 可 以 看 到 信号 e_valE 和 E _dstE 作为 转发 源 ， 指 朵 解码 阶段 。 


oes El we  W ee ee ae 


:8_ Bch 
IE 
boon | = 二 
CC 


“ALY a 
TIT 
C fonn | wo [vain [vets [Jot faem ]srca [srs 


4.59 PIPE 的 执行 阶段 逻辑 

这 一 部 分 的 设计 与 SEQ 实现 中 的 逻辑 设计 非常 相似 。 

访 存 阶段 

图 4.60 给 出 的 是 PIPE 的 访 存 阶段 逻辑 。 将 这 个 逻辑 与 SEQ 的 访 存 阶段 (图 4.28) FARE, 我 
NAA, iF ROW HF AE, PIPE 中 没有 SEQ 中 标号 为 “Data” 的 块 。 这 个 块 是 用 来 在 数据 产 
valP (对 call 指令 来 说 ) 和 vala 中 进行 选择 的 , 但 是 这 个 选择 现在 是 由 解码 阶段 中 标号 为 “Sel+Fwd 
A” 的 块 来 执行 的 。 这 个 阶段 中 的 其 他 块 都 和 SEQ 中 相应 的 部 件 相 同 ， 同 时 对 信和 号 做 适当 的 重 命名 。 
在 这 张 图 中 ， 你 还 可 以 看 到 许多 流水 线 寄存 器 中 的 值 ， 同 时 M 和 W 还 作为 转发 和 流水 线 控制 逻辑 
的 一 部 分 ， 提 供给 电路 中 其 他 部 分 。 


45.9 ”流水 线 控制 逻辑 

现在 我 们 准备 要 创建 流水 线 控制 逻辑 ， 完 成 我 们 的 PIPE 设计 了 。 这 个 逻辑 必须 处 理 下 面 二 种 
控制 情况 ， 即 其 他 机 制 ( 例 如 数据 转发 和 分 支 预 测 》 不 足以 处 理 的 控制 情况 : 

处 理 ret: 流水 线 必 须 暂 停 直 到 ret 指令 到达 写 问 阶段 ; 

加 载 /使 用 冒险 : 在 一 条 从 存储 器 中 读 出 一 -个 值 的 指令 和 一 条 使 用 该 值 的 指令 之 间 , KR 
疝 停 一 个 周期 。 

预测 错误 的 分 支 : 在 分 支 逻 辑 发 现 不 应 该 选择 分 支 之 前 ， 分 支 日 标 处 的 几 条 指令 已 经 进入 流水 
线 了 。 必 须 从 流水 线 中 去 掉 这 些 指令 。 

我 们 会 浏览 每 种 情况 所 期 望 的 行为 ， 然 后 再 设计 出 处 理 这 些 情况 的 控制 逻辑 。 


处 理 问 体系 结构 293 


W_icode W_dstM 


o ve | vom e oon id 
BE O O N eer 


M Boh tsansa 
i ii me ae 


图 4.60 PIPE 的 访 存 阶段 逻辑 
许多 从 流水 线 寄存 器 M 和 W 来 的 信号 被 传递 到 较 早 的 阶段 ， 以 提供 写 回 的 结果 、 指 令 地 址 以 及 转发 的 结果 。 


特殊 控制 情况 所 期 望 的 处 理 
对 于 ret 指令 ， 考 虑 下 面 的 示例 程序 。 这 个 程序 是 用 汇编 代码 表示 的 ， 左 边 是 各 个 指令 的 地 址 ， 
以 供 参 考 : 


0x000: irmovl Stack, %esp # Intialize stack pointer 
0x006: call proc Procedure call 


te 


0x00b: irmovl $10, %edx # Return point 

0x011: halt 

0x020: .pos 0x20 

0x020: Droc: 

0x020: ret # proc: 

0x021: rrmovl %edx, %ebx # Not executed 

0x030: .pos 0x30 

0x030: Stack: # Stack: Stack pointer 


图 4.61 给 出 了 我 们 希望 流水 线 如 何 来 处 理 ret 指令 。 同 前 面 的 流水 线 图 一 - 样 ， 这 幅 图 展示 了 流 
水 线 的 活动 ， 时 间 是 从 左 向 右 增加 的 。 与 前 面 不 同 的 是 ， 指 令 列 出 的 顺序 与 它们 在 程序 中 出 现 的 顺 
序 并 不 相同， 这 是 因为 这 个 程序 含有 一 个 控制 流 ， 指 令 并 不 是 按 线性 顺序 执行 的 。 看 看 指令 的 地 址 
束 能 看 出 它们 在 程序 中 的 位 置 。 

如 图 4.61 所 示 ， 周 期 3 中 取出 ret 指令 ， 并 沿 着 流水 线 前 进 ， 在 周期 7 进入 写 回 阶段 。 在 它 经 
过 解码 、 执 行 和 访 存 阶段 时 ， 流 水 线 不 能 做 任何 有 用 的 活动 。 我 们 只 能 在 流水 线 中 插入 三 个 气泡 。 
~E ret 指令 到 达 写 回 阶段 ，PC 选择 逻辑 就 会 将 程序 计数 器 设 为 返回 地 址 ， 然 后 取 指 阶段 就 会 取出 
位 于 返回 点 (地 址 Ox00b) 处 的 irmovl 指令 。 

图 4.62 给 出 的 是 示例 程序 中 ret 指令 的 实际 处 理 过 程 。 在 此 我 们 可 以 看 到 ， 没 有 办 法 在 流水 线 
的 取 指 阶段 中 插入 气泡 。 每 个 周期 ， 取 指 阶段 从 指令 存储 器 中 读 出 一 条 指令 。 看 看 4.5.8 节 中 实现 
PC RADHA HCL 代码 ， 我 们 可 以 看 到 ， 对 ret 指令 来 说 ，PC 的 新 值 被 预测 成 valP 的 ， 也 就 是 下 
一 条 指令 的 地 址 。 在 我 们 的 示例 程序 中 ， 会 是 0x021， 即 ret 后 面 rmovl 指令 的 地 址 。 对 这 个 例子 
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来 说 ， 这 种 预测 是 不 对 的 ， 即 使 对 大 部 分 情况 来 说 ， 也 是 不 对 的 ， 但 是 在 我 们 的 设计 中 ， 我 们 并 不 
试图 正确 预测 返回 地 址 ， 取 指 阶段 会 暂停 三 个 时 钟 周期 ， 导 致 取出 rmovl 指令 ,但 是 在 解码 阶段 就 
锌 人 答 换 成 了 气泡 。 这 个 过 程 在 图 4.62 中 是 这 样 表示 的 ， 三 个 取 指 用 箭头 指向 下 面 的 气泡 ， 气 泡 会 经 
WH 下 的 流水 线 阶 段 。 最 后 ， 周 期 7 取出 irmovl 指令 。 比较 图 4.62 和 图 4.61， 可 以 看 到 ， 我 们 的 实 
现 达 到 了 期 望 的 效果 ， 只 不 过 连续 三 个 周期 取出 了 不 正确 的 指令 。 
# prog7 1 2 3 q 5 6 Fé 8 9 10 11 
0x000: irmovl Stack, tedx 
0x006: call proc 
0x020: ret 
bubble 
bubble 


bubble 


Ox0Ob: irmovl $10,%edx # Return point 


图 4.61 ret 指 令 处 理 的 简化 视图 
“ret 经 过 解码 、 热 行 和 访 存 阶段 时 ， 流 水 线 应 该 暂停 ， 在 处 理 过 程 中 插入 三 个 气泡 。 -一旦 ret 指令 到 达 写 回 阶段 (周期 7)， 
PC 选择 逻辑 就 会 选择 返回 地 址 作为 取 指 地 址 。 
# prog7 1 2 3 4 5 6 7 8 9 10 11 
0x000:  _rmovl Stack, tedx 
0x006: call proc 
0x020: ret 
0X021: rrmovl %edx, %ebx # Not executed 
bubble 
0x021: rrmovl tedx, tebx # Not executed 
bubble 
OxC21: vrrmovl tedx,%tebx # Not executed 
bubble 


Ox00b: irmovl $10,%edx # Return point 


图 4.62 ret 指令 处 理 的 实际 处 理 过 程 


取 指 阶段 反复 取出 ret 指令 后 面 的 rrmovl 指令 . 但 是 流水 线 控制 还 辑 在 解码 阶段 中 插入 气泡 ， 而 不 是 让 rrmov! 指令 继续 下 去 。 
由 此 得 到 的 行为 与 图 4.61 所 示 的 等 价 。 


1.4.5.7 TF, 我 们 已 经 描述 了 加 载 /使 用 冒险 (load/use hazard) 所 期 望 的 流水 线 操作 ,如 图 4.55 
所 示 ， 只 有 mrmovl 和 pop 指令 会 从 存储 器 中 读数 据 。 当 这 两 条 指令 中 的 -- 条 处 于 执行 阶段 ， 而 需 
要 该 卓 的 寄存 器 的 指令 正 处 在 解码 阶段 时 ， 我 们 要 将 第 二 条 指令 阻塞 在 解 色 阶段 ， 并 在 下 一 个 周期 
往 执 行 阶段 中 插入 一 个 气泡 。 此 后 ， 转 发 逻辑 会 解决 这 个 数据 冒险 。 可 以 通过 将 流水 线 寄存 器 D 保 
持 为 固定 状态 ， 从 而 将 -个 指令 阻塞 在 解码 阶段 。 与 此 同时 ， 还 必须 将 流水 线 寄存 器 上 保持 为 固定 
状态 ， 这样 一 来 ， 就 会 第 二 次 取出 下 一 条 指令 。 总 之 , 实现 这 个 流水 线 流 需 要 发 现 冒 险 条 件 Chazard 
condition)， 你 持 流 水 线 寄存 器 F 和 D 固定 不 变 ， 并且 在 执行 阶段 中 插入 气泡 。 
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地 址 ， 以 供 参 考 : 

0x000: xorl eax, $eax 

0x002: jne target # Not taken 

0x007: irmovl $1, %eax # Fall through 

Ox00d: halt 

Ox00e: target: 

Ox00e: irmovl $2, %edx # Target 

0x014: irmovl $3, %ebx # Target+1 


OxOla: halt 


图 4.63 表明 是 如 何 处 理 这 些 指令 的 。 同 前 面 一 样 ， 指 令 是 按照 它们 进入 流水 线 的 顺序 列 出 的 ， 
而 不 是 按照 它们 出 现在 程序 中 的 顺序 。 因 为 预测 跳 转 指令 会 选择 分 支 ， 所 以 周期 3 中 会 取出 位 于 跳 
转 目 标 处 的 指令 ， 而 周期 4 中 会 取出 该 指令 后 的 那 条 指令 。 在 周期 4， 分 支 逻 辑 发 现 不 应 该 选择 分 
文 之 及 ， 已 经 取出 了 两 条 指令 ， 不 应 该 继续 执行 下 去 了 。 幸 运 的 是 ， 这 两 条 指令 都 没有 导致 程序 员 
可 见 的 状态 友 生 改变 。 只 有 到 指令 到 达 执 行 阶段 时 才 会 发 生 那 种 情况 ， 在 执行 阶段 中 ， 指 令 会 改变 
条 件 码 。 我 们 只 要 在 下 一 个 周期 往 解码 和 执行 J 阶段 中 插入 气泡 ， 并 同时 取出 跳 转 指令 后 面 的 指令 ， 


这 样 就 能 取消 一 一 有 时 也 称 为 指令 排除 squashing) 一 一 那 两 条 预测 错误 的 指令 。 这 样 一 来 ， 两 条 
预测 错误 的 指令 就 会 从 流水 线 中 消失 。 
# progB 1 2 3 4 5 6 7 8 9 10 


0x000: xorl teax, teax 


0x002: jne target # Not taken 
OxO0e: irmovl $2,%tedx # Targec 


bubble 


0x014: irmovl $3,%ebx # Target+1 
bubble 
0x007: irmovl $2,%edx # Fall through 


Ox00d: halt 


ff 4.63 ”处 理 预 测 错误 的 分 支 指令 
流水 线 预 测 会 选择 分 支 ， 所 以 开始 取 跳 转 目 标 处 的 指令 。 在 周期 4 发 现 预 测 错误 之 前 ， 已 经 取出 了 两 条 指令 ， 此 时 ， 踏 转 指令 正 
在 通过 执行 阶段 。 在 周期 中， 流水线 往 解码 和 执行 阶段 中 插入 气泡 ， 取 消 了 两 条 目标 指令 ， 同 时 还 取出 跳 转 后 面 的 那 条 指令 。 


发 现 特殊 控制 条 件 
图 4.64 总 纤 了 南 要 特殊 流水 线 控制 的 条 件 ， 它 给 出 的 HCL 表达 式 描述 了 在 哪些 条 件 下 会 出 现 


这 三 种 特殊 情况 。 一 些 简单 的 组 合 逻 辑 块 实现 了 这 些 表达 式 ， 为 了 在 时 钟 上 升 开 始 下 一 个 周期 时 控 
制 流 水 线 寄存 器 的 活动 ， 这 些 块 必须 在 时 钟 周期 结束 之 前 产生 出 结果 。 在 一 个 时 钟 周 期 和 内， 流水线 


寄存 器 D、E 和 M 分 别 保持 着 处 于 解码 、 执行 和 访 存 阶段 中 的 指令 的 状态 。 在 到 达 时 钟 周期 末尾 时 ， 
信号 d_srcA 和 d_srcB 会 被 设置 为 解码 阶段 中 指令 的 源 操作 数 的 寄存 器 ID。 当 ret 指令 通过 流水 线 
时 ， 娶 想 发 现 它 ， 只 要 检查 解码 、 执 行 和 访 存 阶段 中 指令 的 指令 码 。 发 现 加 载 /使 用 冒险 要 检查 执行 
阶段 中 的 指令 类 型 (mrmovl 或 popl)， 并 把 它 的 目的 寄存 器 与 解码 阶段 中 指令 的 源 寄存 器 相 比 较 。 
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当 跳 转 指 令 在 执行 阶段 时 ， 流 水 线 控制 逻辑 应 该 能 发 现 分 支 预测 错误 的 ， 这 样 当 指令 进入 访 存 阶段 


时 ， 它 就 能 设置 从 错误 预测 中 恢复 所 需要 的 条 件 。 当 跳 转 指令 处 于 执行 阶段 时 ， 信 号 e_Beh 指明 是 
Py BR Ue FE Tt SZ 


处 理 ret IRET € {D_icode, E_icode, M_icode} 


加 载 / 使 用 冒险 E_icode E {IMRMOVL,IPOPL}&&E_dstM € {d_srcA,d_srcB}] 
预测 错误 的 分 支 E_icode = IJXX && 'e_Bch 


图 4.64 ”流水 线 控制 逻辑 的 发 现 条 件 

三 种 不 同 的 条 件 要 么 会 暂停 流水 线 ， 要 么 取消 部 分 执行 过 的 指令 ， 从 而 要 改变 流水 线 流 。 

流水 线 控 制 机 制 

图 4.65 给 出 的 是 一 些 低级 机 制 ， 它 们 使 得 流水 线 控制 逻辑 能 将 指令 阻塞 在 流水 线 寄 存 器 中 , 或 
是 往 流 水 线 中 插入 一 个 气泡 。 这 些 机 制 包 括 对 4.2.5 节 中 描述 的 基本 时 钟 寄 存 器 的 小 扩展 。 假 设 每 
个 流水 线 寄存 器 有 两 个 控制 输入 : 暂停 (stall) 和 气泡 (bubble)。 这 些 信 和 号 的 设置 决定 了 当时 钟 上 
升 时 访 如 何 更 新 流水 线 寄存 器 。 在 正常 操作 下 (情况 A)， 这 两 个 输入 都 设 为 0， 使 得 寄存 器 加 载 它 
的 输入 作为 新 的 状态 。 当 暂停 信号 设 为 1 时 (情况 B)， 禁 止 更 新 状态 。 相 反 ， 寄 存 器 会 保持 它 以 前 
的 状态 。 这 使 得 它 可 以 将 指令 阻塞 在 某 个 流水 线 阶 段 中 。 当 气泡 信号 设置 为 1 时 (情况 C)， 寄存器 
状态 会 设置 成 某 个 固定 的 复位 配置 (reset configuration)， 得 到 一 个 等 效 于 nop 指令 的 状态 。 一 个 流 
水 线 寄存 器 的 复位 配置 的 0、1 模式 是 由 流水 线 寄存 器 中 字段 的 集合 决定 的 。 例如， 要 往 流 水 线 寄存 
ae DD 中 插入 一 个 气泡 ， 我 们 要 将 icode 字段 设置 为 常数 值 INOP (图 4.24)。 要 往 流 水 线 寄存 器 玉 中 
插入 一 个 气泡 ,我 们 要 将 icode 字段 设 为 INOP, 并 将 dstE.dstM.srcA 和 srcB 字段 设 为 常数 RNONE。 
确定 复位 配置 是 硬件 设计 师 在 设计 流水 线 寄存 器 时 的 任务 之 一 ， 在 此 我 们 不 会 讨论 细节 。 我 们 会 将 
把 气泡 和 和 暂停 信号 都 设 为 1 看 成 是 出 错 。 

图 4.66 中 的 表 给 出 了 各 个 流水 线 寄存 器 在 三 种 特殊 情况 下 应 该 采取 的 行动 . 对 每 种 情况 的 处 理 
部 是 流水 线 寄存 器 正常 、 暂 停 和 气泡 操作 的 某 个 组 合 。 

在 定时 方面 ， 流 水 线 寄存 器 的 暂停 和 气泡 控制 信号 是 由 组 合 逻 辑 块 产生 的 。 当 时 钟 上 升 时 ， 这 
些 值 必 须 是 合法 的 ， 使 得 当下 一 个 时 钟 周 期 开始 时 ， 每 个 流水 线 寄 存 器 要 么 加 载 ， 要 么 暂停 ， 要 迄 
产生 气泡 。 有 了 这 个 对 流水 线 寄存 器 设计 的 小 扩展 ， 我 们 就 能 用 组 合 逻 辑 基本 构建 块 、 时 钟 寄存 器 
和 随机 访问 存储 器 ， 来 实现 一 个 完整 的 流水 线 ， 和 包括 所 有 的 控制 。 

控制 条 件 的 组 合 

到 目前 为 止 ， 在 我 们 对 特殊 流水 线 控 制 条 件 的 讨论 中 ， 我 们 假设 在 任意 一 个 时 钟 周期 内 ， 最 

从 能 出 现 一 个 特殊 情况 。 在 设计 系统 时 ， 一 个 常见 的 毛病 是 不 能 处 理 同 时 出 现 多 个 特殊 情况 的 

人 情形。 让 我 们 来 分 析 一 下 这 些 可 能 性 。 图 4.67 画 出 了 导致 特殊 控制 条 件 的 流水 线 状态 。 这 些 图 给 
出 的 是 解码 、 执 行 和 访 存 阶段 的 块 。 上 暗色 的 方 框 代表 要 出 现 这 种 条 件 必须 要 满足 的 特别 限制 。 加 
载 /使 用 冒险 要 求 执 行 阶 段 中 的 指令 将 一 个 值 从 存储 器 读 到 寄存 器 中 ,同时 解码 阶段 中 的 值 昌 以 该 
寄存 器 作为 源 操 作 数 。 预 测 错误 的 分 支 要 求 执行 阶段 中 的 指令 是 一 个 跳 转 指令 。 对 ret 来 说 有 二 种 
可 能 的 情况 一 一 指令 可 以 处 在 解码 、 执 行 或 访 存 阶 段 。 当 ret 指令 通过 流水 线 时 ， 前 面 的 流水 线 阶 
段 都 是 气泡 。 
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A) 正 常 状态 = y 
=p HAEE = — 
B) # {3 状态 = x 
= Xx 
oa 时 钟 上 升 沿 
C) 气泡 状态 = ncp 
输出 = nop 


=> 时 钟 上 升 治 = 中 


图 4.65 附加 的 流水 线 寄存 器 操作 


在 正常 情况 下 ，A) 当时 钟 上 升 时 ， 寄 存 器 的 状态 和 输出 被 设置 成 输入 的 值 。 当 运行 在 暂停 模式 中 时 ，B) 状态 保持 为 先前 的 
值 不 变 。 当 运行 在 气泡 模式 中 时 ，C) 会 用 nop 操作 的 状态 覆盖 当前 状态 。 


处 理 ret 


加 载 /使 用 冒险 
预测 错误 的 分 支 


图 4.26 流水线 控制 逻辑 的 动作 
不 同 的 条 件 需 要 改变 流水 线 流 ， 或 者 会 暂停 流水 线 ， 或 者 会 取消 部 分 已 执行 的 指令 。 


Load/use Mispredict ret 1 ret 2 ret 3 
M Ee = MO] M[ ee 
E| Load E E E} re |E 
D| Use | D D D| bubble | D| bubble | 

| Combination A | 


Combination B 


图 4.67 特殊 控制 条 件 的 流水 线 状态 
图 中 标明 的 两 对 情况 可 能 同时 出 现 。 
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从 这 些 图 中 我 们 可 以 看 出 ， 大 多 数控 制 条 件 是 互 扩 的。 例如， 不 可 能 同时 既 有 加 载 / 使 用 遇险 又 
有 预测 错误 的 分 文 ， 因 为 一 个 要 求 执行 阶段 中 是 加 载 指令 (mrmovl 或 popl)， 而 另 一 个 要 求 其 中 是 
一 条 跳 转 指 令 。 类 似 地 ， 第 二 个 和 第 三 个 ret 组 合 也 不 可 能 与 加 载 /使 用 冒险 或 预测 错误 的 分 支 辣 时 
出 现 。 只 有 用 箭头 标明 的 两 种 组 合 可 能 同时 出 现 。 

HA A 是 指 执行 阶段 中 有 一 条 不 选择 分 文 的 跳 转 指令 ， 而 解码 阶段 中 有 一 条 ret 指令 。 出 现 这 
种 组 合 要 求 ret 位 于 不 选择 分 支 的 日 标 处 。 流 水 线 控制 逻辑 应 该 发 现 分 支 预 测 错误 ， 因 此 要 取消 ret 
指令 ， 


练习 题 4.27 

写 一 个 Y86 汇编 语言 程序 ， 它 能 导致 出 现 组 合 A 的 情况 ， 并 判断 控制 还 辑 是 否 处 理 正 确 。 

将 对 组 合 A 条 件 的 控制 动作 合并 起 来 〈 图 4.66)， 我 们 得 到 下 和 面 这 样 的 流水 线 控制 动作 (假设 
气泡 或 暂停 会 窗 盖 正常 的 情况 )， 


流水 线 寄存 器 


处 理 ret 
预测 错误 的 分 支 


也 就 是 说 ， 组 合 情 况 A 的 处 理 与 预测 错误 的 分 文 相 似 ， 只 不 过 在 取 指 阶段 是 暂停 。 幸 运 的 是 ， 
在 下 一 个 周期 ，PC 选择 逻辑 会 选择 跳 转 后 面 那 条 指令 的 地 址 ， 而 不 是 预测 的 程序 计数 器 值 ， 所 以 流 
水 线 寄 存 匿 下 发 生 什 么 是 没有 关系 的 。 因 此 我 们 做 出 结论 ， 流 水 线 能 正确 处 理 这 种 组 全 情况 。 

HEB 包括 一 个 加 载 / 使 用 冒险 ， 其 中 加 载 指 令 设 置 寄存 器 %esp， 然 后 ret 指令 用 这 个 寄存 器 作 
为 涯 操 作 数 ， 因 为 它 必 须 从 栈 中 弹出 返回 地 址 。 流 水 线 控制 逻辑 应 该 将 ret 指令 阻塞 在 解码 阶段 。 


练习 题 4.28 


写 一 个 Y86 汇编 语言 程序 ， 它 能 导致 出 现 组 合 B 的 情况 ， 并 以 halt ISSA RK, 判断 控制 有 逻辑 是 
否 处 理 正 确 。 


流水 线 寄存 器 


条 件 
处 理 ret 

据 测 错误 的 分 支 
组 合 


期 望 的 情况 


将 对 组 合 B 条 件 的 控制 动作 结合 起 来 (图 4.66)， 我 们 得 到 下 面 这 样 的 流水 线 控制 动作 : 

如 末 同 时 触发 两 组 动作 ， 控 制 逻辑 会 试图 暂停 ret 指令 来 避免 加 载 /使 用 冒险 ， 同 时 又 会 因为 ret 
指令 而 往 解 码 阶段 中 插入 一 个 气泡 。 显 然 ， 我 们 不 希望 流水 线 同时 执行 这 两 组 动作 。 相 反 ， 我 们 希 
氮 它 只 灯 取 针对 加 载 /使 用 冒险 的 动作 。 处 理 ret 指令 的 动作 应 该 推迟 一 个 周期 。 
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这 齿 分 析 表 明 组 合 B 需要 特殊 处 理 。 实 际 上 ， 我 们 PIPE 控制 逻辑 原来 的 实现 并 没有 正确 处 理 
这 种 组 合 情 况 。 即 使 设计 已 经 通过 了 许多 模拟 测试 ， 它 还 是 有 细节 问题 ， 只 有 通过 刚才 那样 的 分 析 
才能 及 现 出 来 。 当 执行 一 个 含有 组 合 B 的 程序 时 ,控制 逻辑 会 将 流水 线 寄存 器 D 的 气泡 和 暂停 信号 
MAA 1。 这 个 例子 表明 了 系统 分 析 的 重要 性 。 只 运行 正常 的 程序 是 很 难 发 现 这 个 问题 的 。 如 果 没 
有 发 现 这 个 问题 ， 流 水 线 就 不 能 忠实 地 实现 ISA 的 行为 。 

控制 逻辑 实现 

图 4.68 给 出 的 是 流水 线 控制 逻辑 的 整体 结构 。 根 据 来 自流 水 线 寄存 器 和 流水 线 阶 段 的 信号 ， 控 
ee aN 气泡 控制 信号。 我 们 可 以 将 图 4.64 的 发 现 条 件 和 图 4.66 的 动作 
结合 起 来 ， 产 生 各 个 流水 线 控制 信号 的 HCL 描述 。 

过 到 加 载 /使 用 冒险 或 ret 指令 . 流水 线 寄存 器 F 必须 暂停 : 

bool F_stall = 


# Conditions for a load/use hazard 

F_icode in { IMRMOVL, IPOPL } && 

E_dstM in { d srcA, d_srcB } || 

# Stalling at fetch while ret passes through pipeline 
IRET in { D_icode, E icode M_icode }; 


图 4.68 PIPE 流水 线 控制 逻辑 

这 个 逻辑 覆盖 了 通过 流水 线 的 正常 指令 流 ， 以 处 理 特 殊 条 件 ， 例 如 过 程 返回 、 预 测 错 误 的 分 支 和 加 载 /使 用 冒险 。 

练习 题 4.29 

与 出 PIPE 实现 中 信号 D_stall 的 HCL 代码 。 

直到 预测 错误 的 分 支 或 ret 指令 ， 流 水 线 寄存 器 D 必须 设置 为 气泡 。 不 过 ， 正 如 前 面 一 节 中 的 


AMMAN, BA MRM ERA ret 指令 组 合 时 ， 不 应 该 插入 气泡 : 
bool D bubble = 
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# Mispredicted branch 

(EF icode == IJXX && le Bch) || 

# Stalling at fetch while ret passes through pipeline 
TRET in { D_icode, E_icode, M_icode }; 


练习 题 4.30 
E E PIPE 实现 中 信号 E_bubble 的 HCL 代码 . 


现在 我 们 就 讲 完 了 所 有 的 特殊 流水 线 控制 信号 的 值 。 在 PIPE 的 完整 HCL 代码 中 ， 所 有 其 他 的 
流水 线 控制 信和 号 都 设 为 0。 


4.5.10 TERESA 

我 们 可 以 看 到 ， 所 有 需要 流水 线 控制 逻辑 进行 特殊 处 理 的 条 件 ， 都 会 导致 我 们 的 流水 线 不 能 够 
实现 每 个 时 钟 周 期 发 射 一 条 新 指令 的 目标 。 我 们 可 以 通过 确定 往 流 水 线 中 插入 气泡 的 频率 ， 来 衡量 
这 种 效率 的 损失 ， 因 为 插入 气泡 会 导致 无 用 的 流水 线 周期 。 一 条 返回 指令 会 产生 三 个 气泡 ， 一 个 加 
载 /使 用 冒险 会 产生 一 个 ， 而 一 个 预测 错误 的 分 文 会 产生 两 个 。 我 们 可 以 通过 计算 PIPE 执行 一 条 指 
令 所 需要 的 平均 时 钟 周期 数 的 估计 值 ， 来 量化 这 些 处 罚 对 整体 性 能 的 影响 ， 这 种 衡量 方法 称 为 CPI 
(cycles per instruction， 每 指令 周期 数 )。 这 种 衡量 值 是 流水 线 平均 吞吐 量 的 倒数 ， 不 过 时 间 单 位 是 
时 钟 周 期 ， 而 不 是 微微 秒 。 这 是 对 一 个 设计 体系 结构 效率 的 很 有 用 的 衡量 标准 。 

另 一 种 看 待 CPI 的 方法 是 ， 假 设 我 们 在 处 理 器 上 运行 某 个 基准 程序 ， 并 观察 执行 阶段 的 运行 。 
每 个 周期 ， 执 行 阶段 要 么 会 处 理 一 条 指令 ， 然 后 这 条 指令 继续 通过 剩 下 的 阶段 ， 直 到 完成 ， 归 么 会 
处 理 一 个 由 于 三 种 特殊 情况 之 一 而 播 入 的 气泡 。 如 果 这 个 阶段 一 共处 理 了 C 条 指令 和 Cs 个 气泡 ， 
那么 处 理 器 总 共 需 要 大 约 C+C 个 时 钟 周期 来 执行 Ci 条 指令 。 我 们 说 “大 约 ” 是 因为 我 们 忽略 了 局 
动 指令 通过 流水 线 的 周期 。 我 们 可 以 用 如 下 方法 来 计算 这 个 基准 程序 的 CPI: 


C. 
CitCp =] 04——2 
C, C, 


f 


CPI = 


ERE bi, CIST 1.0 加 上 一 个 处 罚 项 CyC;， 这 个 项 表明 执行 一 条 指令 平均 要 插入 多 少 个 气 
泡 。 因 为 只 有 三 种 指令 类 型 会 导致 插入 气泡 ， 我 们 可 以 将 这 个 处 避 项 分 解 成 三 个 部 分 : 
CPI =1.0+lp+mp+rp 
XE, Ip (oad penalty, MAART) 是 当 由 于 加 载 /使 用 冒险 造成 暂停 时 插入 气泡 的 平均 数 ，mp 
(mispredicted branch penalty, 预测 错误 分 文 处 多 ?是 当 由 于 预测 错误 取消 指令 时 插入 气泡 的 平均 数 ， 
而 rp Creturn penalty, BEID 是 当 由 于 ret 指令 造成 暂停 时 插入 气泡 的 平均 数 。 每 种 处 神 都 是 由 
该 种 原因 引起 的 插入 气泡 的 总 数 (C 的 一 部 分 〉 除 以 执行 指令 的 总 数 (Ci)。 

为 了 估计 每 种 处 加 ， 我 们 需要 知道 相关 指令 〈 加 载 、 条 件 转移 和 返回 ) 的 出 现 频率 ， 以 及 对 每 
种 指令 特殊 情况 出 现 的 频率 。 对 我 们 CPI 的 计算 ， 我 们 使 用 下 面 这 组 频率 〈 等 同 于 [31] 和 [33] 中 报告 
的 测量 值 ): 

e 加 载 指令 Cmrmovl 和 popl) 占 所 有 执行 指令 的 25%。 其 中 20% 会 导致 加 载 /使 用 冒险 。 

© 条 件 分 文 指 令 占 所 有 执行 指令 的 20 多。 其 中 60% 会 选择 分 支 ， 而 40% 不 选择 分 支 。 

e 退回 指令 占 所 有 执行 指令 的 2%. 
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因此 ， 我 们 可 以 估计 每 种 处 罚 ， 它 是 指令 类 型 频率 、 条 件 出 现 频率 和 当 条 件 出 现时 插入 气泡 数 
的 乘积 : 


加 载 /使 用 
预测 错误 


返回 


三 种 处 罚 的 总 和 是 0.27， 所 以 得 到 CPI 1.27. 

我 们 的 目标 是 设计 一 个 每 个 周期 发 射 一 条 指令 的 流水 线 ， 也 就 是 CPI 为 1.0。 我们 没有 完全 达 
到 目标 ， 但 是 整体 性 能 已 经 很 不 错 了 。 我 们 还 能 看 到 ， 要 想 进一步 降低 CPI， 就 应 该 集中 注意 力 在 
珊 测 错误 的 分 支 上 。 它 们 占 到 了 整个 处 罚 0.27 中 的 0.16， 因 为 条 件 转移 非常 常见 ， 我 们 的 预测 策略 
义 经 前 出 错 ， 而 每 次 预测 错误 都 要 取消 两 条 指令 。 


练习 题 4.31 
假设 我 们 使 用 了 一 种 成 功率 可 以 达到 65% 的 分 支 预测 策略 ， 例 如 后 向 分 支 选择 、 前 向 分 支 就 不 
选择 ， 如 4.5.3 节 中 描述 的 那样 。 那么 对 CPI 有 什么 样 的 影响 呢 ? 假设 其 他 所 有 频率 都 不 变 


4.5.11 未 完成 的 工作 

我 们 已 经 创建 了 PIPE 流水 线 化 的 微 处 理 器 结构 ， 设 计 了 控制 逻辑 块 ， 并 实现 了 普通 流水 线 流 
(pipeline flow) 不 足以 处 理 特 殊 情况 的 流水 线 控制 逻辑 。 不 过 ，PIPE 还 是 缺乏 一 些 实际 微 处 理 器 
发 寺中 所 必 青 的 关键 特性 。 我 们 会 强调 其 中 一 些 ， 并 讨论 要 增加 这 些 特性 需要 些 什 么 。 

异常 处 理 

当 一 个 机 器 级 程序 遇 到 出 错 的 情况 时 ， 例 如 ， 非 法 指令 代码 或 是 指令 或 数据 地 址 越界 会 导致 各 
序 流 中 断 ， 称 为 异常 exception)。 异 常 看 上 去 就 像 过 程 调用 ， 它 调用 一 个 异常 处 理 程 序 (exception 
handler)， 攻 程序 是 操作 系统 的 一 部 分 。 我 们 会 在 第 8 章 中 详细 介绍 异常 处 理 。 执 行 hat 指令 也 会 
触发 一 个 异常 。 异 常 处 理 是 处 理 器 指令 集体 系 结构 的 一 部 分 。 通 常 ， 依 赖 于 异常 的 类 型 ， 异 常会 导 
致 处 理 停止 。 也 就 是 ， 应 该 完成 到 异常 点 之 前 的 指令 ， 但 是 该 点 后 的 所 有 指令 都 不 应 该 对 程序 员 可 
见 的 状态 产生 任何 影响 。 

在 一 个 流水 线 化 的 系统 中 ， 异 常 处 理 包 括 一 些 细节 问题 。 首 先 ， 可 能 同时 有 多 条 指令 会 引起 异 
Fe > 例如， 在 一 个 流水 线 操作 的 周期 内 ,可 能 会 有 指令 存储 器 报告 取 指 阶段 中 指令 的 指令 地 址 越界 、 
切 存 阶段 中 指令 的 数据 地 址 越界 ， 以 及 控制 逻辑 报告 解码 阶段 中 指令 的 非法 代码 。 我 们 必须 确定 处 
于 器 应 该 向 操作 系统 报告 哪个 异常 。 基 本 原则 是 由 流水 线 中 最 深 的 指令 引起 的 异常 ， 优 先 级 最 高 。 
企 上 面 那个 例子 中 ， 应 该 报告 访 存 阶段 中 指令 的 地 址 越界 。 关 于 机 器 语言 程序 ， 访 存 阶段 中 的 指令 
本 来 应 该 在 解码 或 取 指 阶段 中 的 指令 开始 之 前 就 结束 的 ， 所 以 ， 只 应 该 向 操作 系统 报告 这 个 异 党 。 

第 一 个 细节 问题 是 ， 当 首先 取出 一 条 指令 ， 开 始 执行 时 ， 导 致 了 一 个 异常 ， 而 后 来 由 于 分 支 预 
测 错 误 ， 取 消 了 该 指令 。 下 面 就 是 一 个 这 样 程序 示例 的 目标 代码 ， 

0x000: 6300 | xorl %eax, teax 

0x002: 740e000000 | jne Target # Not taken 
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0x007: 308001000000 | irmovl $1, teax # Fall through 


Ox00d: 10C | halt 
Ox0Ge: | Target: 
Ox00e: ff | . byte OxFF # Invaiid instruction code 


在 这 个 程序 中 ， 流 水 线 会 预测 不 选择 分 支 ， 因 此 它 会 取出 并 以 一 个 值 为 0xFF 的 字 节 作为 指令 
(由 拒 编 代码 中 ,byte 指示 字 产 生 的 )。 解 码 阶 段 会 因此 发 现 一 个 非法 指令 异常 。 稍 后 ， 流 水 线 会 发 
现 不 应 该 选择 分 支 , 因此 根本 就 不 应 该 取出 位 于 地 址 0x00e 的 指令 。 流水 线 控制 逻辑 会 取消 该 指令 ， 
但 是 我 们 想 要 避免 出 现 异常 。 

第 三 个 细节 问题 的 产生 是 因为 流水 线 化 的 处 理 器 会 在 不 同 的 阶段 更 新 系统 状态 的 不 同 部 分 。 有 
可 能 会 出 现 这 样 的 情况 ， 一 条 指令 导致 了 一 个 异常 ， 它 后 面 的 指令 在 产生 异常 的 指令 完成 之 前 改变 
了 部 分 状态 。 比 如 说 ， 考 虑 下 面 的 代码 序列 ， 其 中 我 们 假设 不 允许 用 户 程序 访问 大 于 0xc0000000 
的 地 址 《 跟 第 10 章 中 讨论 的 现在 Linux 中 的 情况 一 样 ): 


1 irmovl $0, %esp # Set stack pointer to 0 
2 pushl teax # Attempts to write to Oxfffffffc 
3 addl tecx, teax # Sets condition codes 


pushi 指令 导致 一 个 地 址 异常 ， 因 为 减 小 栈 指针 会 导致 它 绕 回 (wrap around) 到 Oxfffffffc。 访 在 
阶段 中 会 发 现 这 个 异常 。 在 同一 周期 中 ，addi 指令 处 于 执行 阶段 ， 而 它 会 将 条 件 码 设置 成 新 的 值 。 
这 恕 会 违反 异 久 点 之 后 的 所 有 指令 都 不 能 影响 系统 状态 的 要 求 。 

一 般 地 , 通过 将 异常 处 理 逻 辑 合 并 到 流水 线 结构 中 , 我 们 既 能 够 从 各 个 异常 中 做 出 正确 的 选择 ， 
也 能 够 避免 出 现 由 于 分 支 预测 错误 取出 的 指令 造成 的 异常 。 我 们 给 每 个 流水 线 寄存 器 添加 了 一 个 特 
殊 的 字段 exc， 它 给 出 处 于 该 流水 线 寄 存 器 中 指令 的 异常 状态 。 如 果 一 条 指令 在 其 处 理 中 于 某 个 阶 
段 产 生 了 一 个 异常 ,状态 字段 就 设置 成 指示 异常 的 种 类 。 异 常 状态 和 其 他 信息 一 起 沿 着 流水 线 传播 ， 
直到 它 到 达 写 回 阶段 。 在 此 ， 流 水 线 控制 逻辑 发 现 出 异常 ， 并 开始 取出 异常 处 理 程序 的 代码 。 

为 了 避免 开 常 点 之 后 的 指令 更 新 任何 程序 员 可 见 的 状态 ， 应 该 修改 流水 线 控制 逻辑 ， 使 之 在 访 
仔 或 号 回 阶段 中 的 指令 导致 异常 时 , 不 会 更 新 条 件 码 寄存 器 或 是 数据 存储 器 。 在 上 面 的 示例 程序 中 ， 
控制 逻辑 会 发 现 访 存 阶段 中 的 push 导致 了 异常 ， 因 此 应 该 禁止 addl 指令 更 新 条 件 码 寄存 器 。( 在 本 
段 文字 所 对 应 的 PIPE 的 模拟 器 中 ， 你 会 看 到 流水 线 化 的 处 理 器 中 处 理 异 常 的 技术 实现 。) 

让 我 们 来 看 看 这 种 处 理 异常 的 方法 是 怎样 解决 我 们 刚才 提 到 的 那些 细节 问题 的 。 当 流水 线 中 有 
一 个 或 多 个 阶段 出 现 异 常 时 ， 信 息 只 是 简单 地 存放 在 流水 线 寄存 器 的 异常 状态 字段 中 。 异 常事 件 不 
会 对 流水 线 中 的 指令 流 有 任何 影响 ， 除 了 会 禁止 流水 线 中 后 面 的 指令 更 新 程序 员 可 见 的 状态 (条件 
码 寄存 器 或 存储 器 )， 直到 异常 指令 到 达 最 后 的 流水 线 阶 段 , 因为 指令 到 达 写 回 阶 段 的 顺序 与 它们 在 
非 流 水 线 化 的 处 理 器 中 执行 的 疾 序 相同 ， 所 以 我 们 可 以 保证 第 一 条 遇 到 异常 的 指令 会 第 一 个 引起 控 
制 转移 到 异常 处 理 程序 。 如 果 取 出 了 某 条 指令 ， 过 后 又 取消 了 ， 那 么 所 有 关于 这 条 指令 的 异常 状态 
信息 也 都 会 被 取消 。 所 有 导致 异常 的 指令 后 面 的 指令 都 不 能 改变 程序 员 可 见 的 状态 。 携 带 指 令 的 异 
第 状 态 以 及 所 有 其 他 信息 通过 流水 线 的 简单 原则 是 处 理 异 常 的 简单 而 可 靠 的 机 制 。 

多 周期 指令 

Y86 指令 集中 的 所 有 指令 都 包括 一 些 简单 的 操作 ， 例 如 数字 加 法 。 这 些 操作 可 以 在 执行 阶段 一 
个 周期 内 处 理 完 。 在 一 个 更 完整 的 指令 集中 , 我 们 还 需要 实现 一 些 需 要 更 为 复杂 操作 的 指令 , 例如 ， 
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整数 乘法 和 除法 ， 以 及 浮 点 运算 。 在 一 个 像 PIPE 这 样 性 能 中 等 的 处 理 器 中 ， 这 些 操作 的 典型 执行 
时 间 从 浮 点 加 法 的 3 或 4 个 周期 到 整数 除法 的 32 个 周期 为 了 实现 这 些 指令 , 我 们 既 需 要 额外 的 硬 
件 来 执行 这 些 计 算 ， 还 需要 一 种 机 制 来 协调 这 些 指令 的 处 理 与 流水 线 其 他 部 分 之 间 的 关系 。 

实现 多 周期 指令 的 一 种 简单 方法 就 是 只 是 简单 地 扩展 执行 阶段 逻辑 的 功能 ， 添 加 一 些 整 数 和 桩 
点 算术 运算 单元 。 一 条 指令 在 执行 阶段 中 去 留 它 所 需要 的 多 个 时 钟 周期 ， 会 导致 取 指 和 解码 阶段 暂 
停 。 这 种 方法 实现 起 来 很 简单 ， 但 是 得 到 的 性 能 并 不 是 太 好 。 

可 以 通过 采用 独立 于 主流 水 线 的 特殊 硬件 功能 单元 来 处 理 较为 复杂 的 操作 以 得 到 更 好 的 性 能 。 
通常 ， 有 一 个 功能 单元 来 执行 整数 乘法 和 除法 ， 还 有 一 个 来 执行 浮 点 操作 。 当 一 条 指令 进入 解码 阶 
段 时 ， 它 可 以 被 发 射 到 特殊 单元 。 在 这 个 特殊 单元 执行 该 操作 时 ， 流 水 线 会 继续 处 理 其 他 指令 。 通 
常 ， 浮 点 单元 本 身 也 是 流水 线 化 的 ， 因 此 多 个 操作 可 以 在 主流 水 线 和 各 个 单元 中 并 发 执行 。 

不 同 单元 的 操作 必须 同步 ， 以 避免 出 错 。 比 如 说 ， 如 果 在 被 不 同 单元 执行 的 各 个 指令 之 间 有 数 
据 相关 , 控制 逻辑 可 能 需要 暂停 系统 的 某 个 部 分 , 直到 由 系统 其 他 某 个 部 分 处 理 的 操作 的 结果 完成 。 
经 常 使 用 各 种 形式 的 转发 ， 将 结果 从 系统 的 一 个 部 分 传递 到 其 他 部 分 ， 和 我 们 前 面 看 到 的 PIPE 各 
个 阶段 之 间 的 转发 一 样 。 虽 然 与 PIPE 相 比 ， 整 个 设计 变 得 更 为 复杂 ， 但 还 是 可 以 使 用 暂停 、 转 发 
以 及 流水 线 控制 等 同样 的 技术 来 使 整体 行为 与 顺序 的 ISA 模型 相 匹 配 。 

存储 系统 的 接口 

在 我 们 对 PIPE 的 描述 中 ， 我 们 假设 取 指 单元 和 数据 存储 器 都 可 以 在 一 个 时 钟 周 期 内 读 或 是 写 存 
储 器 中 任意 的 位 置 。 我 们 还 忽略 了 由 自我 修改 《self-moodifying》 代 码 造 成 的 可 能 冒险 。 在 自我 修改 
代码 中 ， 一 条 指令 对 一 个 存储 区 域 进行 写 ， 而 后 面 的 指令 又 从 这 个 区 域 中 读 取 。 进 一 步 说 ， 我 们 是 以 
存储 器 位 置 的 虚拟 地 址 来 引用 它们 的 ， 这 就 要 求 在 执行 实际 的 读 或 写 操作 之 前 ， 要 将 虚拟 地 址 翻译 成 
物理 地 址 。 显 然 ， 要 在 一 个 时 钟 周期 内 完成 所 有 这 些 处 理 是 不 现实 的 。 更 糟糕 的 是 ， 正 在 访问 的 存储 
器 的 值 可 能 是 位 于 磁盘 上 上 的， 这 会 需要 上 百 万 个 时 钟 周期 才能 把 数据 读 入 到 处 理 器 存储 器 中 。 

正如 我 们 将 在 第 6 章 和 第 10 章 中 讲述 的 那样 , 处理 器 的 存储 系统 是 由 多 种 硬件 存储 器 和 管理 虚 
拟 存 储 器 的 操作 系统 软件 共同 组 成 的 。 存 储 系 统 被 组 织 成 一 个 层次 结构 ， 较 快 但 是 较 小 的 存储 器 保 
持 厦 存储 器 的 一 个 子 集 ， 而 较 慢 但 是 较 大 的 存储 器 作为 它 的 后 备 。 最 靠近 处 理 器 的 一 层 是 高 速 缓存 
存储 器 (cache memories)， 它 提供 对 最 常 使 用 的 存储 器 位 置 的 快速 访问 。 一 个 典型 的 处 理 器 有 两 个 
第 一 层 高 速 缓存 一 一 一 个 用 于 读 指 令 ， 一 个 用 于 读 和 写 数据 。 另 一 种 类 型 的 高 速 缓 存 存 储 器 ， 称 为 
翻译 后 备 绥 冲 器 (translation look-aside buffer) X TLB, 它 提供 了 从 虚拟 地 址 到 物理 地 址 的 快速 翻译 。 
将 TLB 和 高 速 缓存 结合 起 来 使 用 , 大 多 数 时 候 , 确实 可 能 在 一 个 时 钟 周期 内 读 指 令 并 读 或 是 写 数据 。 
因此 ， 对 我 们 的 处 理 器 引用 存储 器 的 简化 的 看 法 实际 上 是 很 合理 的 。 

虽然 融 速 缓存 中 保存 有 最 常 引用 的 存储 器 位 置 ， 但 是 还 是 有 时 候 会 出 现 高 速 缓存 不 命中 ， 也 
就 是 有 些 引用 的 位 置 不 在 高 速 缓存 中 。 最 好 的 情况 中 ， 可 以 从 较 高 层 的 高 速 缓存 或 处 理 器 的 主 存 中 
找到 不 命中 的 数据 ， 这 需要 3 一 20 个 时 钟 周期 。 同 时 ， 流 水 线 会 暂停 ， 将 指令 保持 在 取 指 或 访 存 阶 
段 ， 直 到 高 速 缓存 能 够 执行 读 或 写 操 作 。 至 于 我 们 的 流水 线 设 计 ， 通 过 添加 更 多 的 暂停 条 件 到 流水 
线 控制 逻辑 ， 束 能 实现 这 个 功能 。 高 速 缓存 不 命中 以 及 随 之 而 来 的 与 流水 线 的 同步 都 完全 是 由 硬件 
来 处 理 的 ， 这 样 能 使 所 需 的 时 间 尽 可 能 地 缩短 到 很 少数 量 的 时 钟 周 期 。 


1 指数 据 。 一 一 译 者 
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有 时 , 被 引用 的 存储 器 位 置 实际 上 是 存储 在 磁极 存储 器 上 的 。 此 时 ,硬件 会 产生 一 个 缺 页 (page 
fault》〉 弄 常 信号 。 同 其 他 异常 一 样 ， 这 个 异常 会 导致 处 理 器 调用 操作 系统 的 异常 处 理 程序 代码 。 然 
后 这 段 代 码 会 皮 起 从 磁盘 到 主 存 的 传送 操作 。 一 旦 完成 ， 操 作 系统 会 返回 到 原来 的 程序 ， 而 导致 缺 
页 的 指令 会 被 重新 执行 。 这 次 存储 器 引用 将 成 功 ， 虽 然 可 能 会 导致 高 速 缓 存 不 命中 。 让 硬件 请 用 操 
作 系统 例 程 ， 然 后 它 又 会 将 控制 返回 给 硬件 ， 这 就 使 得 硬件 和 系统 软件 在 处 理 缺 页 时 能 协同 工作 。 
因为 访问 磁盘 会 需要 数 百 万 个 时 钟 周期 ，OS 缺 页 中 断 处 理 程 序 执行 的 处 理 所 需 的 几 百 个 时 钟 周 期 
对 性 能 的 影响 可 以 忽略 不 计 。 

从 处 理 右 的 角度 来 看 ， 将 用 暂停 来 处 理 短 时 间 的 高 速 缓存 不 命中 和 用 异常 处 理 来 处 理 长 时 间 的 
缺 员 结合 起 来 ， 能 够 顾及 到 存储 器 访问 时 由 于 存储 器 层次 结构 引起 的 所 有 不 可 预测 性 。 


旁 注 ， 当 前 的 微 处 理 器 设计 

一 个 五 阶段 流水 线 ， 例 如 我 们 已 经 讲 过 的 PIPE 处 理 器 ， 代 表 了 20 世纪 80 年 代 中 期 的 处 理 器 
Kit K+, Berkeley 的 Patterson 研究 组 开发 的 RISC 处 理 器 原型 是 第 一 个 SPARC 处 理 器 的 基础 ， 它 
Æ Sun Microsystems 在 1987 年 开发 的 。Stanford 的 Hennessy 的 研究 组 开发 的 处 理 器 由 MIPS 
Technologies (一 个 由 Hennessy 成 立 的 公司 ) 在 1986 年 商业 化 了 . 这 两 种 处 理 器 都 使 用 的 是 五 阶段 
AAR. Intel 的 i486 处 理 器 用 的 也 是 五 阶段 流水 线 ， 只 不 过 阶段 之 间 的 职责 划分 不 太一 样 ， 它 有 两 
个 解码 阶段 和 一 个 合并 了 的 执行 / 访 存 阶段 [21]。 

这 些 流 水 线 化 的 设计 的 吞吐 量 都 限制 在 最 多 一 个 时 钟 周期 一 条 指令 。4.5.10 小 节 中 描述 的 CPI 
(每 指令 周期 ) 测量 值 不 可 能 超过 1.0。 不 同 的 阶段 一 次 只 能 处 理 一 条 指令 。 较 新 的 处 理 器 支持 超 
标量 (superscalar ) 操作 ， 意 味 着 它们 通过 并 行 地 取 指 、 解 码 和 执行 多 条 指令 ， 可 以 实现 小 于 1.0 的 
CPI。 当 超标 量 处 理 器 已 经 广泛 使 用 时 ， 性 能 测量 标准 已 经 从 CPI 转化 成 了 它 的 倒数 一 一 每 周期 执 
行 指令 的 平均 数 ， 即 PC。 对 超标 量 处 理 器 来 说 ，IPC 可 以 大 于 1.0。 最 先进 的 设计 使 用 了 一 种 称 为 
aL (out-of-order) 执行 的 技术 来 并 行 地 执行 多 条 指令 ， 执 行 的 顺序 也 可 能 完全 不 同 于 它们 在 程序 
中 出 现 的 顺序 ， 但 是 保留 了 顺序 ISA 模型 蕴含 的 整体 行为 ， 作 为 对 程序 优化 的 讨论 的 一 部 分 ， 我 们 
将 会 在 第 5 章 中 讨论 这 种 形式 的 执行 。 

不 过 , 流水 线 化 的 处 理 器 并 不 只 有 传统 的 用 途 。 现 在 出 售 的 大 部 分 处 理 器 都 用 在 误 入 式 系 统 中 ， 
控制 着 汽车 运行 、 消 费 产品 ， 以 及 其 他 一 些 系统 用 户 不 能 直接 看 到 处 理 器 的 地 方 。 在 这 些 应 用 中 ， 
与 性 能 较 高 的 模型 相 比 ， 流 水 线 化 的 处 理 器 的 简单 性 ， 比 如 说 像 我 们 在 本 章 中 讨论 的 这 样 ， 会 降低 
成 本 和 功 耗 需求 。 


46 ”小 结 


我 们 已 经 看 到 ， 指 令 集体 系 结构 〈 即 ISA) 在 处 理 器 行为 (就 指令 集合 及 其 编码 而 言 ) 和 如 何 
实现 处 理 器 之 间 提 供 了 一 层 抽象 。ISA 提供 了 程序 执行 的 一 种 顺序 说 明 , 也 就 是 一 条 指令 执行 完了 ， 
下 一 条 指令 才 会 开始 。 

基本 IA32 指令 集 ， 并 晶 大 大 简化 其 数据 类 型 、 地 址 模式 和 指令 编码 ， 我 们 定义 出 了 Y86 指令 
集 。 得 到 的 ISA BEA RISC 指令 集 的 属性 ， 也 有 CISC 指令 集 的 属性 。 然 后 ， 我 们 将 不 同 指令 组 织 
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放 到 五 “个 阶段 中 处 理 ， 在 此 ， 根 据 被 执行 的 指令 的 不 同 ， 每 个 阶段 中 的 操作 也 不 相同 。 从 此 ， 我 
们 构造 了 SEQ 处 理 器 ， 其 中 每 个 时 钟 周 期 推进 一 条 指令 通过 每 个 阶段 。 通 过 重新 排列 各 个 阶段 ， 我 
们 创建 了 SEQ+ 设 计 ， 其 中 第 一 个 阶段 选择 程序 计数 器 的 值 ， 它 被 用 来 取出 当前 指令 。 
流水 线 化 通过 让 不 同 的 阶段 并 行 操作 ， 改 进 了 系统 的 吞吐 量 性 能 。 在 任意 一 个 给 定 的 时 刻 ， 多 条 
指令 被 处 理 。 在 引入 这 种 并 行 性 的 过 程 中 ， 我 们 必须 非常 小 心 ， 以 提供 与 程序 的 顺序 执行 相同 的 用 户 
可 见 的 、 程 序 级 行为 。 我 们 通过 往 SEQ+ 中 添加 流水 线 寄 存 器 ， 并 重新 安排 周期 来 创建 PIPE- 流 水 线 ， 
介绍 了 流水 线 化 然后， 我 们 添加 了 转发 逻辑 ， 加 速 了 将 结果 从 一 条 指令 上 发 送 到 男 一 条 指令 ， 从 而 提 
高 了 流水 线 的 性 能 。 有 几 种 特殊 情况 需要 额外 的 流水 线 控制 逻辑 来 暂停 或 取消 一 些 流水 线 阶 段 。 
在 本 章 中 ， 我 们 学 习 了 有 关 处 理 器 设计 的 儿 个 重要 经 验 . 
© 管理 复杂 性 是 首要 问题 。 我 们 想 要 优化 使 用 硬件 资源 ， 在 最 小 的 成 本 下 获得 最 大 的 性 能 。 
为 了 实现 这 个 目的 ， 我 们 创建 了 一 个 非常 简单 而 一 臻 的 框架 ， 来 处 理 所 有 不 同 的 指令 类 型 。 
有 了 这 个 框架 ， 我 们 就 能 够 在 处 理 不 同 指令 类 型 的 逻辑 中 闻 共 亭 硬 件 单元 。 
© 我 们 不 需要 直接 实现 ISA。ISA 的 直接 实现 意味 着 一 个 顺序 的 设计 。 为 了 获得 更 高 的 性 能 ， 
我 们 想 运 用 硬件 能 力 以 同时 执行 许多 操作 ， 这 就 导致 要 使 用 流水 线 化 的 设计 。 通 过 仔细 的 
设计 和 分 析 ， 我 们 能 够 处 理 各 种 流水 线 冒 险 ， 因 此 运行 一 个 程序 的 整体 效果 ， 同 用 ISA R 
型 获得 的 效果 完全 一 致 。 
© 硬件 设计 人 员 必 须 非 常 谨慎 小 心 。 一 旦 芯片 被 制造 出 来 ， 就 几乎 不 可 能 改正 任何 错误 了 。 
一 开始 就 使 设计 正确 是 非常 重要 的 。 意 思 就 是 ， 仔 细 地 分 析 各 种 指令 类 型 和 组 合 情 况 ， 甚 
全 于 那些 看 上 去 没有 意义 的 情况 ， 例 如 弹出 栈 指 针 。 必 须 用 系统 的 模拟 测试 程序 彻底 地 测 
试 设计 。 在 开发 PIPE 的 控制 逻辑 中 ， 我 们 的 设计 有 个 细微 的 错误 ， 只 有 通过 对 控制 组 合 的 
仔细 而 系统 的 分 析 才 能 发 现 。 


4.6.1 Y86 模拟 器 
本 章 的 实验 资料 包括 SEQ、SEQ+ 和 PIPE 处 理 器 的 模拟 器 。 每 个 模拟 器 都 有 两 个 版 本 : 
s。 GUI (图 形 用 户 界面 ) 版 本 在 图 形 窗口 中 显示 存储 器 、 程 序 代码 以 及 处 理 器 状态 。 它 提供 了 
一 种 查看 指令 如 何 通 过 处 理 器 的 方便 形式 。 控 制 面板 还 允许 你 交互 式 地 重启 动 、 单 步 或 运 
行 模 拟 器 。 这 些 版 本 要 求 有 Tel 脚本 语言 和 Tk SE. 
。 文本 版 本 运行 的 是 相同 的 模拟 器 ， 但 是 它 只 将 显示 信息 打印 到 终端 上 。 对 调试 来 讲 ， 这 个 版 
本 不 是 很 有 用 ， 但 是 它 允 许 处 理 器 的 自动 测试 ， 而 且 它 可 以 运行 在 不 支持 TelTK 的 系统 上 。 
模拟 器 的 控制 逻辑 是 通过 将 逻辑 块 的 HCL 声明 翻译 成 C 代码 产生 的 。 然 后 ， 将 该 代码 编译 并 
与 模拟 代码 的 其 他 部 分 进行 链接 。 同 时 还 有 测试 脚本 ， 它 们 全 面 地 测试 各 种 指令 以 及 各 种 冒险 的 可 
能 性 。 


参考 文献 说 明 

对 二 那些 想 更 多 地 学 习 逻 辑 设计 的 人 来 说 ，Katz 的 逻辑 设计 教科 书 [39] 是 标准 的 入 门 教材 ， 它 
哩 调 的 是 硬件 接 述 语言 的 使 用 ， 

Hennessy 和 Patterson 的 计算 机 体系 结构 教科 书 [33] 禾 盖 了 处 理 器 设计 的 广泛 内 容 ， 包 括 像 我 们 


2 有 原文 是 六 。 
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在 这 里 讲述 的 简单 流水 线 ， 还 有 并 行 执 行 更 多 指令 的 更 高 级 的 处 理 器 。Shriver 和 Smith[69] 详 细 介 
绍 了 AMD 制造 的 、Intel 兼容 的 IA32 处 理 器 。 


家 性 作业 

4.32 多 

在 我 们 的 Y86 示例 程序 中 , 例如 图 4.5 中 的 Sum 函数 ,我们 多 次 遇 到 想 将 一 个 常数 加 到 寄存 器 
的 情况 〈 例 如 ， 第 12 和 13 行 ， 以 及 第 14 和 15 行 )。 这 要 求 首 先 用 irmovl 指令 将 一 个 寄存 器 设置 
为 常数 , 然后 用 add 指令 把 这 个 值 加 到 目的 寄存 器 。 假 设 我 们 想 添 加 一 条 新 指令 addi, 其 格式 如 下 : 

字 节 2 3 4 5 


0 1 
wav e RELL v 


KRESS V 加 到 寄存 器 rB。 请 描述 实现 这 一 指令 所 执行 的 计算 。 可 以 参考 irmovl 和 
OPI 的 计算 (图 4.16)。 

4.33 © 

如 3.7.2 小 节 中 讲述 的 那样 , IA32 的 指令 leave 可 以 用 来 使 栈 为 返回 做 准备 。 它 等 价 于 下 面 这 个 
Y86 指令 序列 : 


1 rrmovl %tebp, tesp Set stack pointer to beginning of frame 
2 popl ebp Restore saved #ebp and set stack ptr to end of 
caller's frame 


假设 我 们 要 往 Y86 指令 集中 加 入 这 样 一 条 指令 ， 编 码 如 下 
Ti 0 1 2 3 4 5 


ia tA IK RSP T NH. AUB popl 的 计算 (图 4.18)。 

4.34 0 

文件 seq-full.hel 包含 SEQ 的 HCL 描述 ， 并 将 常数 IIADDL 声明 为 十 六 进 制 值 C， 也 就 是 iaddl 
的 指令 代码 。 修 改 实现 iaddl 指令 的 控制 逻辑 块 的 HCL 描述 ， 就 像 家 庭 作 业 4.32 中 描述 的 那样 。 可 
以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

4.35 0¢ 

文件 seq-fullhcl 还 将 常数 ILEAVE 声明 为 十 六 进 制 值 D， 也 就 是 leave 的 指令 代码 ， 同 时 将 常 
数 REBP 声明 为 7， 即 %cbp 的 寄存 器 ID 。 修 改 实现 leave 指令 的 控制 逻辑 块 的 HCL 描述 ， 就 像 家 
性 作业 4.33 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测 试 模拟 器 
的 指导 。 

4.36 多 

假设 我 们 要 创建 一 个 较 低 成 本 的 、 基 于 我 们 为 PIPE -设计 的 结构 〈 图 4.39 和 图 4.41) 的 流水 线 


化 的 处 理 器 ， 没 有 使 用 旁 路 技术 。 这 个 设计 用 暂停 来 处 理 所 有 的 数据 相关 ， 直 到 产生 所 需 值 的 指令 
已 综 退 过 了 写 回 阶 段 。 
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文件 pipe-stall. hel 包含 一 个 对 PIPE AY HCL 代码 的 修改 版 ， 其 中 禁止 了 旁 路 逻辑 。 也 就 是 ， 信 
5 e_valA Al e_valB 只 是 简单 地 声明 为 下 面 这 样 ， 


## DO NOT MODIFY THE FOLLOWING CODE. 


## No forwarding. valA is either valP or value from register file 
int new_E valA = | 


D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 
1 : d rvalA; # Use value read from register file 


]; 


## No forwarding. valB is value from register file 

int new_E valB = d_rvalB; 

修改 文件 结尾 处 的 流水 线 控制 逻辑 ， 使 之 能 正确 处 理 所 有 可 能 的 控制 和 数据 冒险 。 作 为 设计 工 
作 的 一 部 分 ， 你 还 要 分 析 各 种 控制 情况 的 组 合 ， 就 像 我 们 在 PIPE 的 流水 线 控制 还 辑 设计 中 做 的 那 
样 。 你 会 发 现 有 许多 不 同 的 组 合 ， 因 为 有 更 多 的 情况 需要 流水 线 暂 停 。 要 确保 你 的 控制 逻辑 能 正确 
处 理 每 种 组 合 情 况 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

4.37 SD 

文件 pipe-full.hci 包含 一 份 PIPE 的 HCL 描述 , 以 及 常数 值 ADDL 的 声明 。 修改 该 文件 以 实现 
指令 iaddl， 就 像 家 庭 作业 4.32 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 
以 及 如 何 测试 模拟 器 的 指导 。 

4.38 04 

文件 pipe-full.hel 还 包含 常数 [LEAVE 和 REBP 的 声明 。 修 改 该 文件 以 实现 指令 leave, REZ 
寿 作 业 4.33 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 
的 指导 。 

4.39 @@ 允 

文件 pipe-nthcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J YES 声明 为 值 0， 即 无 条 件 转移 指令 
的 图 数 代码 。 修 改 分 支 预测 逻辑 ， 使 之 对 条 件 转移 预测 为 不 选择 分 支 ， 而 对 无 条 件 转移 和 call 预测 
为 选择 分 文 。 你 需要 设计 一 种 方法 来 得 到 跳 转 目标 地 址 vaiC， 并 送 到 流水 线 寄 存 器 M， 以 便 从 错误 
的 分 文 预测 中 恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

4.40 OOS 

文件 pipe-btfnt.hcil 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_YES 声明 为 值 0， 即 无 条 件 转移 指 
令 的 消 数 代码 。 修 改 分 支 预 测 逻辑 ， 使 得 当 valC < vaP 时 (后 向 分 支 )， 就 预测 条 件 转 移 为 选择 分 
文 ， 当 valC > vaP 时 〈 前 向 分 支 )， 就 预测 为 不 选择 分 支 。 并 且 将 无 条 件 转移 和 call 预测 为 选择 分 
文 。 你 需要 设计 一 种 方法 来 得 到 valC 和 valP， 并 送 到 流水 线 寄存 器 M， 以 便 从 错误 的 分 支 预测 中 
恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

4.41 OHS 

在 我 们 的 PIPE 的 设计 中 ， 只 要 一 条 指令 执行 了 load 操作 ， 从 存储 器 中 读 一 个 值 到 寄存 器 ， 并 


且 下 一 条 指令 要 用 这 个 寄存 器 作为 源 操作 数 ， 就 会 产生 一 个 暂停 。 如 果 要 在 执行 阶段 中 使 用 这 个 源 
操作 数 ， 暂 停 是 避免 冒险 的 惟一 方法 。 
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对 于 第 二 条 指令 将 源 操作 数 存 储 到 存储 器 的 情况 , BEC rnmovl 或 pushl 指令 ， 是 不 各 要 这 样 的 
暂停 的 。 考 虑 下 和 面 这 段 代码 示例 : 


1 mrmovl 2{%ecx), tedx # Load I 


pushi %edx # Store | 
3 nop 
4 popl %edx # Load 2 
5 rmmovl %teax, 0 (%edx) # Store 2 


在 第 1 行 和 第 2 íT, mrmovl 指令 从 存储 器 读 一 个 值 到 gedx, 然后 pushl FB SFIS MBI ABE. 
我 们 的 PIPE 设计 会 让 pushl 指令 暂停 ， 以 避免 装载 /使 用 冒险 。 不 过 ， 可 以 看 到 ，pushl 指令 要 到 访 
存 阶段 才 会 需要 %edx 的 值 。 我 们 可 以 再 添加 一 条 旁 路 通路 ， 如 图 4.69 所 示 ， 将 存储 器 输出 〈 信 和 号 
m_valM) 转发 到 流水 线 寄存 器 M 中 的 valA 字段 。 在 下 一 个 时 钟 周 期 ， 破 传送 的 值 怠 能 写 人 存储 堆 
了 。 这 种 技术 称 为 加 载 转发 doad forwarding )。 


-一 本 一 一 一 一 


Eiss 
C fofin ae T wn [vate] Jost fous] sical sco 


4.69 ” 带 加 载 转发 的 执行 和 访 存 阶段 


通过 添加 一 -条 从 存储 器 输出 到 流水 线 寄存 器 M 中 valA 的 源 的 旁 路 通路 ， 对 于 这 种 形式 的 加 载 /使 用 骨 险 ， 我 们 可 以 使 用 转发 
而 不 必 和 暂停 。 这 是 家 庭 作业 4.41 的 主题 . 
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注意 ， 上 述 代 码 序 列 中 的 第 二 个 例子 (第 4 行 和 第 5 行 ) 不 能 利用 加 载 转发 。popi 指令 加 载 的 
值 是 作为 下 -一 条 指令 地 址 计算 的 一 部 分 的 ， 而 在 执行 阶段 而 非 访 存 阶 段 就 需要 这 个 值 了 。 

A. 写 出 描述 发 现 加 载 /使 用 冒险 条 件 的 公式 ， 类 似 于 图 4.64 中 给 出 的 那 一 个 ， 除 了 在 能 用 加 载 
转发 时 不 会 导致 暂停 以 外 。 

B. 文件 pipe-lf.hcl 包含 一 个 PIPE 控制 逻辑 的 修改 版 。 它 含有 信号 new_M_valA 的 定义 ， 是 用 
来 实现 图 4.69 中 标号 为 “Fwd A” 的 块 的 。 它 还 将 流水 线 控制 逻辑 中 的 加 载 /使 用 冒险 的 条 件 设置 为 
0， 因 此 流水 线 控制 逻辑 不 会 发 现任 何 形式 的 加 载 /使 用 冒险 。 修 改 这 个 HCL 描述 以 实现 加 载 转发 。 
可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 

4.42 @ 多 

我 们 的 流水 线 化 的 设计 有 点 不 太 现 实 ， 因 为 寄存 器 文件 有 两 个 写 端 口 ,然而 只 有 pop 指令 需要 
对 寄存 器 文件 同时 进行 两 个 写 操作 。 因 此 ， 其 他 指令 只 使 用 一 个 写 端 口 ， 共 享 这 个 端口 来 写 valE 和 
valM。 下 向 这 个 图 给 出 的 是 一 个 对 写 回 逻辑 的 修改 版 ， 其 中 ， 我 们 将 写 回 寄存 器 ID CW _dstE 和 
W_dstM) 合并 成 一 个 信号 w_dstE, 同时 也 将 写 回 值 (W_valE 和 W_valM) 合并 成 一 个 信号 w valE: 


w_valE 


w_dstE 


W icode ee 


tf 
jel | vwae | vm [este fos] 
用 HCL 写 的 执行 这 些 合并 的 有 逻辑， 如 下 所 示 ; 


int w_dstE = | 
## writing from valM 
W_dstM != RNONE : W_dstM; 
l: W_dstE; 


| 

int w_valE = | 
W_dstM != RNONE : W_valM; 
1: W_valkE; 

l} 


对 这 些 多 路 复 用 器 的 控制 是 由 dstE 人 确定 的 一 一 当 它 表明 有 某 个 寄存 器 时 ， 就 选择 端口 E 的 值 ， 
舍 则 残 选 择 端口 M 的 值 。 

仁 摸 拟 模 型 中 ， 我 们 可 以 禁止 寄存 器 端口 M， 如 下 面 这 段 HCL RBR: 

int w_dstM = RNONE， 

int w_valM = 0: 

接 下 来 的 问题 就 是 要 设计 处 理 pop 的 方法 。 一 种 方法 是 用 控制 逻辑 动态 地 处 理 指 令 popl rA, 
使 之 与 下 面 两 条 指令 序列 有 一 样 的 效果 : 


iaddl $4, %esp 
mrmovl -4(%esp), rA 
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(关于 指令 iaddl 的 描述 ， 请 参考 家 庭 作业 4.32) 要 注意 两 条 指令 的 顺序 ， 以 保证 popl %esp 能 正确 
工作 。 要 达到 这 个 目的 ， 可 以 让 解码 阶段 的 逻辑 对 上 面 列 出 的 popl 指令 和 addi 指令 一 视 同仁 ， 除 
了 它 会 预测 下 一 个 PC 与 当前 PC 相等 以 外 。 在 下 一 个 周期 ， 再 次 取出 了 popl 指令 ， 但 是 指令 代码 
变 成 了 特殊 的 值 IPOP2。 它 会 被 当 作 一 条 特殊 的 指令 来 处 理 ， 行 为 与 上 面 列 出 的 mrmovl 指令 一 样 。 

文件 pipe-lw.hel 包含 着 上 面 讲 的 修改 过 的 写 端 口 逻辑 。 它 将 常数 POP? 声明 为 十 六 进 制 值 E。 
还 包括 信号 new D icode 的 定义 ， 它 产生 流水 线 寄存 器 D 的 icode 字段 。 可 以 修改 这 个 定义 ， 使 得 
当 第 二 次 取出 pop 指令 时 ， 插 入 这 个 指令 代码 。 这 个 HCL 文件 还 包含 信号 fope 的 声明 ， 也 就 是 标 
By “Select PC” WSR (K 4.56) 在 取 指 阶段 产生 的 程序 计数 器 的 值 。 

修改 该 文件 中 的 控制 逻辑 ,使 之 按照 我 们 描述 的 方式 来 处 理 pop 指令 。 可 以 参考 实验 资料 获得 
如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 占 的 指 寻 。 


练习 题 答案 


练习 题 4.1 答案 
手工 对 指令 编码 是 非常 乏味 的 ， 但 是 它 将 巩固 你 对 汇编 器 将 汇编 代码 变 成 字 节 序列 的 理解 。 在 
下 面 这 段 我 们 的 Y86 汇编 器 的 输出 中 ， 每 一 行 都 给 出 了 一 个 地 址 和 一 个 从 该 地 址 开始 的 字 蔬 序列。 


1 0x100: | .pos 0x100 # Start generating code at address 0x100 
2 0x100: 30830f000000 | irmovl $15, %ebx 

3 0x106: 2031 | rrmovl %ebx,%ecx 

4 0x108: | loop: 

5 0x108: 4013fdffİÍfff | rmmovl %ecx,-3 (%ebx) 

6 0x10e: 6031 | add] %ebx,%ecx 

7 0x110: 7008010000 | jmp loop 


这 段 编码 有 些 地 方 值得 注意 : 

e。 十进制 的 15 (第 2 行 ) 的 十 六 进 制 表 示 为 0x0000000f。 以 反 向 顺序 来 写 就 是 Of 00 00 00. 

。 十进制 -3 CGE 517) MAAR AA Oxfffffffd. DAR UIP RS wt fd ff ff ff. 

。 ”代码 从 地 址 0x100 开始 。 第 一 条 指令 需要 6 个 字 节 ， 而 第 二 条 需要 2 个 字 节 。 因 此 ， 逢 环 
的 目标 地 址 为 0x00000108。 以 有 反 同 顺序 来 写 就 是 08 01 00 00. 


练习 题 4.2 答案 

手工 对 一 个 字 节 序列 进行 解码 能 帮助 你 理解 处 理 器 面临 的 任务 。 它 必须 读 入 字 节 序列 ， 并 确定 
该 执行 什么 指令 。 接 下 来 ， 我 们 给 出 的 是 用 来 产生 每 个 字 节 序列 的 汇编 代码 。 在 汇编 代码 的 左边 ， 
你 可 以 看 到 每 条 指令 的 地 址 和 字 节 序列 。 

A. 市 立即 数 和 地 址 位 移 的 操作 。 


0x100: 3083fcffffff | irmovi S$-4,$%ebx 

0x106; 406300080000 | rmmovil *esi,0x800 (Sebx) 
OxlOc: 10 | halt 

B. BA— eh Ba HR FCS. 

0x200: a068 | pushl %esi 


0x202: 8008020000 call proc 
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0x207: 10 | halt 

0x208; lproc: 

Ox208: 30830a000000 | 1rmovl $10, %ebx 

Ox20e: 90 | ret 

C. 包含 非法 指令 指示 字 节 0xf0 的 代码 。 

0x300: 505407000000 | Mrmovl 7 (%esp),%ebp 

0x306; 00 nop 

0x307: £0 | . byte Oxf0 # invalid instruction code 
0x308: b018 | popl tecx 

D. 包含 一 个 跳 转 操作 的 代码 。 

0x400: | Loop: 

0x400: 6113 | subl t*ecx, %*ebx 

0x402: 7300040000 | je loop 

0x407: 10 | halt 

E. pushl 指令 中 第 二 个 字 节 为 非法 的 代码 。 

0x500: 6362 | xorl %esi,%edx 

0x502: a0 | .byte Cxa0 # pushi instruction code 
0x503: B80 | .byte 0x80 # Invalid register byte 

练习 题 4.3 答案 


正如 题目 中 建议 的 那样 ， 我 们 修改 了 IA32 机 器 上 的 GCC 产生 的 代码 : 


# ant Sum{int *Start, int Count) 
rSum: pushl %ebp 
rrmovl %esp, %ebp 
1rmovl $20, *eax 
subl teax,t%esp 
pushl %ebx 
mrmovl 8 (tebp) , tebx 
mrmovl 12 (%ebp) , eax 
andl teax,*eax 
jle L38 
lrmovl $-8, tedx 
addl %edx,%esyp 
lrmovl $-1,%edx 
addl tedx,%eax 
pushl %eax 
i1rmovl s$4,%edx 
rrmovl *ebx, eax 
addl tedx,%eax 
pushl %eax 
call rSum 
mrmovl (*ebx), sedx 
addl tedx, *teax 
jmp L39 
L38: xorl teax, teax 
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L39: mrmovl -~24(%ebp), %ebx 
rrmovl %ebp, %esp 
popl %ebp 
ret 

练习 题 4.4 答案 


虽然 很 难 想 像 这 条 指令 有 什么 实际 用 处 ， 但 是 在 设计 系统 时 ， 避 免 在 这 种 情况 中 出 现 政 义 是 非 
常 重点 和 的。 我 们 融 为 这 条 指令 的 行为 确定 一 种 合理 的 解释 惯例 ， 并 确保 每 个 实现 都 遵守 了 这 个 惯例 。 

这 个 测试 中 subl 指令 比较 了 %esp 的 初始 值 和 讨 入 栈 中 的 值 。 相 减 的 结果 为 0, 这 表明 上 讨 入 栈 中 
的 是 %esp 原来 的 值 。 

练习 题 4.5 答案 

更 难以 想像 会 有 人 得 要 将 栈 顶 值 弹 出 到 栈 指针 中 。 不 过 ， 我 们 还 是 鉴 人 确定 一 个 惯例 并 遵循 它 。 
这 个 代码 序列 将 tval 讨 入 栈 中 ， 再 阐 出 到 %esp 中 ， 并 返回 弹出 的 值 。 既 然 结果 等 于 tval， 我 们 可 以 
推断 出 popl %esp 应 该 是 将 栈 指针 设置 为 从 存储 器 中 读 出 的 值 。 因 此 ， 它 等 价 于 指令 mrmov1 


O(sesp), Tesp; 


练习 题 46 Se 
EXCLUSIVE-OR (H) ARGE kA Pi a A RE: 
bool eq = (la && b) || ja && !b); 


通常 ， 信 号 eq 和 xor 是 互补 的 。 也 就 是 ， 一 个 等 于 1， 另 一 个 就 等 于 0。 
练习 题 4.7 答案 


EXCLUSIVE-OR 电路 的 输出 是 位 相等 值 的 补 。 根据 德 摩根 定律 (图 2.7), 我 们 能 用 OR 和 NOT 
实现 AND， 得 到 如 下 电路 : 


练习 题 4.8 答案 
这 个 设计 只 是 对 从 一 个 输入 中 找 出 最 小 值 的 设计 做 了 点 简单 的 改变 。 


int Med3 = [ 
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A <= B && B <= Č : B; 

B <= A && A <= Č : A: 

1 : C; 
]; 


练习 题 4.9 答案 
这 些 练习 使 各 个 阶段 的 计算 更 加 有 基体。 从 目标 代码 中 我 们 可 以 看 到 , 指令 是 位 于 地 址 0x00e 的 。 


它 包含 6 个 字 节 ， 前 两 个 字 节 为 0x30 和 0x84。 后 四 个 字 节 是 0x00000080 (十进制 128) 按 字 节 反 
过 来 的 形式 。 


irmcvl $128, %tesp 


icode:ifun 一 M,[0x0de}=3: 0 
rA:rB — Mi[0Ox00£]=8:4 
valC 一 Ms[0x010]=128 


阶段 
valP + 0x00e+6=0x014 


取 指 icode:ifun — Mi[PC] 
rA:rB 一 M,[PC+1] 
aa es 


valC — M,[PC+2] 
valP — PC+6 
R(rB] 一 vale R[tesp] + valE-123 
更 新 PC PC + valP PC ~- valP = 0x014 


这 个 指令 将 寄存 器 %esp 设 为 128， 并 将 PC 加 6。 


练习 题 4.10 SE 


我 们 可 以 看 到 指令 位 于 地 址 0x0tc， 有 两 个 字 节 ， 值 分 别 为 0xb0 和 0x08. push 指令 (第 6 行 ) 
将 寄存 器 %esp 设 为 了 124， 存 储 器 中 该 位 置 存 储 着 的 值 为 9。 


T T 


„oo 
取 指 icode:ifun 一 MiIPC] 
valP — PC+2 valP + 0x01c+2=0x01e 


icode:ifun + MO0x01c]j=b:0 
(A:rB = M,[PC+1] rA:rB — Mi[0x01d]=0:8 
解码 valA + R[%esp] valA 一 R[tesp}=124 
valB — R[%esp] valB — R[%esp]=124 
valE — valB+4 valE 二 124442128 
valM — M,[valA] valM + M,[124]=9 
号 回 R[%esp] 一 valE R[sesp] + 128 
R[rA] 一 valM R[sesp] + 9 
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该 措 令 将 %eax 设 为 9， 将 %esp 设 为 128， 并 将 PC 加 2。 


练习 题 4.11 答案 
HAR 4.18 中 列 出 的 步骤 ， 将 rA 看 成 8%esp， 我 们 可 以 看 到 ， 在 访 存 阶段 ， 指 令 会 将 valA CHP 
栈 指针 的 原始 值 ) 存放 到 存储 器 中 ， 与 我 们 在 IA32 中 发 现 的 一 样 。 


练习 题 4.12 答案 

沿 者 图 4.18 中 列 出 的 步骤 ， 将 rA 看 成 %esp， 我 们 可 以 看 到 ， 两 个 写 回 操作 都 会 更 新 %esp。 因 
为 写 valM 的 操作 后 发 生 ， 指 令 的 最 终 效 果 会 是 将 从 存储 器 中 读 出 的 值 写 入 %esp， 厌 像 在 IA32 中 看 
到 的 一 样 。 


练习 题 4.13 答案 
我 们 可 以 看 到 这 条 指令 位 于 地 址 0x023， 长 度 为 5 个 字 节 。 第 一 个 字 节 值 为 0x80， 而 后 面 4 


AN 3 he 


站 学 市 是 0x00000029， 即 调用 的 目标 地 址 按 字 节 反 过 的 形式 。popl 指令 (第 7 行 ) 将 栈 指针 设 为 
128 。 


阶段 


取 指 icode:ifun — Mi[PC] 


icode'ifun — M,[0x023]=8:0 


valC 一 M,[PC+1] valC + M,[0x024]=0x029 
valP + PC+5 valP + 0x02345=0x028 


解码 
valB + R[šesp] valB 一 Rsesp]j=128 
valE 一 vaiB+-4 valE + 128+-4=124 
WH 


we M,[valE] — valP Ms(124] 二 0x028 


R[%esp) + vale R[%esp] + 124 


更 新 PC PC = valC PC + 0x029 


这 条 指令 的 效果 就 是 将 %esp WA 124, 将 0x028 (返回 地 址 ) 存放 到 该 存储 器 地 址 ， 并 将 PC 
设 为 0x029 (调用 的 目标 地 址 )。 

练习 题 4.14 答案 

练习 题 中 所 有 的 HCL 代码 都 很 简单 明了 , 但 是 试 着 自己 写 会 帮助 你 思考 各 个 指令 ， 以 及 如 何 处 
理 它 们 。 对 于 这 个 和 问题， 我们 只 要 看 看 Y86 的 指令 集 (图 4.2)， 和 确定 哪些 有 常数 字段 。 

bool need valC = 

icode in { IIRMOVL, IRMMOVL, IMRMOVL, IJXX, ICALL }; 
练习 题 415 答案 
这 段 代码 类 似 于 srcA 的 代码 : 
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int srcB = [ 
icode in { IOPL, IRMMOVL, IMRMOVL } : rB; 
icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don’t need register 

] ; 


练习 题 4.16 答案 
这 段 代码 类 似 于 dstE 的 代码 : 


int dstM = | 
icode in { IMRMOVL, IPOPL } : rA; 
1 : RNONE; # Don’t need register 
] ; 


练习 题 4.17 答案 


像 我 们 在 练习 题 4.12 中 发 现 的 那样 , 为 了 将 从 存储 器 中 读 出 的 值 在 放 到 %esp, 我 们 想 让 通过 M 
端口 号 的 优先 级 高 于 通过 了 端口 写 。 


练习 题 4.18 答案 
这 段 代 码 类 似 于 aluA 的 代码 : 


int aluB = | 
icode in { IRMMOVL, IMRMOVL, IOPL, ICALL, 
IPUSHL, IRET, IPOPL } : valB; 
icode in { IRRMOVL, IIRMOVL } : 0; 
# Other instructions don’t need ALU 


l? 


练习 题 4.19 答案 
这 段 代 码 类 似 于 mem_addr 的 代码 : 
int mem data = [ 


# Value from register 
icode in { IRMMOVL, IPUSHL } : valA; 
# Return PC 
icode == ICALL : valP; 
# Default: Don’t write anything 
|; 


练习 题 4.20 答案 
这 段 代 码 类 似 于 mem_read 的 代码 ; 


bool mem_write = icode in { IRMMOVL, IPUSHL, ICALL }; 
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练习 题 4.21 答案 

这 个 题目 是 个 非常 有 趣 的 练习 ， 它 试图 在 一 组 划分 中 找到 优化 平衡 。 它 要 求 计 算计 多 流水 线 的 
Ae WL E AL HLF HBT TAY 

A. Ot-—-7S PAY Bit zk Bek bt, RPA RIG) ER AL BA CERNE D EA FERI 
段 。 第 一 阶段 的 延迟 为 170ps， 所 以 整个 周期 的 时 长 为 1704+20=190ps. Alte AE Mth ty 5.26 GOPS, 
而 执行 时 间 为 380ps。 

B. 对 一 个 :阶段 流水 线 来 说 ， 应 该 使 块 A 和 B 在 第 一 阶段 ， 块 C 和 D 在 第 二 阶段 ， 而 块 EE 和 
FER hr Be. TANEN 延迟 均 为 110ps， 所 以 整个 周期 时 长 为 130ps， 而 吞吐 量 为 7.69 GOPS. 
AITH EJA 390ps。 

C. 对 一 个 四 阶段 流水 线 来 说 ， 块 A 为 第 一 阶段 ， 块 B 和 C 在 第 二 阶段 ， 块 D 是 第 一 阶段 ， 而 
块 下 和 FE 在 第 四 阶段 。 第 二 阶段 需要 OOps, PURE SARI KA) 110ps, mA et 4) 9.09 GOPS. 
执行 时 间 为 440ps- 

D. 最 优 的 设计 应 该 是 五 阶段 流水 线 ， 除 了 E 和 下 处 于 第 五 阶段 以 外 ， 其 他 每 个 块 是 -一 个 阶段 。 
周期 时 长 为 80+20=100ps, Feb BA ALY 10.00 GOPS， 而 执行 时 间 为 S00ps。 变 成 更 多 的 阶段 世人 不 
会 有 帮助 了 ， 因 为 不 可 能 使 流水 线 运行 得 比 以 100ps 为 一 周期 还 要 快 了 。 


练习 题 4.22 答案 
在 这 种 极限 情况 卜 ， (eta sns。 时 钟 周期 为 s+20 ps, 否 吐 量 为 1000/(e 
+20)。 如 果 阶 段 数 量变 成 任意 大 ，e Sl O, KHAR EA 50.00 GOPS. 


练习 题 4.23 答案 
这 段 代 公 只 是 给 SEQ 代 公 中 的 信号 名 前 加 上 前 级 “D_.”。 
int new E dstE = | 
D icede in { IRRMOVL, IIRMOVL, IOPL} : D_rB; 
D icede in { IPUSH., IPOPL, ICALL, IRET } : RESP; 


1 : FNONE; # Don't need register 

l; 

练习 题 4.24 答案 

HF pop 指令 (第 4 行 ) 造成 的 如 载 /使 用 骨 险 ，rrmovyl 指令 (第 5 行 ) 会 暂停 一 个 周期 。 汉 
EHAR EL pop 指令 处 于 访 存 阶段 , 使 M.dstE 和 M.dstM 部 等 于 9%esp。 如 果 册 种 情况 反 过 来 ， 
WAKA M_valE 的 与 回 优 先 级 较 品 ， 导 致 增加 了 的 栈 指 针 被 传送 到 rrmoyl 指令 作为 参数 。 这 与 练 
习题 4.5 中 人 确定 的 处 理 popl %esp 的 惯例 不 一 下 。 

练习 题 4.25 答案 

这 个 问题 计 你 体验 eae 通 
和 前， 我 们 的 调试 程序 应 该 能 测试 所 有 的 家 险 叮 能 性 ， 而 且 一 旦 有 相关 不 能 锌 正 确 处 理 ， 忠 会 产生 氏 

误 的 结束 。 
对 于 此 例 ， 我 们 可 以 使 用 对 练习 题 4.24 中 所 示 的 程序 稍微 修改 了 :点 的 版 本 : 


J om wm Ae w MM eè 


irmovl $5, %edx 
irmovl $0x100, %esp 
rmmovl %*edx,0(%esp) 
popl %tesp 

nop 

nop 


rrmovl %tesp,%eax 
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两 个 nop 指令 会 导致 当 rrmovl 指令 在 解码 阶段 中 时 ，popl 指令 处 于 瑟 回 阶段 。 如果 给 予 处 于 与 
回 阶 段 中 的 两 个 转发 源 错误 的 优先 级 ,那么 寄存 器 9%eax 会 设置 成 增加 了 的 程序 计数 器 , 而 不 是 从 存 
储 器 中 读 出 的 值 。 

练习 题 4.26 答案 

这 个 逻辑 只 需要 检查 五 个 转发 源 : 


int new EE valB = [ 


d_srcB == E_dstE : e_valE; # Forward valE from execute 
d_srcB == M_dstM : m_valM; # Forward valM from memory 
d_srcB == M_dstE : M_valE; # Forward valE from memory 
d_srcB == W dstM : W_valM; # Forward valM from write back 
G_srcB == W_dstE : W_valE; # Forward valE from write back 
1 : d_urvalB; # Use value read from register file 

]; 

练习 题 4.27 答案 

下 面 这 个 测试 程序 是 设计 用 来 建立 控制 组 合 A〈 图 4.67)， 并 探测 是 否 出 了 错 : 

1 # Code to generate a combination of not-taken branch and ret 

2 irmovl Stack, %esp 

3 irmovl rtnp, eax 

4 pushl teax # Set up return pointer 

5 xorl teax, eax # Set Z condition code 

6 jne target # Not taken (First part of combination) 

7 irmovl $1,%eax # Should execute this 

8 halt 

9 target: ret # Second part of combination 

10 irmovl $2,%ebx # Should not execute this 

11 halt 

12 rtnp: irmovl $3,%edx # Should not execute this 

13 halt 
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14 pos 0x40 
15 Stack: 


设计 这 个 程序 是 为 了 出 错 ( 例 如 实际 上 执行 了 ret 指令 )》 时 ， 程 序 会 执行 -条 额外 的 irmovl 指 
令 ， 然 后 停止 。 因 此 ， 流 水 线 中 的 错误 会 导致 某 个 寄存 器 更 新 错误 。 这 段 代 码 说 明 实 现 测试 程序 需 
要 非常 小 心 。 它 必须 建立 起 可 能 的 错误 条 件 ， 然 后 再 探测 是 否 有 错误 发 生 。 

练习 题 4.28 答案 

下 面 这 个 测试 程序 是 设计 用 来 建立 控制 组 合 B (图 4.67) 的 。 模 拟 器 会 发 现 流 水 线 寄存 器 的 气 
泡 和 暂停 控制 信和 号 都 设置 成 0 的 情况 ， 因 此 我 们 的 测试 程序 只 需要 建立 它 需 要 发 现 的 组 合 情 况 。 最 
大 的 挑战 在 于 当 处 理 正 确 时 ， 程 序 要 做 正确 的 事情 。 


1 # Test instruction that modifies %esp followed by ret 

2 irmovi mem, $ebx 

3 mrmovl Q(%ebx),%esp # Sets %esp to point to return point 
4 ret # Returns to return point 

5 halt # 

6 rtnpt: irmovl $5, %esi # Return point 

7 halt 

8 .DOS 92x40 

9 mem: .long stack # Holds desired stack pointer 

ime .DOS 0x50 

11 Stack: .long rtnpt # Top of stack: Holds return point 


这 个 程序 使 用 了 存储 器 中 两 个 初始 化 了 的 字 。 第 一 个 字 (mem) 保存 着 第 二 个 字 (stack 一 一 期 
望 的 栈 指 针 ) 的 地 址 。 第 二 个 字 保存 着 ret 指令 期 望 的 返回 点 的 地 址 。 这 个 程序 将 栈 指针 加 载 到 %esp， 
并 执行 ret 指令 。 

练习 题 4.29 答案 

从 图 4.66 我 们 可 以 看 到 ， 由 于 加 载 /使 用 骨 险 ， 流 水 线 寄存 器 D 必须 暂停 。 

bool D stall = 


# Conditions for a load/use hazard 
B_icode in { IMRMOVL, IPOPL } && 
BE dstM in { a _srcA, d_srcB }; 


练习 题 4.30 答案 


从 图 4.66 中 我 们 可 以 看 到 ， 由 于 加 载 /使 用 冒险 ， 或 者 由 于 分 支 预测 错误 ， 流 水 线 寄 存 器 了 必 
A A I: 


bool E_bubble = 


# Miscredicted branch 
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(E lcode == IJXX && !e_ Bch) || 

# Conditions for a load/use hazard 

E icode in { IMRMOVL, IPOPL } && 
E_dstM in { d_srcA, d_srcB}; 


练习 题 4.31 ER 


此 时 ， 预 测 错误 的 频率 是 0.35， 得 到 mp 二 0.20X0.35X2==0.14， 而 整个 CPI 为 1.25。 看 上 去 收 
获 非常 小 ， 但 是 如 果实 现 新 的 分 六 预测 策略 的 成 本 不 是 很 高 的 话 ， 这 样 做 还 是 值得 的 。 
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编写 高 效 程 序 需 要 两 类 活动 : 第 一 ， 我 们 必须 选择 一 组 最 好 的 算法 和 数据 结构 ， 第 二 ， 我 们 必 
须 编写 出 编译 器 能 够 有 效 优化 以 转换 成 高 效 可 执行 代码 的 源 代码 。 对 于 这 弟 二 部 分 ， 理 解 优 化 编 详 
器 的 能 力 和 局 限 性 是 很 重要 的 。 就 我 们 所 知 ， 编 写 程序 方式 中 一 点 小 小 的 变动 ， 都 会 引起 编译 器 优 
化 方式 很 大 的 变化 。 有 些 编程 语言 比 其 他 语言 容易 优化 得 多 。C 的 有 些 特性 ， 例 如 执行 指针 运算 和 
强制 类 型 转换 的 能 力 ， 使 得 对 它 优 化 很 困难 。 程 序 员 经 常 能 够 以 一 种 使 编译 器 更 容易 产生 局 效 代 码 
的 方式 来 编写 他 们 的 程序 。 

在 程序 开发 和 优化 的 过 程 中 ， 我 们 必须 考虑 代码 使 用 的 方式 ， 以 及 影响 它 的 关键 因素 。 通 名， 
程序 员 必 须 在 实现 和 维护 程序 的 简单 性 与 它 的 运行 速度 之 间 做 出 权衡 折衷 。 在 算法 级 上 ， 几 分 钟 束 
能 编写 一 个 简单 的 插入 排序 ,而 一 个 高 效 的 排序 算法 程序 可 能 需要 一 天 或 更 长 的 时 间 来 实现 和 优化 。 
在 代码 级 上 ， 许 多 低级 别 的 优化 往往 会 降低 程序 的 可 读 性 和 模块 性 ， 使 得 程序 容易 出 错 ， 更 难以 修 
改 或 扩展 。 对 于 一 个 只 会 运行 一 次 以 庆生 一 组 数据 点 的 程序 ， 以 一 种 尽量 减少 编程 工作 量 并 保证 不 
确 性 的 方式 来 编 与 程序 就 更 为 重要 一 些 。 对 于 会 在 性 能 非常 重要 的 环境 中 反复 执行 的 代码 ， 例 如 网 
络 路 由 器 ， 通 常 更 广泛 的 优化 会 适当 一 些 。 

在 本 章 中 ， 我 们 描述 许多 提高 代码 性 能 的 技术 。 理 想 的 情况 是 ， 编 译 器 能 够 接受 我 们 编写 的 任 
何 代 码 ， 并 产生 尽 可 能 高 效 的 、 具 有 指定 行为 的 机 器 级 程序 。 事 实 上 ， 编 译 器 只 能 执行 有 限 的 程序 
转换 ， 而 且 妨 碍 优化 的 因素 〈optimization blocker) 还 会 阻碍 这 种 优化 ， 妨 碍 优化 的 因素 就 是 程序 行 
为 中 那些 严重 依赖 于 执行 环境 的 方面 。 程 序 员 必 须 编写 容易 优化 的 代码 ， 以 帮助 编译 器 。 就 编 详 占 
来 说 ， 编 译 技术 被 分 为 “与 机 器 无 关 ” 和 “与 机 器 有 关 ” 两 类 。“ 与 机 器 无 关 ” 的 意思 是 ， 使 用 这 些 
技术 时 可 以 不 考虑 将 执行 代码 的 计算 机 的 特性 ， 而 “与 机 器 有 关 ” 是 指 ， 这 些 技术 是 依赖 于 许多 机 
占 的 低级 细 区 的 。 我 们 的 讲述 也 沿用 了 类 似 的 顺序 , 先 讲 编写 任何 程序 时 都 要 执行 的 标准 程序 转换 ， 
然后 讲 效 率 依赖 于 日 标 机 器 和 编译 器 特性 的 转换 。 这 些 转 换 通 常 还 会 降低 代码 的 模块 性 和 可 读 性 ， 
因此 ， 应 该 在 获得 最 大 性 能 是 首要 目标 时 ， 才 使 用 这 些 技术 。 

为 了 使 程序 性 能 最 大 化 ， 程 序 员 和 编译 器 需要 一 个 目标 机 器 的 模型 ， 指 明 如 何 处 理 指 令 ， 以 及 
各 个 操作 的 时 序 特性 。 例 如 ， 编 译 器 必须 知道 时 序 信息 ， 才 能 够 确定 是 需要 一 条 乘法 指令 ， 还 是 移 
位 和 加 法 的 某 种 组 合 。 现 代 计 算 机 用 复杂 的 技术 来 处 理 机 器 级 程序 ， 并 行 执行 许多 指令 ， 而 且 执 行 
顺序 还 可 能 不 同 于 它们 在 程序 中 出 现 的 顺序 。 程 序 员 必 须 理解 为 了 获得 最 大 的 速度 ， 这 些 处 理 器 是 
如 何 工作 来 调整 程序 的 。 基 于 Intel 处 理 器 的 最 新 模型 ， 我们 提出 了 一 个 这 种 机 器 的 启 级 模型 。 我 们 
还 设计 了 一 种 图 形 表示 法 ， 可 以 用 来 使 处 理 器 执行 指令 形象 化 ， 并 且 还 可 以 预测 程序 性 能 。 

我 们 以 对 优化 大 型 程序 的 问题 的 讨论 来 结束 这 一 章 。 我 们 描述 了 代码 剖析 程序 (profilers) 的 使 
用 ， 代 公 剂 析 程 序 是 测量 程序 各 个 部 分 性 能 的 工具 。 这 种 分 析 能 够 帮助 找到 代码 中 低 效 率 的 地 方 ， 
并 且 确 定 程序 中 我 们 应 该 着 重 优化 的 部 分 。 最 后 ， 我 们 给 出 了 一 个 重要 的 观察 结论 〈 称 为 Amdahl 
定律 )， 它 量化 了 对 系统 某 个 部 分 进行 优化 所 带 来 的 整体 效果 ， 

住 本 章 的 描述 中 ， 我们 使 得 代码 优化 看 起 来 像 按 照 菜 种 特殊 顺序 ， 对 代码 进行 一 系列 转换 的 简 
单线 性 过 程 。 实 际 上 ， 这 项 工作 远 非 这 么 简单 。 需 要 相当 多 的 试 错 法 试验 。 当 我 们 进行 到 后 面 的 优 
化 阶段 时 ， 这 种 方法 尤其 有 用 ， 到 那 时 ， 看 上 去 很 小 的 变化 会 导致 性 能 上 很 大 的 变化 。 相 反 ， 一 些 
很 有 希望 的 技术 被 证 明 是 无 效 的 。 正 如 我 们 在 后 面 的 例子 中 看 到 的 那样 ， 要 确切 解释 为 什么 某 段 代 
码 序 列 有 茶 个 执行 时 间 ， 是 很 困难 的 。 性 能 可 能 依赖 于 处 理 器 设计 的 许多 详细 特性 ， 而 对 此 我 们 所 
知 其 少 。 这 也 是 我 们 演 试 各 种 技术 的 变形 和 组 合 的 另 一 个 原因 。 
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研究 汇编 代码 是 理解 编译 器 以 及 产生 的 代码 会 如 何 运行 的 最 有 效 的 手段 之 一 。 仔 细 研 究 内 循环 
的 代码 是 一 个 很 好 的 开端 。 人 们 可 以 确认 降低 性 能 的 属性 ， 例 如 过 多 的 存储 器 (memory) 引用 和 对 
寄存 器 不 正确 的 使 用 。 从 汇编 代码 开始 ， 我 们 甚至 可 以 预测 什么 操作 会 并 行 执行 ， 以 及 它们 使 用 处 
理 器 资源 的 效率 如 何 。 


5.1 优化 编译 器 的 能 力 和 局 限 性 


现代 编 详 器 运用 复杂 精细 的 算法 来 确定 一 个 程序 中 计算 的 是 什么 值 ,以 及 它们 是 被 如 何 使 用 的 。 
然后 它们 会 利用 一 些 机 会 来 简化 表达 式 ， 也 就 是 在 几 个 不 同 的 地 方 使 用 一 个 计算 ， 以 降低 一 个 给 定 
的 计算 必须 被 执行 的 次 数 。 编 译 器 优化 程序 的 能 力 受 几 个 因素 限制 ， 包 括 : 要 求 它 们 绝 不 能 改变 正 
确 的 程序 行为 ， 它 们 对 程序 行为 、 对 使 用 它们 的 环境 了 解 有 限 ， 和 需要 很 快 地 完成 编译 工作 。 

编译 器 优化 对 用 户 来 说 应 该 是 不 可 见 的 。 当 程序 员 用 优化 选项 (例如 ,使 用 -O 命令 行 选项 ) 编 
译 代 码 时 ， 代 码 的 行为 应 该 和 不 带 优化 编译 得 到 的 代码 行为 完全 一 样 ， 除 了 它 应 该 运行 得 更 快 一 点 
以 外 。 这 样 的 要 求 使 得 编译 器 不 能 使 用 某 些 类 型 的 优化 。 

例如 ， 考 虑 下 面 这 两 个 过 程 : 
void twiddlel(int *xp, int *yp) 
{ 
“Xp += *yp; 
*xp += *yp; 


void twiddle2(int *xp, int *yp) 


1 
2 
3 
4 
5 } 
6 
7 
8 { 
9 


*xp += 2* *yp; 

10 } 

乍 一 看 , 这 两 个 过 程 似 乎 有 相同 的 行为 。 它 们 都 是 将 存储 在 由 指针 yp 指示 的 位 置 处 的 值 两 次 加 
到 指针 xp 指示 的 位 置 处 的 值 。 另 一 方面 ， 函 数 twiddle2 效率 更 高 一 些 。 它 只 要 求 三 次 存储 器 引用 
( 谈 *xp， 读 *yp， 写 *xp)， 而 twiddlel 需要 六 次 (两 次 读 *xp， 两 次 读 *yp， 两 次 写 *xp)。 因 此 ， 如 
果 要 编译 器 编译 过 程 twiddle1， 我 们 会 认为 基于 twiddle2 执行 的 计算 能 产生 更 有 效 的 代码 。 

不 过 ， 考 虑 一 下 xp 等 于 yp tea. JEN, AM twiddlel 会 执行 下 面 的 计算 : 

3 *xp += *xp; /* Double value at xp */ 

4 *xp += *xp; /* Double value at xp */ 

结果 会 是 xp WE 4. ATTA, PAL twiddle2 会 执行 下 面 的 计算 : 

9 *xp += 2* *xp; /* Triple value at xp */ 

结果 会 是 xp 的 值 增加 3 倍 。 编 译 器 不 知道 twiddlel 会 被 如 何 调用 ， 因 此 它 必须 假设 参数 xp 和 
yp 可 能 会 相等 。 因 此 ， 它 不 能 产生 twiddle2 风格 的 代码 作为 twiddlel 的 优化 版 本 。 

这 个 现象 称 为 存储 器 别名 使 用 (memory aliasing)。 编 译 器 必须 假设 不 同 的 指针 可 能 会 指向 存储 
站 中 同一 个 位 置 。 这 造成 了 一 个 主要 的 妨碍 优化 的 因素 ， 这 也 是 可 能 严重 限制 编译 器 产生 优化 代码 
机 会 的 程序 的 一 个 方面 。 
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练习 题 5.1 

下 面 的 问题 说 明了 存储 路 别名 使 用 可 能 会 导致 意 想 不 到 的 程序 行为 的 方式 .考虑 下 面 这 个 交换 
两 个 值 的 过 程 : 

1 /* Swap value x at xp with value y at yp */ 


2 void swap(int *xp, int *yp) 

3 { 

4 *xp = *xp + *yp; /* xty */ 

5 *yp = *xp - *yp; /*xty-y=x */ 
6 *xp = *xp - *yp; /* x+y-x=y *f 
7 } 


如 果 调 用 这 个 过 程 时 xp FT yp， 会 有 什么 样 的 效果 ? 
第 二 个 妨碍 优化 的 因素 是 函数 调用 。 作 为 一 个 示例 ， 考 虑 下 面 这 两 个 过 程 : 


1 int f£(int); 


2 

3 int funcl (x) 

4 { 

5 return f(x) + f(x) + £(x) + f(x); 
6 } 

-7 

8 int func2 (x) 

9 { 

LO return 4*f£ (x); 

11 } 


最 初 看 上 去 两 个 过 程 计算 的 都 是 相同 的 结果 ， 但 是 func2 只 调用 f 一 次 ， 而 funcl 调用 f 四 次 。 
以 funcl 作为 源 时 ， 会 很 想 产 生 func2 风格 的 代码 ， 
不 过 ， 考 虑 下 面 f 的 代码 : 


int counter = 0: 


1 

2 

3 int f(int x) 
4 { 

5 


return counter¢+; 
6 } 


这 个 函数 有 个 副作用 一 一 它 修 改 了 全 局 程序 状态 的 一 部 分 。 改 变调 用 它 的 次 数 会 改变 程序 的 行 
为 特别 地 , 假 受 开始 时 全 局 变量 counter 都 设置 为 0, 对 funcl 的 调用 会 返回 04-14243=6, 而 对 func? 
的 调用 会 返回 4.0=0。 

大 多 数 编译 器 不 会 试图 判断 一 个 函数 是 否 没 有 副作用 ， 因 此 任意 函数 都 可 能 是 优化 的 候选 者 ， 
例如 func2 中 的 做 法 。 相 反 ， 编 译 器 会 假设 最 糟 的 情况 ， 并 保持 所 有 的 函数 调用 不 变 。 

在 各 种 编译 器 中 ，GNU 编译 器 GCC 被 认为 是 胜任 的 ， 但 是 就 它 的 优化 能 力 来 说 ， 并 不 是 特别 
突出 。 它 完成 基本 的 优化 ， 但 是 它 不 会 对 程序 进行 更 加 “有 进取 心 的 ”编译 器 所 做 的 那 种 激进 变换 ， 
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因此 ， 使 用 GCC 的 程序 员 必 须 花 费 更 多 的 精力 ， 以 一 种 简化 编译 器 生成 高 效 代码 的 任务 的 方式 来 
编 己 程序 。 


5.2 ”表示 程序 性 能 


我 们 需要 一 种 方法 来 表示 程序 性 能 ， 它 能 指导 我 们 改进 代码 。 对 许多 程序 都 很 有 用 的 度量 标准 
是 每 元 素 的 周期 数 〈cycles per element，CPE )。 这 种 度量 标准 帮助 我 们 在 更 详细 的 级 别 上 理解 选 代 
程序 的 循环 性 能 。 同 时 ， 这 样 的 度量 标准 对 执行 重复 计算 的 程序 来 说 也 是 很 适当 和 的， 例如 处 理 图 像 
中 的 像素 ， 或 是 计算 矩阵 乘积 中 的 元 素 。 

处 理 器 活动 的 顺序 是 由 时 钟 控制 的 ， 时 钟 提供 了 菜 个 频率 的 规律 信号 ， 要 么 用 兆赫 兹 (MHz， 
即 百 万 周 每 秒 ) 来 表示 ， BART AE (GHz， 即 吉 周 每 秒 ) KAA. 例如 , 一 个 系统 有 “1.4GHz” 
处 理 器 ， 这 表示 处 理 器 时 钟 运行 频率 为 1400 Jha. 每 个 时 钟 周 期 的 时 间 是 时 钟 频率 的 倒数 ， 通常 
是 用 纳 秒 (nanosecond, 十 亿 分 之 一 秒 ) 来 表示 的 。 一 个 2GHz 的 时 钟 其 周期 为 0.5 Ae. 而 500MHz 
的 时 钟 ， 周 期 为 2 纳 秒 。 从 程序 员 的 角度 来 看 ， 用 时 钟 周期 来 表示 度量 标准 要 比 用 纳 秒 来 表示 有 和 帮 
助 得 多 。 用 时 钟 周期 来 表示 ， 度 量 值 不 太 依赖 于 被 评估 的 处 理 器 的 模型 ， 而 这 些 度量 值 能 帮助 我 们 
确切 地 理解 机 器 是 如 何 执行 程序 的 。 

许多 过 程 含有 在 一 组 元 素 上 迭代 “的 循环 。 例 如 ， 图 5.1 中 的 函数 vsuml 和 vsum2 计算 的 都 是 
两 个 长 度 为 于 的 同 量 之 和 。 第 一 个 函数 每 次 迭代 计算 目标 向 量 的 一 个 元 素 。 第 二 个 项 数 使 用 称 为 循 
HÆF Coop unrolling) 的 技术 ， 每 次 迭代 计算 两 个 元 素 。 这 个 版 本 只 对 靖 为 偶数 值 有 效 。 在 本 章 
后 面 ， 我 们 将 更 详细 地 介绍 循环 展开 ， 包 括 如 何 使 它 对 任意 nn 的 值 都 有 效 。 

这 样 一 个 过 程 所 需要 的 时 间 可 以 用 一 个 常数 加 上 一 个 与 被 处 理 元 素 个 数 成 正比 的 因子 来 描述 。 例 
如 ， 图 5.2 是 这 两 个 函数 需要 的 每 元 素 的 周期 数 关 于 n 值 的 取 值 范围 图 。 使 用 最 小 二 来 方 拟 合 Ceast 
squares fit), 我 们 发 现 , 两 个 函数 的 运行 时 间 ( 用 时 钟 周期 表示 ) 分 别 近 似 于 表达 式 80-+4.0n 和 83.5+3.5n 
的 线条 。 这 两 个 表达 式 表 明 初 始 化 过 程 、 准 备 循环 以 及 完成 过 程 的 开销 为 80 一 84 个 周期 加 上 每 个 元 
K 3.5 或 4.0 周期 的 线性 因 了 于 。 对 于 较 大 的 天 的 值 (比如 说 ， 大 于 50)， 运 行 时 间 就 会 主要 由 线性 因子 
来 决定 。 我 们 称 这 些 项 中 的 系数 为 每 元 素 的 周期 数 〈 简 称 CPE) 的 有 效 数 。 注 意 ， 我 们 更 愿意 用 每 个 
元 素 的 周期 数 而 不 是 每 次 循环 的 周期 数 来 度量 ， 这 是 因为 像 循 环 展开 这 样 的 技术 使 得 我 们 能 够 用 较 少 
的 循环 完成 计算 ， 而 我 们 最 终 关 心 的 是 ， 对 于 给 定 的 向 量 长 度 ， 程序 运行 的 速度 如 何 。 我 们 将 精力 集 
中 在 减 小 我 们 计算 的 CPE 上 。 根 据 这 种 度量 标准 ，vsum2 的 CPE 为 3.5， 优 于 CPE 为 4.0 的 vsuml。 


code/opt/vsum.c 


1 void vsumi(int n) 

< 

3 int 1 

4 

5 for (i = 0; i < n; i++) 
6 c[i] = afi] + blil; 
7 } 

8 


1 本 章 中 的 迭代 指 执行 一 遍 组 成 循环 的 语句 块 。 一 一 译 者 
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9 /* Sum vector of n elements (n must be even) */ 
10 void vsum2 (int n) 

11 { 

12 int i; 

13 

14 for (i = 0; i < n; i+t=2) { 

15 /* Compute two elements per iteration */ 
16 cfi] = afi] + bfi]; 

17 c[i+1] = a[li+1] + bf1i+1]; 
18 } 

19 3} 


51 EKA BK 
这 是 关于 我 们 如 何 表示 程序 性 能 的 示例 。 


Slope = 4.0 一 一 一 


on 


周期 数 


0 50 100 150 
元 素数 


图 5.2 MK ARATE 
两 条 线 的 斜率 表明 每 元 素 的 周期 数 (CPE )。 


Bit: 什么 是 最 小 二 条 方 拟 合 ? 


code/opt/vsum.c 


对 于 一 个 数据 点 (x1， Yih ,(Xn, WRS, 我 们 常常 试图 画 一 条 线 ， 它 能 最 接近 于 这 些 数 据 代 表 
的 趋势 。 使 用 最 小 二 梯 方 拟 合 ， 我 们 寻找 一 条 形 如 y= mx+b 的 线 ， 使 得 下 面 这 个 误差 度量 最 小 : 


E(m,b) = Ym +b- yy 


i=l,” 


计算 m 和 上 bb 的 算法 可 以 通过 找到 Em, DAT m 和 上 bb 的 导数 推导 出 来 。 


练习 题 5.2 


在 本 章 后 面 ， 我 们 会 采用 一 个 函数 ， 生 成 许多 不 同 的 变种 ， 这 些 变 种 保持 函数 的 行为 ， 又 具有 
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不 同 的 性 能 特性 。 对 于 其 中 三 个 变种 ， 我 们 发 现 运行 时 间 (用 时 钟 周 期 表示 ) 可 以 用 下 面 的 函数 近 
似 地 估计 : 

版 本 1 60+35n 

版 本 2 136+4n 

版 本 3 157+1.25n 

每 个 版 本 在 nn 取 什 么 值 时 是 三 个 版 本 中 最 快 的 ? 记 住 ，n 总 是 整数 ， 


5.3 程序 示例 


为 了 说 明 一 个 抽象 的 程序 是 如 何 被 系统 地 转换 成 更 有 效 的 代码 的 ， 考 虑 图 5.3 所 示 的 简单 同 量 
数据 结构 。 回 量 由 两 个 存储 器 块 表示 。 头 部 是 一 个 声明 如 下 的 结构 ; 


codefoptivec.h 
1 /* Create abstract data type for vector */ 
2 typedef struct { 
3 int len; 
4 data t *data; 
5 } vec_rec, *vec_ptr; 
$$ oode/opiwech 


0 1 2 length-1 


图 5.3” 同 量 的 抽象 数据 类 型 
向 量 由 头 信息 加 上 指定 长 度 的 数组 来 表示 。 


这 个 声明 用 数据 类 型 data t 作为 基本 元 素 的 数据 类 型 。 在 我 们 的 评价 中 ， 我 们 度量 我 们 的 代码 
对 于 数据 类 型 int、float 和 double 的 性 能 。 为 此 ， 我 们 会 分 别 为 不 同 的 类 型 声明 编译 和 运行 程序 ， 
mR FI MAS PF: 


typedef int data_t; 


除了 头 以 外 ， 我 们 还 会 分 配 一 个 len  datat 类 型 对 象 的 数组 ， 来 存放 实际 的 向 量 元 素 。 

图 5.4 给 出 的 是 一 些 生成 向 量 、 访 问 向 量 元 素 以 及 确定 向 量 长 度 的 基本 过 程 。 一 个 值得 注意 的 
重要 特性 是 get_vec_element， 问 量 访问 程序 会 对 每 个 向 量 引 用 进行 边界 检查 。 这 段 代 码 类 似 于 许多 
其 他 语言 (包括 Java) 所 使 用 的 数组 表示 法 。 边 界 检查 降低 了 程序 出 错 的 机 率 ， 但 是 正如 我 们 看 到 
的 那样 ， 它 也 明显 影响 了 程序 性 能 。 

作为 一 个 优化 示例 ， 考 虑 图 5.5 中 所 示 的 代码 ， 它 根据 某 种 运算 ， 将 一 个 向 量 中 所 有 的 元 素 合 
并 Ccombining) 成 一 个 值 。 通 过 使 用 编译 时 常数 IDENT 和 OPER 的 不 同 定 义 ， 这 段 代 码 可 以 重 编 
译 成 对 数据 执行 不 同 的 运算 。 特 别 地 ， 使 用 声明 : 

#define IDENT 0 

#define OPER + 


它 对 则 量 的 元 素 求 和 。 使 用 声明 : 


#define IDENT 1 
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#define OPER * 

它 计 算 的 是 向 量 元 素 的 乘积 。 

作为 一 个 起 点 ， 下 面 是 combinel 的 CPE 度量 值 ， 它 运行 在 Intel PentiumII 上 ， 尝 试 了 数据 类 
型 和 合并 运算 的 所 有 组 合 。 在 我 们 的 度量 值 中 ， 我 们 发 现 单 、 双 精度 浮 点 数据 的 时 间 基 本 上 是 相等 
的 。 因 些 ， 我 们 只 给 出 对 单 精度 浮 点 数据 的 度量 值 。 


| 
ete tae ee 
+ + 
Combinel 未 优化 的 抽象 的 42.06 41.86 41.44 160.00 
Combinel 


抽象 的 -02 31.25 33.25 31.25 143.00 


code/opt/vec.c 


1 /* Create vector of specified length */ 

2 vec_ptr new_vec(int len) 

3 { 

4 /* allocate header structure */ 

5 vec_ptr result = (vec_ptr) malloc(sizeof(vec_rec)); 
6 if (!result) 

7 return NULL; /* Couldn’ t allocate storage */ 

8 result->len = len; 

9 /* Allocate array */ 

10 if (len > 0) { 

11 data_t *data = (datat *)calloc(len, sizeof(data_t)); 
12 if ('tdata) { 

13 free( (void *) result); 

14 return NULL; /* Couldn’ t allocate storage */ 
15 } 

16 result->data = data; 

17 } 

18 else 

19 result~->data = NULL; 

20 return result; 

21 } 

22 

23 /* 

24 * Retrieve vector element and store at dest. 

25 * Return 0 (out of bounds) or 1 (successful) 

26 * j 

27 int get_vec element (vec ptr v, int index, data_t *dest) 
28 { 

29 if (index < 0 || index >= v->len) 

30 return 0; 

31 *dest = v->data[index]: 

32 return 1; 

33 } 

34 

35  /* Return length of vector */ 
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36 int vec_length(vec_ptr v) 


37 { 
38 return v->len; 
39 } 


code/opt/vec.c 


5.4 回 量 抽象 数据 类 型 的 实现 
在 实际 程序 中 ， 数 据 类 型 data_t 被 声明 为 int、float 或 double. 


code/opt/combine.c 
1 /* Implementation with maximum use of data abstraction */ 
2 void combinelivec_ptr v, data_t *dest) 
3 { 
4 int i; 
5 
6 *dest = IDENT; 
7 for (i = 0; 1 < vec_length(v); i++) { 
8 data t val; 
9 get_vec_elementi(v, 1, &val); 
10 *dest = *dest OPER val; 
11 } 
12 } 
code/opt/combine.c 


图 5.5 合并 操作 的 初始 实现 
使 用 标识 元 素 IDENT 和 合并 运算 OPER 的 不 同 声明 ， 我 们 可 以 测量 该 函数 对 不 同 运 算 的 性 能 。 


默认 地 ， 编 译 器 产生 适合 于 用 符号 调试 器 一 步 一 步调 试 的 代码 。 因 为 目的 是 使 目标 代码 尽 可 能 
类 似 于 源 代 码 中 表明 的 计算 ， 所 以 几乎 没有 进行 什么 优化 。 简 单 地 将 命令 行 开关 设置 为 “-02”， 我 
们 不 能 进行 优化 了 。 正 如 看 到 的 那样 ， 这 显著 地 提高 了 程序 性 能 。 通 常 ， 养 成 进行 这 一 级 优化 的 习 
惯 是 很 好 的 ， 除 非 编 详 程 序 就 是 为 了 要 调试 它 。 对 于 我 们 剩 下 的 度量 ,我们 都 进行 了 这 一 级 别 的 编 
ast 

CHER, RTF RBA, MERA RERM A iS BY EA LARS. F 
点 数 乘 法 有 很 高 的 时 钟 周 期 数 是 由 于 我 们 基准 程序 数据 中 的 异常 。 找 出 这 样 的 异常 是 性 能 分 析 和 优 
化 的 一 个 重要 组 成 部 分 。 我 们 会 在 5.11.1 节 中 回 过 来 讨论 这 个 问题 。 我 们 会 看 到 可 以 大 幅度 地 提高 
它 的 性 能 。 


5.4 消除 循环 的 低 效率 


可 以 观察 到 ， 过 程 combinel val FA eA vec_length 作为 for 循环 的 测试 条 件 ， 如 图 5.5 所 示 。 回 
想 一 下 我 们 对 循环 的 讨论 ， 每 次 循环 迭代 时 都 必须 对 测试 条 件 求 值 。 另 一 方面 ， 向 量 的 长 度 并 不 会 
随 厦 循环 的 进行 而 改变 。 因 此 ， 我 们 只 需 计 算 一 次 向 量 的 长 度 ， 然 后 在 我 们 的 测试 条 件 中 使 用 这 个 
值 。 

图 5.6 给 出 的 是 一 个 修改 的 版 本 ， 称 为 combine2， 它 在 开始 时 调用 vec_length， 并 将 结果 赋值 
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给 局 部 变量 length. AJA, Æ for 循环 的 测试 条 件 中 使 用 这 个 局 部 变量 。 令 人 惊奇 的 是 ， 这 个 小 小 的 
改动 明显 地 影响 了 程序 性 能 。 如 下 表 所 示 ， 通 过 这 个 简单 的 变换 ， 我 们 为 每 个 向 量 元 素 消除 了 大 概 
10 个 时 钟 周期 。 


aie eee 
路 
combinel 329 抽象 的 -O2 31.25 33.25 31.25 143.00 
combine2 330 移动 vec_length 22.61 21.25 21.15 135.00 


图 2.6 改进 循环 测试 的 效率 
通过 把 对 vec_length 的 调用 移出 循环 测试 ， 我 们 不 再 需要 每 次 迭代 时 都 执行 这 个 函数 了 。 


code/opt/combine.c 


1 /* Move call to vec_length out of loop */ 

2 void combine2 (vec ptr v, data_t *dest) 
3 { 

4 int 1; 

5 int length = vec_length(v) ; 

6 

7 *dest = IDENT; 

8 for (i = 0; i < length; i++) { 

9 data_t val; 

10 get_vec_element(v, i, &val); 
11 *dest = *dest OPER val; 

12 } 

13 } 


code/opt/combine.c 


这 个 优化 是 一 类 常见 的 、 称 为 代码 移动 (code motion) 的 优化 实例 。 这 类 优化 包括 识别 出 要 执 
行 多 次 〈 例 如 ， 在 循环 里 ) 但 是 计算 结果 不 会 改变 的 计算 ， 因 而 我 们 可 以 将 计算 移动 到 代码 前 面 的 、 
不 会 蚀 多 次 求 值 的 部 分 。 在 本 例 中 ， 我 们 将 对 vec_length 的 调用 从 循环 内 部 移动 到 循环 的 前 面 。 

优化 编 详 项 会 试 首 进行 代码 移动 。 不 幸 的 是 ， 就 像 前 面 讨 论 过 的 那样 ， 对 于 会 改变 在 哪里 调用 
国 数 或 调用 多 少 次 的 变换 ,编译 器 通常 会 非 党 小心。 它们 不 能 可 靠 地 发 现 一 个 函数 是 否 会 有 副作用 ， 
因而 它们 会 假设 函数 会 有 副作用 。 例 如， 如果 vec_length 有 某 种 副作用 ,那么 combine! 和 combine2 
可 能 就 会 有 不 同 的 行为 。 在 这 样 的 情况 中 ， 程 序 员 必须 帮助 编译 器 显 式 地 完成 代码 的 移动 。 

作为 combinel 中 看 到 的 循环 低 效率 的 一 个 极端 例子 ， 考虑 图 5.7 中 所 示 的 过 程 lowerl 。 这 个 过 
程 是 模仿 几 个 学 生 的 函数 设计 ， 他 们 的 函数 是 作为 一 个 网 络 编程 项 目的 一 部 分 提交 的 。 这 个 过 程 的 
目的 是 将 一 个 字符 串 中 所 有 大 写字 和 母 转换 成 小 写字 母 。 这 个 过 程 一 步 一 步 地 检查 字符 串 ， 将 每 个 人 
与 字符 转换 成 小 写字 符 。 


code/opt/lower.c 
1 /* Convert string to lower case: slow */ 


2 void lowerl(char *s) 
3 { 
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4 int i; 

5 

6 for (1 = 0; i < strlen({s); 1++) 

7 if (s[il >= 'A' && s[i] <= 'Z') 
8 s[i] -= (‘A' - 'a'); 

9 } 

10 


11  /* Convert string to lower case: faster */ 
12 void lower2(char *s) 

13 { 

14 int i; 

15 int len = strlen(s); 


17 for (1 = 0; i < len; i++) 

18 if (s[i] >= 'A' && s[i] <= 'Z') 
19 s[i] -= ('A' - 'a'); 

20 } 


22  /* Implementation of library function strlen */ 
23 /* Compute length of string */ 
24 size_t strlen(const char *s} 


25 { 
26 int length = 0; 
27 while (*s != '\Q') { 
28 S++; 
29 length++; 
3¢ } 
31 return length; 
32 } 
code/opt/lower.c 
57 小写 字母 转换 函数 
两 个 过 程 的 性 能 差别 很 大 。 


调用 库 过 程 strlen 作为 lowerl 的 循环 测试 的 一 部 分 .图 $.7 中 也 给 出 了 strlen 的 一 个 简单 的 版 本 。 
内 为 C 中 字符 串 是 以 null 结尾 的 字符 序列 ，strlen 必须 一 步 一 步 地 检查 这 个 序列 ， 直 到 遇 到 null 字 
和 从。 对 于 一 个 长 度 为 n RFE, stren 所 用 的 时 间 与 n 成 正比 。 因 为 对 lowerl Hn 次 迭代 的 每 一 
次 都 会 调用 strlen， 所 以 lowerl 的 整体 运行 时 间 是 字符 串 长 度 的 二 次 项 。 
如 图 5.8 所 示 ， 这 个 过 程 对 各 种 长 度 的 字符 串 的 实际 测量 值 验证 了 上 述 分 析 。lowerl 的 运行 时 
则 曲线 图 随 看 字符 串 长 度 的 增加 上 升 得 很 陡峭 。 该 图 的 下 部 展示 了 八 个 不 同 长 度 字 符 串 的 运行 时 间 
(与 曲线 图 中 所 示 的 有 所 不 同 )， 每 个 长 度 都 是 2 WRS. TUMRA, HF lower 来 说 ， 字 符 串 
长 度 每 增加 一 倍 ， 运 行 时 间 都 会 变 为 原来 的 四 倍 。 这 很 明显 地 表明 复杂 度 是 二 次 的 。 对 于 一 个 长 度 
为 262144 的 字符 串 ，lowerl 需要 整整 3.1 分 钟 CPU 时 间 ， 
除了 我 们 把 对 strlen 的 调用 移出 了 循环 以 外 ， 图 5.7 中 所 示 的 lower? 与 lowerl 是 一 样 的 。 这 样 
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一 来 , 性 能 有 了 显著 改善 。 对 于 一 个 长 度 为 262144 的 字符 串 , 这 个 函数 只 需要 0.006 秒 一 一 比 lowerl 
快 了 30000 多 倍 。 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 也 会 增加 一 倍 一 一 很 显然 复杂 度 是 线性 的 。 对 
于 较 长 的 字符 串 ， 运 行 时 间 的 改进 会 更 大 。 

在 理想 的 世界 里 ， 编 译 器 会 认 出 循环 测试 中 对 strlen 的 每 次 调用 都 会 返回 相同 的 结果 ， 因 此 应 
攻 能 够 把 这 个 调用 移出 循环 。 这 需要 非常 成 熟 完善 的 分 析 ， 因 为 strlen 会 检查 字符 串 的 元 素 ， 而 随 
者 lower] 的 进行 ， 这 些 值 会 改变 。 编 译 器 需要 探查 ， 即 使 字符 串 中 的 字符 发 生 了 改变 ， 但 是 没有 字 
付 会 从 非 零 变 为 零 ， 或 是 反 过 来 ， 从 零 变 为 非 零 。 这 样 的 分 析 远 远 超 出 了 即使 是 最 有 野心 的 编译 器 
的 能 力 ， 所 以 程序 员 必 须 自己 进行 这 样 的 变换 。 


250 -一 一 -一 一 一 -一 ---—— -o o 


| 
200 


150 


lowerl 


lower2 


0 50,000 100,000 150,000 200,000 250,000 
FFE RIS 


FRB KE 
am | 
8 192 16 384 32 768 65 536 131 072 262 144 


lower] 0.15 0.62 3.19 12.75 510I 186.71 
lower2 0.0002 0.0004 0.0008 0.0016 0.0031 0.0060 

图 3.8 小 与 字母 转换 函数 的 性 能 比较 
由 于 德 环 结构 的 效率 比较 低 , 原来 的 lowerl 的 代码 具有 .次 渐 近 Casymptotic) 复杂 性. 修改 过 的 lower? 的 代码 有 线性 的 复杂 度 。 


这 个 示例 说 明了 编程 时 一 个 常见 的 问题 ， 一 个 看 上 去 无 足 轻重 的 代码 片断 有 隐藏 的 渐 近 低 效 率 
(asymptotic inefficiency)。 人 们 可 不 希望 一 个 小 写字 母 转 换 函 数 成 为 程序 性 能 的 限制 因素 。 通 常 ， 
会 在 小 数据 集 上 测试 和 分 析 程 序 ， 对 此 ，lowerl 的 性 能 是 足够 的 。 不 过 ， 当 程序 最 终 部 署 好 以 后 ， 
过 程 完 全 可 能 锌 应 用 到 一 个 有 100 万 个 字符 的 串 上 ， 对 此 ，lowerl 从 头 至 尾 会 需要 1 个 小 时 的 CPU 
ATTA]. 突然 ， 这 段 无 危险 的 代码 变 成 了 一 个 主要 的 性 能 瓶颈 。 相 比较 而 言 ，lower2 会 在 1 秒 之 内 完 
成 。 大 型 编程 项 目 中 会 出 现 这 样 的 问题 ， 这 样 的 故事 比比 漠 是 。 一 个 有 经 验 的 程序 员工 作 的 一 部 分 
器 是 避免 引入 这 样 的 浙 近 低 效 率 。 


练习 题 5.3 
考虑 下 面 的 函数 ， 


int min(int x, int y) { return x <y ?x 


: yY; } 
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int max(int x, int y) { return x< y ? y : x; } 
void incr(int *xp, int v) { *xp += V; } 
int square(int x) { return x*x; } 


下 面 三 个 代码 片断 调用 这 些 承 数 : 


A. for (1 = min(x, y); 1 < max(x, y); incr(&1, 1)) 
t += square(i); 

B. for (1 = max(x, y) - 1; i >= min(x, y); incer(&1, -1)) 
t += square(i); 

C. int low = min(x, y); 


int high = max(x, y); 


for (1 = low; i < high; incr(&i, 1)) 
t += square(i); 


假设 x 等 于 10, 而 y 等 于 100。 填写 下 表 ， 指 出 在 代码 片断 A~C 中 四 个 函数 每 个 被 调用 的 次 数 。 


5.5 ”减少 过 程 调用 


像 我 们 看 到 过 的 那样 ， 过 程 调 用 会 带 来 相当 大 的 开销 ， 而 且 妨 碍 大 多 数 形 式 的 程序 优化 。 从 
combine2 的 代码 (图 $5.6) 中 我 们 可 以 看 出 ， 每 次 循环 选 代 都 会 调用 get_vec_element 来 获取 下 一 个 
风量 元 素 。 这 个 过 程 开 销 特别 大 ， 因 为 它 要 进行 边界 检查 。 在 处 理 任 意 的 数组 访问 时 ， 边 界 检查 可 
能 是 个 很 有 用 的 特性 ， 但 是 对 combine2 的 代码 做 简单 的 分 析 ， 表 明 所 有 的 引用 都 是 可 以 避免 的 。 

作为 替代 ， 我 们 假设 为 我 们 的 抽象 数据 类 型 增加 一 个 函数 get_vec_start。 这 个 函数 返回 数组 的 
起 始 地 址 ， 如 图 5.9 所 示 。 然 后 我 们 就 能 写 出 此 图 中 combine3 所 示 的 过 程 ， 其 中 的 循环 里 没有 函数 
再 用 。 它 疫 有 用 函数 调用 来 获取 每 个 向 量 元 素 ， 而 是 直接 访问 数组 。 一 个 纯粹 主义 者 可 能 会 说 这 种 
变换 严重 地 损害 了 程序 的 模块 性 。 通 常 ， 向 量 抽象 数据 类 型 的 使 用 者 甚至 不 应 该 需要 知道 向 量 的 内 
容 是 作为 数组 来 存储 的 ， 而 不 是 作为 诸如 链表 之 类 的 某 种 其 他 数据 结构 来 存储 的 。 比 较 实 际 的 程序 
员 会 根据 下 面 的 实验 结果 ， 说 明 这 种 变换 的 优点 : 


四 一 
combine2 339 | 移动 vec_length 20.66 21.25 21.15 135.00 
combine3 直接 数据 访问 B.00 117.00 


1 data_t *get_vec_start(vec_ptr v) 
2 { 


code/opt/vec.c 
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3 return v->data; 
4 } 
code/opt/vec.c 
- | code/opt/combine.c 
1 /* Direct access to vector data */ 
2 void combine3 (vec ptr v, data_t *dest) 
3 { 
4 int 1; 
5 int length = vec_length(v); 
6 data_t *data = get_vec_start(v); 
7 
3 *dest = ICENT; 
9 for (i = 0; 1 < length; i++) { 
10 *dest = *dest OPER cdata[i] ; 
11 } 
12 } 


code/opt/combine.c 


图 5.” KREA YB eh SA 
得 到 的 代码 运行 速度 比较 快 ， 是 以 损害 一 些 程序 的 模块 性 为 代价 的 。 


改进 最 高 可 以 达到 3.3SX。 对 于 性 能 至 关 重 要 的 程序 来 说 ， 为 了 速度 ， 经 常 必须 要 损害 一 些 模块 
性 和 抽 银 性 。 如 果 以 后 需要 修改 代码 ， 添 加 一 些 对 所 采用 的 变换 进行 记录 的 文档 是 很 明智 的 。 


旁 注 ， 表 示 相 对 性 能 

表示 性 能 改进 最 好 的 方法 就 是 形 如 Told/Tnew 的 比率 ,这 里 Told 是 原始 版 本 所 需 的 时 间 , 而 Tnew 
是 修改 过 的 版 本 所 需 的 时 间 。 如 果 发 生 了 实际 的 改进 ， 它 应 该 是 一 个 大 于 1.0 的 数字 。 我 们 用 后 缓 
“X” 来 表示 这 样 一 种 比率 ， 因 子 “3.SX” 读 作 “3.5 18”. 

更 加 传统 的 表示 相对 变化 的 方法 是 百分比 ， 在 变化 很 小 时 ， 还 是 很 有 效 的 ， 但 是 它 的 定义 十 分 
含糊 。 它 应 该 是 100-(Told-Tnew)/Tnew， 还 是 100-(Told-Tnew)/Told， 或 是 别 的 什么 呢 ? 此外， 对 于 


较 大 的 变化 ， 它 就 不 那么 有 帮助 了 。 说 “性 能 提高 了 2S0%” 比 简单 的 说 性 能 改进 因子 为 3.5 要 更 难 
以 理解 一 些 ， 


5.6 消除 不 必要 的 存储 器 引用 


combine3 的 代码 将 合并 操作 计算 的 值 累 积 在 指针 dest 指定 的 位 置 。 通过 检查 被 编译 的 循环 产生 
的 汇编 代码 ， 整 数 作 为 数据 类 型 ， 乘 法 作为 合并 操作 ， 可 以 看 出 这 个 属性 。 在 这 段 代码 中 ， 寄 存 器 
%ecx 指 问 data，%edx 包含 i KA, Medi 指向 dest. 


combine3: type=INT, OPER = * 
destin %edi, data in %ecx, i in Wedx, length in hesi 


1 .L18: loop: 

2 movl (%edi}),%eax Read *dest 

3 imull (%ecx, tedx,4),%teax Multiply by data[i] 
4 movl %eax, (%edi) Write *dest 

5 incl %edx i++ 
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6 cmpl %esi, tedx Compare i:length 

7 jl .L18 If <,goto loop 

指令 2 读 取 存 放 在 dest 中 的 值 ， 指 令 4 写 回 这 个 位 置 。 这 看 上 去 是 种 浪费 ， 因 为 正常 情况 下 ， 

一 次 迭代 时 指令 2 读 取 的 值 会 是 刚刚 写 回 的 那个 值 。 

这 了 就 导致 了 图 5.10 中 combines 所 示 的 优化 ， 在 这 里 ， 我 们 引入 了 一 个 临时 变量 x， 它 用 在 循环 
中 存放 填 算 出 来 的 值 。 只 有 在 循环 完成 之 后 结果 才 存 放 在 *dest 中 。 正 如 下 面 的 汇编 代码 所 示 , 编译 器 
现在 可 以 用 寄存 器 %eax 保存 累积 值 。 与 combine3 的 循环 相 比 ， 我 们 将 每 次 迭 代 的 存储 器 操作 从 两 次 
恋 和 一 次 写 减少 到 只 需要 一 次 读 。 寄 存 器 %ecx 和 %edx 的 使 用 和 前 面 一 样 ， 但 是 不 再 需要 引用 *dest。 


combine4: type=INT, OPER = * 
data in peax, x in Wecx, iin Wedx, length in pesi 


1 .L24: loop: 
2 imull (%eax, tedx,4),%ecx Multiply x by datafi] 
3 incl edx i++ 
4 cmpl %esi, %tedx Compare t:length 
5 jl .L24 If <, goto loop 
code/opt/combine.c 
1 /* Accumulate result in local variable */ 
2 void combine4(vec_ptr v, data_t *dest} 
3 { 
4 int 1; 
5 int length = vec_length(v); 
6 data_t *data = get_vec_start(v); 
7 data_t x = IDENT; 
8 
9 *dest = IDENT: 
10 for (1 = 0; i < length; i++) { 
11 x = X OPER datal[i]; 
12 } 
13 *dest = x 
14 } 
code/opt/combine.c 


图 ".19 在 临时 变量 中 存放 结果 
这 使 得 每 次 循环 运 代 中 不 再 需要 读 和 写 中 间 值 。 


我 们 看 到 程序 性 能 有 了 显著 的 改善 ， 如 下 表 所 示 ，; 
combine3 334 直接 数据 访问 8.00 (17.00 
combine4 BRAINS BH 


PF RER TRAY EE 3 RE AT Ta). EA a) A th Ae EST TL BE 
了 。 我 们 会 在 $.11.1 小 节 中 检查 这 种 迅速 下 降 的 原因 
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可 能 义 有 人 会 认为 编译 器 应 该 能 够 自动 将 图 $.9 中 所 示 的 combine3 的 代码 转换 为 在 寄存 器 中 存 
放 的 那个 值 ， 就 像 图 $.10 中 所 示 的 combines 的 代码 所 做 的 那样 。 

然而 实际 上 ， 由 于 存储 严 别 名 的 使 用 ， 两 个 函数 可 能 会 有 不 同 的 行为 。 例 如 ， 考 虑 整数 数据 ， 
运算 为 乘法 ， 标 识 元 素 为 ] 的 情况 。v 是 一 个 由 三 个 元 素 [2, 3, $] 组 成 的 向 量 ， 考 虑 下 面 两 个 明 数 调 
H: 

combine3(v, get_vec_start(v) + 2); 


combine4(v, get.vec_start(v) + 2); 


也 就 是 ， 我 们 在 问 量 最 后 一 个 元 素 和 存放 结果 的 目标 之 闻 创 建 一 个 别名 。 那 么 ， 两 个 函数 的 执 


IT F: 
a wwe wae [ee [ee 


combine3 [2, 3, 5] [2. 3, 1] [2, 3, 2] [2, 3, 6] [2, 3, 36] [2, 3, 36] 
combined [2, 3, 5] (2, 3, 5] [2, 3, 5] [2, 3, 5] [2, 3, 5] [2, 3, 30] 


正如 前 人 面 讲 到 过 的 ，combine3 将 它 的 结果 存放 在 目标 位 置 中 ， 在 本 例 中 ， 目 标 位 置 就 是 身 量 的 
了 最 后 一 个 元 素 。 因 此 ， 这 个 值 首 先 被 设置 为 1， 然后 设 为 2. 1= 2， 然 后 设 为 3.2=6。 最 后 一 次 和 迭 
代 中 ， 这 个 值 会 乘 以 它 自 己 ， 得 到 最 后 结果 36。 对 于 combines 的 情况 来 说 ， 直 到 最 后 向 量 都 保持 
不 变 ， 结 束 之 前 ， 最 后 一 个 元 素 会 被 设置 为 计算 出 来 的 值 1.2.3.5=30。 

当然 , 我 们 说 明 combine3 和 combine4 之 间 差 别 的 例子 是 人 为 设计 的 。 有 人 会 说 combines 的 行 
为 更 加 符合 盟 数 描述 的 意图 。 不 幸 的 是 ， 优 化 编译 器 不 能 判断 函数 会 在 什么 情况 下 被 调用 ， 以 及 程 
序 员 的 本 意 可 能 是 什么 。 取 而 代 之 的 是 ,在 编译 combine3 时 ， 编 译 器 有 责任 保持 它 的 功能 ， 邯 使 这 
意味 看 生成 低 效 率 的 代码 。 


5.7 ”理解 现代 处 理 器 


到 日 前 为 止 ， 我 们 运用 的 优化 都 不 依赖 于 目标 机 器 的 任何 特性 。 这 些 优 化 只 是 简单 地 降低 了 过 
程 调用 的 开销 ， 以 及 消除 了 一 些 重大 的 “妨碍 优化 的 因素 ”， 这 些 因素 会 给 优化 编 详 器 造成 困难 。 随 
看 我 们 试图 进一步 提高 性 能 ， 我 们 必须 开始 考 虚 这 样 的 优化 ， 它 们 更 多 地 利用 处 理 器 执行 指令 的 方 
式 和 茶 些 处 理 器 的 能 力 。 要 想 获 得 最 大 的 性 能 ， 需 要 仔细 地 分 析 程 序 ， 同 时 代码 的 生成 也 要 针对 日 
标 处 理 器 进行 调整 。 尽 管 如 此 ， 我 们 还 是 能 够 运用 一 些 基 本 的 优化 ， 在 很 大 一 类 处 理 器 上 产生 整体 
的 性 能 提高 。 我 们 在 这 里 公布 的 详细 性 能 结果 ， 对 其 他 机 器 不 一 定 也 有 同样 的 效果 ， 但 是 操作 和 优 
化 的 通用 原则 对 范围 众多 的 机 器 都 适用 ， 

为 了 理解 改进 性 能 的 方法 ， 我 们 需要 一 个 关于 现代 处 理 器 是 如 何 工作 的 简单 操作 模型 。 由 于 大 
量 的 辐 体 管 可 以 被 集成 到 一 块 芯片 上 ， 现 代 微 处 理 器 采用 了 复杂 的 硬件 ， 试 图 使 程序 性 能 最 大 化 。 
一 个 后 来 就 是 处 理 器 的 实际 操作 与 观察 汇编 语言 程序 得 到 的 概念 大 相 径 庭 。 在 汇编 代码 级 ， 看 上 去 
似乎 羡 一 次 执行 一 条 指令 ， 每 条 指令 都 包括 从 寄存 器 或 存储 器 取 值 ， 执 行 一 个 操作 ， 并 把 结果 存 回 
到 一 个 寄 行 器 或 存储 器 位 置 。 在 实际 的 处 理 器 中 ， 是 同时 对 多 条 指令 求 值 的。 在 某 些 设计 中 ， 可 以 
有 80 或 更 多 条 指令 在 处 理 中 。 采用 一 些 精细 的 机 制 来 确保 这 种 并 行 执行 的 行为 ， 能 正好 获得 机 器 级 
枉 序 要 求 的 顺序 语义 模型 的 效果 。 
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5.7.1 整体 操作 

图 $.11 给 出 了 现代 微 处 理 器 的 一 个 非常 简单 化 的 示意 图 。 我 们 假设 的 处 理 器 设计 是 基于 Intel 
“P6” 微 体系 结构 的 [301]， 这 种 微 体 系 结构 是 Intel PentiumPro、Pentium II 和 Pentium III 处 理 器 的 基 
础 。 较 新 的 Pentium 4 的 微 体 系 结构 有 所 不 同 ， 不 过 它 的 整体 结构 与 我 们 在 这 里 讲述 的 很 类 似 。P6 
傲 体系 结构 是 目 20 世纪 90 年 代 后 期 以 来 许多 厂商 生产 的 高 并 处 理 秦 的 典型 。 在 工业 界 称 为 超标 量 
(superscalar)， 意 思 是 它 可 以 在 每 个 时 钟 周期 执行 多 个 操作 ,而 月 是 乱 序 的 《out-of-order)， 意 思 就 
是 指令 执行 的 顺序 不 一 定 要 与 它们 在 汇编 程序 中 的 顺序 一 致 。 整 个 设计 有 两 个 主要 部 分 :ICU 
(Instruction Control Unit， 指 令 控 制 单 元 ) 和 EU (Execution Unit， 执 行 单元 )。 表 者 负责 从 存储 器 
中 读 出 指令 序列 ， 并 根据 这 些 指令 序列 生成 一 组 针对 程序 数据 的 基本 操作 ， 而 后 者 执行 这 些 操作 。 


图 2.11 一 个 现代 处 理 器 的 框图 
指令 控制 单元 负责 从 存储 器 中 读 出 指令 ， 并 产生 一 系列 基本 操作 。 然 后 执行 单元 完成 这 些 操 作 ， 以 及 指出 分 支 预 测 是 否 正 确 。 


ICU 从 指令 高 速 缓存 (instruction cache) 中 读 取 指 令 ， 指 令 高 速 缓存 是 一 个 特殊 的 高 速 缓存 
仔 储 器 ， 它 包含 最 近 访 问 的 指令 。 通 常 ，ICU 会 在 当前 正在 执行 的 指令 很 早 之 前 取 指 ， 所 以 它 有 
眉 够 的 时 间 对 指令 解码 ， 并 把 操作 发 送 到 EU。 不过， 有 一 个 问题 ， 那 就 是 当 程 序 遇 到 分 支 ' 时 ， 


1 我 们 用 术语 “分 支 ” 专 指 条 件 转 移 指令 。 对 处 理 器 来 说 ， 其 他 可 能 将 控制 传送 到 多 个 目的 地 址 的 指令 ,例如 过 程 返 回 和 间 
接 跳 转 ， 处 理 起 来 的 困难 程度 是 类 似 的 。 
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程序 有 两 个 可 能 的 前 进 方向 。 一 种 可 能 会 选择 分 支 ， 控 制 被 传递 到 分 支 目 标 ， 另 一 种 可 能 是 ， 不 
选择 分 文 ， 控 制 被 传递 到 指令 序列 的 下 一 条 指令 。 现 代 处 理 器 采用 了 一 种 称 为 分 支 预 测 〈branch 
prediction) 的 技术 ， 在 这 种 技术 中 处 理 器 会 预测 是 否 选择 分 支 ， 同 时 还 预测 分 支 的 目标 地 址 。 使 
用 一 种 称 为 投机 执行 (speculative execution〉 的 技术 ， 处 理 器 会 开始 取出 它 预 测 的 分 支 处 的 指令 
并 对 指令 解码 ， 甚 全 于 在 它 确定 分 支 预测 是 否 正 确 之 前 就 开始 执行 这 些 操作 。 如 果 过 后 它 确定 分 
文 预测 错误 ， 它 会 将 状态 重新 设置 到 分 支点 的 状态 ， 并 开始 取出 和 执行 另 一 个 方向 上 的 指令 。 一 
种 更 加 弄 乎 寻常 的 技术 是 开始 取出 和 执行 两 个 可 能 方向 上 的 指令 ， 随 后 再 抛弃 掉 不 正确 方向 上 的 
结果 。 时 全 今日 ， 都 不 认为 这 种 方法 的 成 本 效率 是 值得 的 。 标 号 为 取 指 控制 的 块 包括 分 支 预测 ， 
以 完成 确定 取 哪 条 指令 的 任务 。 

指令 解码 网 辑 接收 实际 的 程序 指令 ， 并 将 它们 转换 成 一 组 基本 操作 。 每 个 操作 都 完成 某 个 简单 
的 计算 任务 ， 例 如 两 个 数 相 加 ， 从 存储 器 中 读数 据 ， 或 是 向 存储 器 写 数据 。 对 于 具有 复杂 指令 的 机 
铺 ， 比 如 说 像 IA32 处 理 器 ， 可 能 将 一 条 指令 解码 成 可 变数 量 的 操作 。 每 个 处 理 器 设计 的 详细 情况 
部 有 所 不 同 ， 但 是 我 们 试 着 描述 一 种 典型 的 实现 。 在 这 种 机 器 上 ， 解 码 下 面 这 个 指令 

addl %eax, %tedx 
产生 一 个 加 法 操作 ， 而 解码 下 面 这 个 指令 

addl teax, 4 (Sedx) 


产生 三 个 操作 一 一 一 个 操作 从 存储 器 中 加 载 一 个 值 到 处 理 器 中 ， 一 个 操作 将 加 载 进来 的 值 加 上 寄存 
t peax 中 的 值 ， 而 一 个 操作 将 结果 存 回 到 存储 器 。 这 种 解码 逻辑 分 解 指令 的 操作 ， 实 现 了 在 一 组 专 
站 的 便 件 单元 之 间 的 任务 分 割 。 然 后 ， 这 些 单元 可 以 并 行 地 执行 乘法 指令 的 各 个 部 分 。 对 于 具有 简 
单 指令 的 机 器 ， 操 作 更 紧密 地 对 应 于 原始 的 指令 ， 

EU 接收 来 目 指令 读 取 单元 的 操作 。 通 常 ， 它 会 每 个 时 钟 周 期 接收 若干 个 操作 。 这 些 操 作 会 被 
分 派 到 一 组 功能 单元 中 ， 它 们 会 执行 实际 的 操作 。 这 些 功能 单元 是 专门 用 来 处 理 特 定 类 型 的 操作 。 
我 们 的 图 〈 指 图 5.11) 说 明了 一 组 典型 的 功能 单元 。 它 沿用 的 是 最 近 的 Intel 处 理 器 的 风格 。 图 中 的 
单元 如 下 : 

理 数 /分 支 ， 执 行 简单 的 整数 操作 〈 加 法 、 测 试 、 比 较 、 远 辑 )。 还 处 理 分 支 ， 就 像 下 面 会 讨论 
的 那样 。 

通用 整数 : 可 以 处 理 所 有 的 整数 操作 ， 包 括 乘法 和 除法 。 

PP RAIMA: 处 理 简 单 的 浮 点 操作 (加 法 、 格 式 转换 )。 

F ARCA MRE: 处理 浮 点 乘法 和 除法 。 更 复杂 的 浮 点 指令 ， 例 如 超越 函数 (transcendental 
function )， 会 被 转换 成 操作 的 序列 。 

加 载 : 处 理 从 存储 器 读数 据 到 处 理 器 的 操作 。 这 个 功能 单元 有 一 个 加 法 器 来 执行 地 址 计算 。 

存储 : 处 理 从 处 理 器 到 存储 器 的 写 操作 。 这 个 功能 单元 有 一 个 加 法 器 来 执行 地 址 计算 。 

如 图 中 所 示 ， 加 载 和 存储 单元 通过 数据 高 速 缓 存 访问 存储 器 ， 这 是 一 个 高 速 存储 器 ， 包 含 最 近 
访问 的 数据 值 。 

使 用 投机 执行 技术 ， 对 操作 求 值 ， 但 是 最 终结 果 不 会 存放 在 程序 寄存 器 或 数据 存储 器 中 ， 直 到 
处 理 器 能 确定 应 该 实际 执行 这 些 指 令 。 分 支 操 作 被 送 到 EU， 不 是 确定 分 支 该 往 哪 里 去 ， 而 是 确定 
分 文 预 测 是 否 正确 。 如 果 预 测 错误 ，EU 会 丢弃 分 支点 之 后 计算 出 来 的 结果 。 它 还 会 发 信号 给 分 支 
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单元 , 说 预测 是 错误 的 ， 并 指出 正确 的 分 支 目 的 。 在 这 种 情况 中 ,分 支 单元 开始 读 取 新 位 置 的 指令 。 
这 样 的 预测 错误 会 导致 很 大 的 性 能 开销 。 在 可 以 取出 新 指令 、 解 码 和 发 送 到 执行 单元 之 前 ， 要 人 花费 
一 点 时 间 。 我 们 会 在 5.12 节 中 进一步 研究 这 个 问题 。 

{E ICU 中， 退役 单元 (Retirement Unit) 记录 正在 进行 的 处 理 ， 并 确保 它 遵 守 机 器 级 程序 的 顺 
序 语义 。 我 们 的 图 中 展示 了 一 个 寄存 器 文件 ， 它 包含 整数 和 浮 点 数 寄存 器 ， 是 退役 单元 的 一 部 分 ， 
因为 退役 单元 控制 这 些 寄存 器 的 更 新 。 指 令 解 码 时 ， 关 于 指令 的 信息 被 放置 在 一 个 先进 先 出 的 队列 
中 。 这 个 信息 会 一 直 保 持 在 队列 中 ， 直 到 两 个 结果 中 的 一 个 发 生 。 首 先 ， 一 旦 指令 的 操作 完成 了 ， 
而 所 有 导致 这 条 指令 的 分 支点 也 都 被 确认 为 预测 正确 ， 那 么 这 条 指令 就 可 以 退役 了 ， 所 有 对 程序 寄 
存 器 的 更 新 都 可 以 被 实际 执行 了 。 另 一 方面 ， 如 果 导 致 该 指令 的 某 个 分 支点 预测 错误 ， 这 条 指令 会 
被 清空 丢弃 所 有 计算 出 来 的 值 。 通 过 这 种 方法 ， 错 误 的 预测 就 不 会 改变 程序 状态 了 。 

正如 我 们 已 经 描述 的 那样 ， 和 任何 对 程序 状态 的 更 新 都 只 会 在 指令 退役 时 才 会 发 生 ， 只 有 在 处 理 
器 能 够 确信 导致 这 条 指令 的 所 有 分 支 都 预测 正确 了 ， 才 能 这 样 做 。 为 了 加 速 一 条 指令 到 另 一 条 指令 
Na RAIS, 许多 此 类 信息 是 在 执行 单元 之 间 交 换 的 , 即 图 中 的 “操作 结果 ”。 如 图 中 的 箭头 所 示 ， 
执行 单元 可 以 直接 将 结果 发 送 给 彼此 。 

最 常见 的 控制 操作 数 在 执行 单元 间 传 送 的 机 制 称 为 寄存 器 重 命 名 (repister renaming)。 当 一 条 
更 新 寄存 器 > 的 指令 解码 时 ， 产 生 标记 t (tag t)， 得 到 一 个 指向 该 操作 结果 的 惟一 的 标识 符 。 条 日 
(r,f) 锐 如 入 到 一 张 表 中 ， 该 表 维 护 着 每 个 程序 寄存 器 与 会 更 新 该 寄存 器 的 操作 的 标记 之 间 的 关联 。 
当 随 后 以 寄存 器 r 作为 操作 数 的 指令 解码 时 ， 发 送 到 执行 单元 的 操作 会 包含 + 作为 操作 数 源 的 值 。 
当 茶 个 执行 单元 完成 第 一 个 操作 时 ， 会 生成 一 个 结果 (v,t)， 指 明 标 记 为 1 的 操作 产生 值 v。 此 时 ， 所 
和 有 有 等待 上 作为 源 的 操作 都 能 使 用 v 作为 源 值 了 。 通 过 这 种 机 制 ， 值 可 以 直接 从 一 个 操作 传递 到 另 一 
个 操作 ， 而 不 是 写 到 寄存 器 文件 再 读 出 来 。 重 命名 表 只 包含 关于 有 未 进行 写 操作 的 寄存 器 条 目 。 当 
一 条 已 解码 的 指令 需要 寄存 器 r， 而 又 没有 标记 与 这 个 寄存 器 相关 联 ， 这 个 操作 数 可 以 直接 从 寄存 
器 文件 中 获得 。 有 了 寄存 器 重 命名 ， 即 使 只 有 在 处 理 器 确定 了 分 支 结果 之 后 才能 更 新 寄存 器 ， 也 可 
以 预测 者 执行 操作 的 整个 序列 。 


Sit: 乱 序 处 理 的 历史 

乱 厅 处 理 最 早 是 在 1964 年 Control Data 公司 的 6600 处 理 器 中 实现 的 。 指 令 是 由 十 个 不 同 的 功 
能 单元 处 理 的 ， 每 个 单元 都 能 独立 地 操作 。 在 那个 时 候 ， 这 种 时 钟 频率 为 10Mhz 的 机 器 被 认为 是 科 
学 计算 最 好 的 机 器 。 

在 1966 F, IBM 首先 是 在 IBM 360/91 上 实现 了 乱 序 处 理 ， 但 只 是 用 来 执行 浮 点 指令 。 在 大 约 25 
年 的 时 间 里 ， 乱 序 处 理 都 被 认为 是 一 项 异乎 寻常 的 技术 ， 只 在 追求 尽 可 能 高 性 能 的 机 器 中 使 用 ， 直 到 
1990 F IBM 在 RS/6000 系列 工作 站 中 重新 引入 了 这 项 技术 。 这 种 设计 成 为 了 IBM/Motorola PowerPC 
系列 的 基础 ， 典 型 代表 是 1993 年 引入 的 601， 它 成 为 第 一 个 使 用 乱 序 处 理 的 单 芯 片 微 处 理 器 . 


5.7.2 功能 单元 的 性 能 

图 5.12 提供 了 Intel Pentium WI 的 一 些 基 本 操作 的 性 能 ， 其 他 处 理 器 也 具有 这 样 的 计时 特征 。 每 
个 操作 都 是 由 两 个 周期 计数 值 来 刻画 的 : 一 个 是 执行 时 间 〈latency)， 它 指明 功能 单元 完成 操作 所 需 
要 的 总 周期 数 ， 另 一 个 是 发 射 时 间 (issue time)， 它 指明 连续 的 、 独 立 操作 之 间 的 周期 数 。 执 行 时 
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辐 的 范围 从 基本 整数 操作 的 一 个 周期 ， 到 加 载 、 存 储 、 整 数 乘法 和 更 常见 的 浮 点 操作 的 几 个 周期 ， 
到 除法 和 其 他 复杂 操作 的 许多 个 周期 。 

正如 图 5.12 中 第 三 栏 所 示 ， 处 理 器 的 几 个 功能 单元 被 流水 线 化 了 ,这 意味 着 在 前 一 个 操作 完成 
之 前 ， 它 们 就 可 以 开始 一 个 新 的 操作 。 发 射 时 间 指 明 一 个 单元 的 连续 操作 之 间 的 局 期 数 。 在 一 个 流 
水 线 化 的 单元 中 ， 发 射 时 间 比 执行 时 间 短 。 流 水 线 化 的 功能 单元 是 作为 一 系列 阶段 来 实现 的 ， 每 个 
阶段 完成 操作 的 一 部 分 。 例 如 ， 一 个 典型 的 译 点 加 法 器 包含 三 个 阶段 : 一 个 阶段 处 理 指 数值， 一 
将 小 数 相 加 ， 而 一 个 四 舍 五 入 计算 最 后 的 结果 。 操 作 可 以 连续 地 通过 各 个 阶段 ， 而 不 是 等 竺 一 个 操 
作 完 成 后 再 开始 下 一 个 。 上 只 有 当 要 执行 的 操作 是 连续 的 、 逻 辑 上 独立 的 ， 才 能 运用 这 种 功能 。 正 如 
表明 的 那样 ， 大 多 数 单元 能 够 每 个 时 钟 周期 开始 一 个 新 的 操作 。 仅 有 的 例外 是 浮 点 乘法 器 和 两 个 除 
法 器 ， 浮 点 乘法 器 要 求 连续 的 操作 之 间 至 少 要 有 两 个 周期 ， 而 两 个 除法 器 根本 就 没有 流水 线 化 。 


加 载 〈 高 速 缓存 命中 ) 
存储 〈 高 速 缓存 命中 ) 


图 5.12 Pentium Ill SMARTER MERE 
执行 时 间 代 表 一 条 操作 的 总 局 期 数 。 发 射 时 间 表 示 连 续 的 、 独 立 的 操作 之 间 的 周期 数 〈 来 自 于 Intel 的 文献 )。 


电路 设计 者 可 以 创建 共有 一 系列 性 能 特性 的 功能 单元 。 创 建 一 个 执行 时 间 短 或 发 射 时 间 短 的 单 
元 需要 较 多 的 硬件 ， 特 别 是 对 于 像 乘 法 和 浮 点 操作 这 祥 比 较 复 杂 的 功能 。 因 为 微 处 理 器 心 片上 上， 对 
于 这 些 单元 ,只 有 有 限 的 空间 ,所 以 CPU 设计 者 必须 小 心地 平衡 功能 单元 的 数量 和 它们 各 自 的 性 能 ， 
a tibiae Watt MENA R oni. i 
图 5.12 表明 的 那样 ， 在 Pentium III 的 设计 中 ， 整 数 乘法 、 浮 点 乘法 和 加 法 被 认为 是 重要 的 操作 ， 
使 需要 大 量 硬 件 以 获得 低 执行 时 间 和 较 高 的 流水 线 化 程度 。 另 一 方面 ， 除 法 相对 不 太 常 用 ， Hiin 
以 实现 低 执行 时 间或 发 射 时 间 ， 因 此 这 些 操 作 相 对 而 言 比 较 慢 。 


5.7.3 ”里 近 地 观 察 处 理 器 操作 

作为 分 析 在 现代 处 理 器 上 执行 的 机 器 级 程序 的 性 能 ， 我 们 提出 了 一 种 更 详细 的 文本 表示 法 来 描 
述 指令 解码 器 产生 的 操作 ， 还 有 一 种 图 形 化 的 表示 法 来 显示 功能 单元 对 操作 的 处 理 。 这 两 种 表示 法 
都 不 能 准确 地 表示 具体 的 、 现 实 的 处 理 器 的 实现 。 它 们 是 简单 的 方法 ， 帮 助理 解 处 理 器 在 执行 程序 
时 能 够 如 何 利 用 并 行 性 和 分 支 预测 。 

将 指令 翻译 成 操作 

我 们 通过 combine4《〈 图 5.10) 来 说 明 我 们 的 表示 法 ， 它 是 到 目前 为 止 我 们 最 快 代码 的 示例 。 我 
们 只 关注 循环 执行 的 操作 ， 因 为 对 很 大 的 向 量 来 说 ， 这 是 性 能 的 决定 性 因素 。 我 们 考虑 整数 数据 以 
及 以 乘法 和 加 法 作为 合并 操作 的 情况 。 使 用 乘法 的 循环 的 编译 代码 由 四 条 指令 组 成 。 在 这 个 代码 中 ， 
寄存 器 %eax 保存 指针 data，%edx 保存 i，%ecx 保存 x， 而 %esi 保存 length: 
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combine4: type=INT, OPER = * 
data in Yeax, x in becx, tin %edx, length in %esi 


1 .L24: loop: 

2 imull (%*eax, %edx,4),%ecx Multiply x by dataf{i] 
3 incl %edx i 十 十 

4 cmpl %esi,%edx Compare i:length 

5 jl .L24 If <, goto loop 


每 次 处 理 器 执行 这 个 循环 时 ， 指 令 解 码 器 将 这 四 条 指令 翻译 成 执行 单元 的 一 个 操作 序列 。 第 一 
次 适 代 时 ，i 等 于 0， 我 们 假定 的 机 器 会 友 射 下 面 的 操作 序列 : 


L24: 
imull (%*eax, %$edx, 4), %ecx load (%eax, %edx.0, 4) > t.i 
imull t.1, %ecx.9 > %ecx,]) 
incl %edx incl tedx.0 > *edx.1 
cmpl %esi, tedx cmpl tesi, %edx.1 -> cc.l 
jl .L24 jl-taken cc .1 


在 我 们 的 指令 翻译 中 ， 我 们 将 乘法 指令 的 存储 器 引用 转换 成 一 条 显 式 的 load 指令 ， 它 将 数据 从 
存储 器 读 到 处 理 器 。 我 们 还 给 每 次 迭代 都 变化 的 值 分 配 操作 数 标号 (operand labelj)， 这 些 标号 是 寄 
仓 嚣 重 命名 生成 的 标记 的 风格 化 版 本 。 因 此 ， 循 环 开 始 处， 寄存 器 %ecx 中 的 值 由 标号 %ecx.0 标识 ， 
企 更 新 后 ， 由 %ecx.1 标识 。 这 次 迭代 与 下 次 迭代 不 变化 的 寄存 器 值 可 以 在 解码 时 直接 从 寄存 器 文件 
中 获得 。 我 们 还 引入 了 标号 t.1， 来 表示 load 操作 读 取 的 、 传 送 到 imull 操作 的 值 ， 而 我 们 显 式 地 给 
出 了 操作 的 目的 地 。 因 此 ， 一 对 操作 

load (%eax, Sedx.0, 4) 一 七 .1 

imull t.1, %ecx.0 > ecx.] 
表明 ， 处 理 器 首先 执行 一 条 load 操作 ， 用 %eax 的 值 〈 这 个 值 在 循环 中 不 会 改变 ) 和 循环 开始 时 存 
放 在 %edx 中 的 值 来 计算 地 址 。 这 会 产生 一 个 临时 值 ， 标 号 为 41。 人 然后， 乘法 操作 获取 这 个 值 和 循 
环 开始 时 %ecx 的 值 ， 产 生 一 个 %ecx 的 新 值 。 正 如 这 个 例子 说 明 的 那样 ， 标 记 可 以 与 并 不 会 写 到 寄 
FF ae CFF PAP Ta AES 

操作 

incl tedx.0 一 tedx.1 


指明 ， 增 量 操作 对 循环 开始 时 %edx 的 值 加 1， 产 生 这 个 寄存 器 的 新 值 。 
操作 


cmpl esi, tedx.1— cc.l 


指明 ， 比 较 操 作 《“ 由 两 个 整数 单元 中 的 一 个 执行 ) 比较 %esi 中 的 值 ( 这 个 值 在 循环 中 不 会 改变 ) 和 和 
新 计算 出 来 的 %edx 的 值 。 然 后 ， 它 会 设置 标号 cc.1 标识 的 条 件 码 。 正 如 这 个 例子 说 明 的 那样 ， 处 
理 器 可 以 用 重 命 名 来 记录 对 条 件 码 寄存 器 的 改变 。 

最 后 ， 预 出 跳 转 指令 会 选择 分 支 。 跳 转 指令 


il-taken cc.1 
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检查 新 计算 出 来 的 条 件 码 的 值 (cc.1) 是 否 表 明 这 是 个 正确 的 选择 。 如 果 不 是 ， 那 么 它 会 发 信号 给 
ICU， 告 诉 它 在 ji 后 面 的 指令 处 开始 取 指 令 。 为 了 简化 表示 法 ， 我 们 省 略 了 所 有 关于 可 能 的 跳 村 上 
的 地 的 信息 。 实 际 上 ， 处 理 器 必须 记录 未 被 预测 方向 的 目的 地 ， 这 样 一 来 ， 在 预测 销 误 时 ， 它 可 以 
从 那里 开始 取 指 。 

如 这 个 示例 翻译 表明 的 那样 ， 我 们 的 操作 在 许多 方面 模仿 了 汇编 语言 指令 的 结构 ， 除 了 它们 古 
用 标识 寄存 器 不 同 实例 的 标号 来 引用 它们 的 源 和 目的 操作 的 。 在 实际 的 硬件 中 ， 寄 存 器 重 命 名 动态 
地 给 标记 赋值 ， 使 之 指向 这 些 不 同 的 值 。 标 记 是 位 模式 而 不 是 像 “%edx.1” 这 样 的 符号 名 字 ， 但 是 
它们 提供 的 用 途 是 一 样 的 。 

执行 单元 的 操作 处 理 

图 5.13 以 两 种 形式 展示 了 操作 : 一 种 是 指令 解码 器 生成 的 形式 , 另 一 种 是 用 计 站 图 (computation 
graph) 来 表示 的 ， 在 这 种 图 中 ， 操 作 是 用 圆 角 方 框 表示 的 ， 而 箭头 表明 操作 之 间 的 数据 传递 。 我 们 
只 为 一 次 迭代 与 下 一 次 迭代 之 间 改 变 了 的 操作 数 而 显示 箭头 ， 因 为 只 有 这 些 值 才 在 功能 单元 之 加 进 
AT TE IR o 


tedx.0 


load (%eax, t%edx.0, 4) 
imull t.1, %*ecx.0 


incl tedx.0 
cmpl tesi, tedx.1 
jl-taken cc.1 


图 5.13 整数 乘法 的 combines MATH RARER ARIE 
存储 器 读 被 显 式 地 转换 成 了 加 载 。 寄 存 器 名 字 是 用 实例 号 码 (instance number) 标记 的 。 


每 个 操作 符 方 框 的 高 度 表明 这 个 操作 需要 多 少 个 周期 ,也 就 是 这 一 种 功能 的 执行 时 间 。 人 在 此 ， 
整数 乘法 imul 需要 四 个 周期 ， 加 载 需 要 三 个 周期 ， 而 其 他 操作 需要 一 个 周期 。 在 展示 一 个 牧 环 的 
计时 中 ， 我 们 将 块 竖 直 地 放置 ， 来 表示 操作 执行 的 时 间 ， 向 下 的 方向 表示 时 间 的 增长 。 我 们 可 以 看 
到 ,循环 的 五 个 操作 形成 了 两 个 并 行 的 链 ， 表明 两 个 计算 序列 必须 顺序 地 执行 。 左 边 的 链 处 理 数据 ， 
首先 从 存储 器 中 读 一 个 数组 元 素 ， 然 后 用 它 乘 以 累积 的 乘积 。 右 边 的 链 处 理 循环 索引 o BATE 
加 1， 然 后 拿 它 与 length 做 比较 。 跳 转 操 作 检查 这 个 比较 的 结果 ， 以 确定 分 支 预测 是 正确 的 。 注 意 ， 
EFS BRETT HE PRCA SPA TK © MRA SCPE, ANE. Ra SW te. AD 
么 分 支 功能 单元 会 发 信号 给 指令 取出 控制 单元 ， 而 这 个 单元 会 采取 改正 的 行动 。 无 论 是 两 种 情况 中 
的 哪 一 种 ， 基 他 的 操作 都 不 依赖 于 跳 转 操 作 的 结 朱 。 

图 5.14 给 出 了 同样 的 到 操作 的 翻译 ， 只 不 过 合并 操作 是 整数 加 法 。 如 图 形 描 述 所 示 ， 所 有 的 操 
作 ， 除 了 加 载 以 外 ， 现 在 都 只 需要 一 个 周期 。 
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load ($eax, $edx.0, 
addl t.1, %ecx.0 
incl *edx.0 

cmpl tesi, tedx.1 


jl-taken cc.1l 


5.14 整数 加 法 的 combines 里 面 循环 第 一 次 迭代 的 操作 
与 乘法 相 比 ， 惟 一 的 变化 是 加 法 操作 只 需要 一 个 周期 。 


有 无 限 资源 的 操作 调度 

为 了 看 看 处 理 嚣 将 如 何 执行 一 系列 的 有 反复， 首先 设想 一 个 处 理 器 ， 它 有 无 限 多 个 功能 单元 和 完 
美的 分 支 预 出 。 只 要 一 个 操作 的 数据 操作 数 可 用 ， 该 操作 就 能 够 开始 执行 了 。 这 样 一 个 处 理 器 的 性 
能 只 受 下 列 因 素 的 限制 功能 单元 的 执行 时 间 和 吞吐 量 ,， 以 及 程序 中 的 数据 相关 性 。 图 5.15 给 出 的 
十 在 这 样 一 个 机 器 上 整数 乘法 的 combine4 中 循环 头 三 次 迭代 的 计算 图 。 对 每 次 欠 代 ,都 有 一 组 五 个 
操作 ， 形 式 与 图 5.13 中 所 示 的 一 样 ， 而 操作 数 标号 有 适当 的 变化 。 从 一 次 迭代 的 操作 数 到 另 一 次 迭 
代 的 操作 数 的 箭头 表明 了 各 个 迭代 之 间 的 数据 相关 。 

根据 没有 朝 上 的 箭头 这 一 限制 条 件 ， 每 个 操作 都 竖 直 地 放 在 尽 可 能 高 的 位 置 ， 因 为 朝 上 的 箭头 
表明 信息 流向 过 去 的 时 间 。 因 此 ， 只 要 前 一 次 迭代 的 incl 操作 产生 了 循环 索引 Coop index) 的 更 新 
值 ， 下 一 次 迭代 的 load 操作 就 能 够 开始 了 。 

这 个 计算 图 展示 了 执行 单元 对 操作 的 并 行 执行 。 每 个 周期 中 ， 图 上 一 条 水 平 线 上 的 所 有 操作 是 
并 行 执行 的 。 这 个 图 还 展示 了 乱 序 和 投机 执行 。 例 如 ， 一 次 迭代 中 的 incl 操作 在 前 一 次 迭代 的 让 指 
令 开始 之 前 就 执行 了 。 我 们 还 能 看 到 流水 线 化 的 效果 。 每 次 迭代 从 头 至 尾 至 少 需要 七 个 周期 ， 但 是 
随后 的 迭代 每 四 个 周期 就 能 完成 。 因 此 ， 有 效 处 理 频 率 是 每 四 周期 一 次 迭代 ，CPE 为 4.0。 

整数 乘法 四 个 周期 的 执行 时 间 限 制 了 处 理 器 对 这 个 程序 的 性 能 。 每 个 imull 操作 必须 等 待 直 到 
前 一 个 操作 完成 ， 因 为 在 开始 之 前 ， 它 需要 这 次 乘法 的 结果 。 在 我 们 的 图 中 ， 乘 法 操作 在 周期 4、8 
和 12 上 开始 。 在 随后 的 迭代 中 ， 每 四 个 周期 开始 一 条 新 的 乘法 。 

图 5.16 展示 了 在 一 个 有 无 限 多 个 功能 单元 的 机 器 上 ， 整 数 加 法 的 combines 的 头 四 次 迭代 。 如 
霖 合并 操作 只 需要 一 个 周期 ， 程 序 的 CPE 就 能 达到 1.0。 我 们 看 到 随 着 循环 的 进行 ， 执 行 单元 就 能 
每 个 时 钟 周 期 执行 七 个 操作 的 一 部 分 了 。 例 如 ,在 周期 4 中 ,我 们 可 以 看 到 机 器 在 执行 迭代 1 的 addl， 
IRAN 2. 3 和 4 的 load 操作 的 不 同 部 分 ， 友 代 2 ADL, BEAR 3 HS compl 以 及 迭代 4 的 incl. 

资源 约束 下 的 操作 调度 

当然 ， 一 个 真实 的 处 理 器 只 有 固定 数目 的 功能 单元 。 和 我 们 前 面 的 例子 不 同 ， 在 那些 例子 中 ， 
性 能 只 受 数据 相关 性 和 功能 单元 的 执行 时 间 的 限制 ， 现 在 性 能 还 受 资源 约束 的 限制 。 特 别 地 ， 我 们 
的 处 理 器 只 有 两 个 单元 能 执行 整数 和 分 支 操作 。 相 反 ， 在 图 5.15 中 ， 周 期 3 中 有 三 个 此 类 操作 在 并 
行 执行 ， 而 周期 4 中 有 四 个 在 并 行 执行 。 

图 5.17 展示 了 在 一 个 有 资源 约束 的 处 理 器 上 ， 整 数 乘法 的 combine4 的 操作 调度 。 我 们 假设 通 
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用 的 整数 单元 和 分 文 /整数 单元 都 能 够 每 个 周期 开始 一 个 新 操作 . 可 能 有 多 于 两 个 的 整数 或 分 支 操作 
并 行 地 执行 ， 就 像 周 期 6 中 所 示 的 那样 ， 因 为 此 时 imull 操作 处 在 它 的 第 三 个 周期 。 

因为 资源 受 约束 ， 我 们 的 处 理 器 必须 要 有 调度 策略 ， 在 有 多 个 选择 时 ， 它 要 确定 应 该 执行 哪 
个 操作 。 例如 ， 图 5.15 中 国 表 的 周期 3 中， 我 们 展示 了 三 个 正在 被 执行 的 整数 操作 : GAR 1 的 让、 
JAK 2 的 cmpl AER 3 的 incl。 对 于 图 5.17 来 说 ， 我 们 必须 推迟 这 些 操作 中 的 一 个 。 我 们 通过 记 
oR BE TE N42 7p LA (program order) 来 做 到 这 一 点 ， 程 序 顺 序 也 就 是 如 果 我 们 按照 严格 的 顺序 来 
执行 机 器 级 程序 ， 操 作 执 行 的 顺序 。 那 么 我 们 会 根据 操作 的 程序 顺序 赋 给 它们 优先 级 。 在 此 例 中 ， 
我 们 会 推迟 incl 操作 , KHAR 3 TET BRE EU ABE AAR 1 和 2 的 操作 之 后 。 类 似 地 ， 
在 周期 4 中， 我 们 会 使 移 代 1 的 imull HPAI RIEAR 2 的 计 操 作 的 优先 级 高 于 和 迭代 3 的 incl 操作 
的 优先 级 。 


4 


2 


| ks Eo T D k = : s Ji : _ n ] | 
| | | ' d — ee F: i 
3 %ecx.0 \ : i a ' (incl | tedx.3 


= i 一 mi | 


周期 


15 一 
BRS 


图 3.13 执行 单元 数量 无 限 的 情况 下 ， 整 数 乘法 操作 的 调度 
乘法 器 的 4 周期 执行 时 间 是 限制 性 能 的 资源 。 
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对 于 六 个 例子 来 说 ， 功 能 单元 数量 有 限 并 没有 使 我 们 的 程序 变 慢 。 性 能 仍然 是 被 整数 乘法 的 四 
周期 执行 时 间 限 制 的 。 

对 于 整数 加 法 的 情况 ， 资 源 约束 明显 地 限制 了 程序 性 能 。 每 次 迭代 要 有 四 个 整数 或 分 支 操 作 ， 
向 只 有 两 个 功能 单元 能 完成 这 些 操作 。 因 此 ， 我 们 不 能 期 望 能 保持 比 每 次 迭代 两 个 周期 更 好 的 处 理 
频率 了 。 在 创建 整数 加 法 的 combines 的 多 次 迭代 的 图 表 时 ， 出 现 了 一 种 很 有 趣 的 模式 。 图 5.18 展 
AN SIE 4~8 的 操作 的 调度 。 我 们 选择 这 个 范围 内 的 和 迭代， 是 因为 它 展示 了 操作 时 间 的 规则 模式 
(regular pattern). EIA 4~8 中 ， 所 有 操作 出 现 的 时 间 都 是 相同 的 ， 除 了 和 迭代 8 中 的 操作 的 发 生 
晚 了 八 个 周期 。 随 着 和 途 代 的 进行 ,迭代 4 一 7 所 示 的 模式 会 不 断 重 复 。 因 此 ， 我 们 每 八 个 周期 完成 四 
TRIER, FEE TCN CPE 2.0. 


tedx .0 


5.16 ”在 不 受 限制 的 资源 约束 的 情况 下 ， 整 数 加 法 操作 的 调度 
如 果 资 源 不 受 限 制 ， 处 理 器 的 CPE 能 达到 1.0. 
combine4 性 能 小 结 
现在 我 们 来 考虑 一 下 combines 对 四 种 组 合 数据 类 型 和 合并 操作 的 测量 性 能 ， 


BR 了 整数 加 法 例外 以 外 ， 这 些 周期 时 间 基 本 上 都 与 合并 操作 的 执行 时 间 相 符 ， 如 图 5.12 所 未。 
在 此 ， 我 们 的 转换 将 CPE 值 降低 到 合并 操作 的 时 间 成 为 限制 因素 。 

对 于 整数 加 法 的 情况 ， 我 们 看 到 ， 有 限 数量 的 针对 分 支 和 整数 操作 的 功能 单元 限制 了 能 达到 的 
性 能 。 每 次 过 代 有 四 个 这 类 操作 ， 而 只 有 两 个 功能 单元 ， 我 们 不 能 指望 程序 能 运行 得 比 每 次 迭代 2 
个 周期 更 快 了 。 

通常 ， 处 理 器 性 能 是 受 三 类 约束 限制 的 。 第 一 ， 程 序 中 的 数据 相关 性 迫使 一 些 操作 延迟 直到 它 
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们 的 操作 数 被 计算 出 来 。 因 为 功能 单元 有 一 个 或 多 个 周期 的 执行 时 间 ， 这 就 设置 了 一 个 给 定 的 操作 
序列 执行 周期 数 的 下 界 。 第 二 ， 资 源 约束 限制 了 在 任意 给 定时 刻 能 够 执行 多 少 个 操作 。 我 们 看 到 ， 
功能 单元 的 有 限 数量 就 是 这 样 一 种 资源 约束 。 其 他 的 约束 包括 功能 单元 流水 线 化 的 程度 ， 以 及 ICU 
和 EU 中 其 他 资源 的 限制 。 例 如 ， 一 个 Intel Pentium M 每 个 时 钟 周期 只 能 解码 三 条 指令 。 最 后 ， 分 
文 预 测 逻 辑 的 成 功 限制 了 处 理 器 能 够 在 指令 流 中 超前 工作 以 保持 执行 单元 繁忙 的 程度 。 每 次 发 生 预 
测 错 误 时 ， 处 理 器 从 正确 的 位 置 重 新 开始 都 会 引起 很 大 的 延迟 。 


J -> tedx .4 


图 5.17 有 实际 资源 约束 的 情况 下 ， 整 数 乘法 的 操作 调度 
乘法 器 的 执行 时 间 仍 然 是 限制 性 能 的 因素 。 
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BAR 8 


图 3.18 有 实际 资源 约束 的 情况 下 ， 整 数 加 法 操作 的 调度 
两 个 整数 单元 的 限制 将 性 能 约束 在 CPE 2.0. 


5.8 降低 循环 开销 


这 样 一 个 情况 限制 了 整数 加 法 的 combines 的 性 能 ， 那 就 是 ， 每 次 达 代 包括 四 条 指令 , 但 是 只 有 
两 个 功能 单元 能 够 执行 这 些 指令 。 这 四 条 指令 中 只 有 一 条 是 对 程序 数据 操作 的 。 其 他 的 都 是 计算 循 
环 的 索引 (loop index) 和 测试 循环 条 件 的 循环 开销 的 一 部 分 。 
我 们 可 以 通过 在 每 次 迭代 中 执行 更 多 的 数据 操作 来 减 小 循环 开销 的 影响 ， 使 用 的 是 称 为 循环 展 
FF (loop unrolling) 的 技术 。 其 思想 是 在 一 次 迁 代 中 访问 数组 元 素 并 做 乘法 。 这 样 得 到 的 程序 需要 
里 少 的 大 代 ， 从 而 降低 了 循环 的 开销 。 
图 5.19 给 出 了 对 我 们 的 合并 代码 使 用 三 次 循环 展开 的 版 本 。 第 一 个 循环 一 次 处 理 数组 的 三 个 元 
Re WME, 循环 索引 i 每 次 迭代 会 加 3， 而 一 次 迭代 中 会 对 数组 元 素 i i4] Al i +2 进行 合并 操作 。 
CC  - code/opt/combine.c 
1 /* Unroll loop by 3 */ 
2 void combineS(vec_ptr v, data_t *dest) 
3 { 

4 int length = vec_length(v) ; 

5 int limit = length-2; 

6 data_t *data = get_vec_start(v):; 
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7 data_t x = IDENT; 

8 int 1; 

9 

10 /* Combine 3 elements at a time */ 

11 for (i = 0; i < limit; i1+=3) { 
12 x = X OPER datali] OPER data[i+1] OPER data[i+2]; 
13 } 

14 

15 /* Finish any remaining elements */ 

16 for (; 1 < length; i++} { 

17 x = x OPER data[il]; 

18 } 

19 *dest = xX 

20 } 


code/opt/combine.c 
图 5.1? ”展开 循环 三 次 
御 环 展开 能 减 小 循环 开销 的 影 啊 。 


通常 ， 问 量 长 度 不 会 是 3 的 倍数 。 我 们 希望 我 们 的 代码 对 任意 向 量 长 度 都 能 正常 工作 。 我 们 从 
天 个 方面 来 解决 这 个 需求 。 首 先 要 确保 第 一 次 循环 不 会 超出 数组 的 界限 。 对 于 长 度 为 闫 的 问 量 ， 我 
们 将 循环 限制 设 为 呈 2。 然 后 ， 我 们 会 保证 只 有 当 循 环 索 引 上 满足 ji <n 2N TSHR. A 
此 最 大 数组 索引 i+ 2 会 满足 i+2<(n-2)+ 2=n。 通常 ,如 果 循 环 展开 k 次 , 我 们 就 把 上 限 设 为 nk 
+ 1]。 那 么 最 人 衔 环 索引 i+ 上 -1 会 比 n 小 。 除 此 之 外 ， 我 们 加 上 第 三 个 循环 ， 以 每 次 处 理 一 个 元 素 
的 方式 处 理 问 量 的 最 后 几 个 元 素 。 这 个 循环 体 将 会 执行 0 一 2 次 。 

为 了 更 好 地 理解 之 循环 展开 的 代码 的 性 能 , 让 我 们 来 看 看 内 循环 的 汇编 代码 和 它 到 操作 的 翻译 : 


.L49: 


addl (eax, tedx,4) ,%ecx load (%eax, %edx.0, 4) 
addl t.la, tecx.9c 
addl 4 (%eax,t%edx,4),%ecx load 4({%eax, tedx.0, 4) 


addi t.ib, %tecx.1la 
addl 8 (#eax,%edx,4),%ecx load 8(%eax, %edx.0, 4) 
addl t.lc, %ecx.ib 
addl %edx, 3 addl *edx.0, 3 
cmpl %esi, Sedx cmpl tesi, %edx.1 


jl .L49 jil-taken cc.l 


正如 前 面 担 到 的 那样 ， 循 环 展开 本 身 只 会 帮助 整数 求 和 情况 中 代码 的 性 能 ， 因 为 我 们 的 其 他 情况 是 
被 切 能 单元 的 执行 时 间 限 制 的 。 对 于 整数 求 和 ,三 次 展开 使 得 我 们 能 够 用 六 个 整数 /分 支 操作 合并 一 
个 元 素 ， 如 图 5.20 所 示 。 用 两 个 功能 单元 完成 这 些 操 作 ， 我 们 潜在 地 能 达到 CPE 1.0。 图 5.21 KH, 
一 旦 我 们 a 到达 达 代 3 (i = 6)， 操 作 就 会 遵循 一 种 规则 的 模式 。 迭 代 4 (i = 9) 的 操作 有 同样 的 时 间 
安排 ， 只 不 过 移动 了 三 个 周期 。 这 会 真正 得 到 CPE 1.0。 


Lili? 4] 
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我 们 对 这 个 函数 的 测试 表明 CPE X 1.33, thet iit, BUGKARAR EDA. RAR. RANE 
分 析 中 未 说 明 的 某 个 资源 约束 延缓 了 计算 ， 每 次 迭代 要 多 一 个 周期 。 然 而 ， 比 起 未 使 用 循环 展开 的 
代码 ， 这 个 性 能 还 是 有 改进 的 。 


tedx.0 


load (%teax, %edx.0, 4) > 
addl t.la, %ecx.0c > %ecx.la oe 
load 4(%eax, tedx.0, 4) 一 t.1ib i 
addl t.1ib, %ecx.1a —> t%ecx.1b empl 
load 8(%eax, %edx.0, 4) > t.ic ae 
addl t.ic, *ecx.1b > %ecx.1ic | tecx.0c 
addl %edx.0, 3 +> tedx.1 load 
cmpl %esi, %edx.1 一 cc.l tecx. la 
jl-taken cc.1 = 

tecx.1b 


tecx.1lc 


图 3.20 三 次 展开 整数 加 法 的 循环 的 第 一 次 迭代 的 操作 
使 用 这 种 程度 的 循环 展开 ， 我 们 可 以 用 六 个 整数 /分 支 操 作 合并 三 个 数组 元 素 。 


A b. _ ije a i op pi ee i 


图 3.21 有 限 资 源 约束 情况 下 ， 三 次 展开 的 整数 求 和 操作 的 调度 
原则 上 ， 这 个 过 程 可 以 达到 CPE 1.0, 但 是 测量 到 的 CPE 为 1.33. 


测量 各 种 展开 程度 的 性 能 ， 得 到 如 下 的 CPE 值 : 
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正如 这 些 测量 值 表 明 的 那样 ， 循 环 展 开 能 降低 CPE。 当 循环 展开 度 为 2 时 ， 主 循环 的 每 次 迭代 
需要 三 个 时 钟 周期 ， 得 到 CPE 3/2 = 1.5。 当 我 们 增加 展开 的 度 时 ， 我 们 通常 能 获得 更 好 的 性 能 ， 接 
近 CPE 的 理论 极限 1.0。 注 意 到 改进 并 非 是 单调 的 是 很 有 意思 的 : 展开 度 为 3 得 到 比 展开 度 为 4 更 
好 的 性 能 。 很 明显 ， 在 后 一 种 情况 中 ， 执 行 单元 上 操作 的 调度 效率 要 低 一 些 。 

我 们 的 CPE 测量 值 不 能 解释 开销 因素 ， 例 如 程序 调用 和 准备 循环 的 开销 。 使 用 循环 展开 ， 我 们 
引入 了 一 种 新 的 开销 一 当 同 量 长 度 不 能 被 展开 度 整 除 时 ， 需 要 完成 所 有 剩 下 的 元 素 。 为 了 研究 开销 
的 影响 ， 我 们 测量 了 各 种 向 量 长 度 的 净 CPE (net CPE)。 净 CPE 是 这 样 计算 的 ， 过 程 需要 的 总 周期 
数 除 以 元 素 的 个 数 。 对 于 不 同 展开 度 和 两 个 不 同 的 同 量 长 度 ， 我 们 获得 下 面 的 数据 : 


4 
CPE 


31 净 CPE 

对 于 长 向 量 来 说 ，CPE AP CPE 的 差别 很 小 ， 从 长 度 为 1024 的 测量 值 就 能 看 出 来 ， 但 是 对 于 
短 同 量 来 说 ， 影 响 就 很 明显 ， 从 长 度 为 31 的 同 量 的 测量 值 就 能 看 出 来 。 我 们 长 度 为 31 的 同 量 的 净 
CPE 的 测量 值 展示 了 循环 展开 的 一 个 缺点 。 即 使 不 展开 ， 净 CPE 4.02 比 长 向量 测 出 的 2.06 要 高 很 
多 。 当 循环 执行 较 少 次 时 ， 开 始 和 完成 循环 的 开销 变 得 更 加 重要 。 另 外 ， 御 环形 开 的 好 处 就 不 那么 
明显 了 。 展 开 后 的 代码 必须 局 动 和 停止 两 个 循环 ， 而 且 它 必须 每 次 一 个 地 完成 最 后 的 元 素 。 循 环 展 
开 增 加 ， 开 销 会 降低 ， 而 最 后 循环 中 执行 的 操作 数 会 增加 。 当 向 量 长 度 为 1024 时 , 性 能 通常 会 随 着 
展开 度 的 增加 而 改进 。 当 同 量 长 度 为 31 时 ， 展 开 度 只 为 3 时 能 得 到 最 好 的 性 能 。 

循环 展开 的 第 二 个 缺点 是 它 增加 了 生成 的 目标 代码 的 数量 。combine4 的 目标 代码 需要 63 字 节 ， 
(ATM RAE A 16 的 目标 代码 需要 142 字 节 。 在 这 种 情况 中 ， 代码 运 行 得 几乎 快 了 一 倍 ， 似 乎 要 
付出 小 小 的 代价 。 不 过 在 其 他 情况 中 ， 这 个 时 间 - 空 间 的 折衷 中 最 优 的 位 置 还 不 是 很 清楚 。 

编译 器 可 以 很 容易 地 执行 福 环 展开 内 要 优化 级 别 设置 得 足够 高 ( 例如 ， 优 化 选项 为 “-O2” )， 
许多 编译 器 都 能 例行公事 地 做 到 这 一 点 。 在 命令 行 上 以 “-funroll-loops” 调 用 GCC， 它 会 执行 循环 
展开 。 


5.9 ”转换 到 指针 代码 


企 进 行 下 一 步 之 前 ， 我 们 应 该 再 尝试 一 种 有 时 能 改进 程序 性 能 的 转换 ， 但 这 是 以 程序 的 可 读 性 
为 代价 的 。C 的 一 个 独特 的 特性 是 能 够 对 任意 的 程序 对 象 创 建 和 引用 指针 。 实 际 上 ， 指 针 运 算 与 数 
组 引用 有 很 紧密 的 联系 。 表达 式 *(ati) 给 出 的 指针 运算 和 引用 的 组 合 正 好 等 价 于 数组 引用 alil At, 
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我 们 能 够 通过 使 用 指针 而 不 是 数组 改进 一 个 程序 的 性 能 。 

图 5.22 给 出 了 一 个 将 过 程 combines 和 combines 转换 成 指针 代码 的 示例 ， 分 别 得 到 过 程 
combine4p 和 combine5p。 与 保持 指针 data 固定 在 回 量 的 开始 处 相反 ， 我 们 每 次 欠 代 时 都 移动 它 。 
然后 ， 通 过 data 的 固定 偏 移 量 (0~2) 来 引用 向 量 元 素 。 最 重要 的 是 ， 我 们 能 从 过 程 中 消除 循环 变 
量 i。 为 了 确定 循环 该 在 什么 时 候 中 止 ， 我 们 计算 一 个 指针 dend 作为 指针 data 的 上 界 。 比 较 这 些 过 
程 和 它们 相应 数组 的 过 程 的 性 能 得 到 混合 的 结果 ， 


EE 


combine4 累积 在 临时 变量 中 
combine4p 指针 版 本 5 00 


combine5 展开 循环 X3 1.33 
combine5x4 展开 循环 X4 1.50 4.00 3.00 5.00 
SSE 
对 大 多 数 情况 来 说 ， 数 组 和 指针 版 本 的 性 能 完全 一 样 。 不 带 展 开 的 整数 求 和 的 指针 版 本 的 CPE 
实际 上 还 变 糖 了 一 个 周期 。 这 个 结果 有 点 奇怪 ， 因 为 指针 和 数组 版 本 中 的 循环 是 非常 类 似 的 ， 如 久 
5.23 所 示 。 很 难 想像 为 什么 指针 代码 每 次 迭代 需要 多 一 个 时 钟 周期 。 同 样 不 可 思议 的 是 ， 过 程 四 次 


循环 展开 的 版 本 使 用 指针 代码 能 产生 每 次 迭代 一 个 周期 的 性 能 提高 ， 得 到 CPE 1.25 (RIER 5T 
周期 )， 而 不 是 1.5〈 每 次 迭代 6 个 周期 )。 


code/opt(combine.c 


1 /* Accumulate in local variable, pointer version */ 
2 void combine4p(vec_ptr v, data_t *dest) 
3 { 
4 int length = vec_lengthiv) ; 
5 data_t *data = get_vec_start (v); 
6 data_t *dend = data+length; 
7 data_t x = IDENT; 
8 
9 for (; data < dend; data++) 
10 x = X OPER *data; 
11 *dest = x; 
12 } 
code/opt/combine.c 
Ca) combined 的 指针 版 本 
code/opt/combine.c 
1 /* Unroll loop by 3, pointer version */ 
2 void combineSp(vec_ptr v, data_t *dest) 
3 { 
4 data_t *data = get_vec_start(v); 
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5 data_t *dend = data+vec_length(v) ; 
6 data_t *dlimit = dend-2; 

7 data_t x = IDENT; 

8 

9 /* Combine 3 elements at a time */ 

10 for (; data < dlimit; data += 3) { 
11 x = x OPER data[0] OPER data{1] OPER data[2]; 
12 } 

13 

14 /* Finish any remaining elements */ 

15 for (; data < dend; data++) { 

16 x = x OPER data(0]; 

17 } 

18 *dest = X; 

19 ) 


code/opt/combine.c 
(b) combines 的 指针 版 本 


图 3.22 将 数组 代码 转换 成 指针 代码 
在 某 些 情况 中 ， 这 能 够 导致 性 能 的 改进 。 


combine4: type=INT. OPER = '+' 
data in Yoeax, x in %ecx, i in Wedx, length in pesi 


ji „L24: loop: 
2 addi (%teax,%edx,4),%ecx Add datafi] to x 
3 incl %edx i++ 
4 cmpl %esi, tedax Compare t:length 
5 jl .L24 If <, goto loop 
(a) Array code 
combine4p: type=INT, OPER = '+' 
data in Yoeax, xin %ecx, dend in %edx 
1 „L30: loop: 
2 addl (%eax),%ecx | Add data[0O] to x 
3 addl $4,%eax data ++ 
4 cmpl tedx, teax Compare data:dend 
5 jb .L3C If <, goto leop 


(b) Pointer code 


图 5.23 ”指针 代码 性 能 异常 
虽然 结构 上 两 个 程序 非常 相似 ， 但 是 数组 代码 每 次 迭代 需要 2 个 周期 ， 而 指针 代码 需要 3 个 。 


根据 我 们 的 经 验 ， 指 针 和 数组 代码 的 相对 性 能 依赖 于 机 器 、 编 译 器 ， 甚 至 于 某 个 特殊 的 过 程 。 
我 们 已 经 看 过 编译 器 , 它们 对 数组 代码 应 用 非常 高 级 的 优化 , 而 对 指针 代码 只 应 用 最 小 限度 的 优化 。 
为 了 可 读 性 的 缘故 ， 通 常数 组 代码 更 可 取 一 些 。 
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练习 和 5.4 
A Hik, GCC 会 自己 将 数组 代码 转换 成 指针 代码 。 例如， 使 用 整数 数据 和 以 加 法 作为 合并 操作 
Bt, GCC 为 combines 的 一 个 变种 的 内 循环 产生 下 列 代 码 ， 使 用 的 是 八 次 循环 展开 : 


.Lb: 
addl (%*eax) , edx 
addl 4 (%eax) , tedx 
addl 8 (%eax) ,edx 
add] 12(%eax) ,%edx 
addl 16(%eax) ,%edx 
addl 20(%eax) ,%edx 
addal 24(%eax) , tedx 
addi 28(%eax) ,%edx 
addl $32, %eax 
addi $8, %ecx 
cmpl %esi,%ecx 

13 Jl .L6 


观察 寄存 器 %eax 是 如 何 每 次 迭代 增加 32 的 ， 
号 出 过 程 combineSpx8 的 C 代码 ， 展 示 这 段 代 码 是 如 何 计 算 指 针 、 循 环 变量 和 中 止 条 件 的 。 按 


RE 5.19 的 风格 ， 给 出 使 用 任意 数据 和 合并 操作 的 通用 格式 。 描 述 它 与 我 们 手写 的 指针 代码 (图 
5.22) 有 何 区 别 ，。 


Oo Oo aI mM OT Se Ww HN e 


e e he 
uU -e op 


5.10 提高 并 行 性 


在 此 ， 我 们 的 程序 是 受 功能 单元 的 执行 时 间 限 制 的 。 不 过 ， 如 图 5.12 中 第 三 栏 所 示 ， 处 理 器 的 
儿 个 功能 单元 是 流水 线 化 的 ， 这 意味 着 它们 可 以 在 前 一 个 操作 完成 之 前 开始 一 个 新 的 操作 。 我 们 的 
代码 不 能 利用 这 种 能 力 ， 即 使 是 使 用 循环 展开 也 不 能 ， 这 是 因为 我 们 将 累积 值 放 在 一 个 单独 的 变量 
x 中 。 直 到 前 面 的 计算 完成 之 前 ， 我 们 都 不 能 计算 x 的 新 值 。 因 此 ， 处 理 器 会 暂停 (stall)， 等 待 开 
始 新 的 操作 ， 直 到 当前 操作 完成 。 图 5.15 和 图 5.17 中 很 清楚 地 展示 了 这 个 限制 。 即 使 有 无 限 的 处 
理 凯 资源 , 飞 法 器 也 只 能 每 四 个 时 钟 周期 产生 一 个 新 的 结果 。 对 于 浮 点 加 法 (三 个 周期 ) 和 乘法 (五 
个 周期 ) 也 会 有 类 似 的 限制 。 


5.10.1 MANE (doop splitting) 
对 于 一 个 可 结合 和 可 交换 的 合并 操作 来 说 ， 比 如 说 整数 加 法 或 乘法 ， 我 们 可 以 通过 将 一 组 合并 操 
作 分 割 成 两 个 或 更 多 的 部 分 ， 并 在 最 后 合并 结果 来 提高 性 能 。 例 如 ，P, 表示 元 素 ay an, ani 的 乘积 ， 


n-i 
P, = [] 9: 
i=0 


假设 为 偶数 ， 我 们 还 可 以 把 它 写 成 P, = PE, XPO, i # PE, 是 索引 值 为 偶数 的 元 素 的 乘积 ， 而 
PO, 是 索引 值 为 奇数 的 元 素 的 乘积 ; 
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所有 剩 下 的 数组 元 素 。 然 后 ， 我 们 对 x0 和 xl 应 用 合并 操作 ， 计 算 最 终 的 结果 。 


第 5 章 
nfi2-2 
PE, 一 I] G5; 
i=0 
n/i2—2 
PO, ~~ (il 


图 5.24 展示 的 是 使 用 这 种 方法 的 代码 。 它 既 使 用 了 两 次 循环 展开 ， 以 使 每 次 和 代 合并 更 多 的 元 
a, 也 使 用 了 两 路 并 行 ， 将 索引 值 为 侦 数 的 元 素 累 积 在 变量 x0 中 ， 而 索引 值 为 奇数 的 元 素 累积 在 变 
量 xl 中 。 同 前 向 一 样 ， 我 们 还 包括 了 第 二 个 循环 ,对 于 向 量 长 度 不 为 2 的 倍数 时 ， 这 个 循环 要 累积 


code/opt/combine.c 


/* Unroll loop by 2, 2-way parallelism */ 


void combine6(vec_ptr v, data_t *dest) 


{ 


int length = vec_lengthi(v}; 

int limit = length-1: 

data_t *data = get_vec_start (v); 
data_t x0 = IDENT; 

data_t xl = IDENT: 


int i; 


/* Combine 2 elements at a time */ 

for (1 = 0; 1 < limit; 1+=2) { 
Xu = x0 OPER datali]; 
xi = xl OPER datali+11:; 


/* Finish any remaining elements */ 

For (; 1 < length; i++) { 
xO = x0 OPER datali]; 

} 

*dest = x0 OPER xi; 


code/opt/combine.c 


图 3.24 二 次 展开 循环 并 使 用 二 路 并 行 


这 种 方法 利用 了 功能 单元 的 流水 线 能 力 。 


为 了 了 解 这 个 代码 是 如 何 提 高 性 能 的 ， 让 我 们 来 考虑 对 于 整数 乘法 情况 的 循环 到 操作 的 番 


W: 
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~L151: 


imuil {teax, tedx, 4) ,%ecx load {teax, tedx.0, 4) 


imull t.la, tecx.0 
imull 4(%eax, tedx,4), tebx load 4\%eax, *tedx.0, 4) 
imull t.1lb, tebx.0 
addl $2,%edx addi $2, %tedx.0 
cmpl %esi, tedx cmpl tesi, *edx.1 
jl .L151 jl-taken cc.1 


图 5.25 给 出 了 第 一 次 迭代 〈i=0) 的 操作 的 图 形 化 表示 。 正 如 这 张 表 说 明 的 那样 ， 循 环 中 的 两 
个 乘法 是 相互 独立 的 。 一 个 以 寄存 器 %ecx 作为 它 的 源 和 目的 《对 应 于 程序 变量 x0)， 而 为 一 个 以 寄 
存 器 %ebx 作为 它 的 源 和 目的 (对 应 于 程序 变量 x1)。 第 二 个 乘法 在 第 一 个 的 后 一 个 的 后 一 个 周期 就 
可 以 开始 了 。 这 利用 了 加 载 单元 和 整数 乘法 器 的 流水 线 化 的 能 力 。 


tedx.0 


tedx.1 
oa ED 
cc,1 
执行 单元 操作 ocx 0 bad | (i 


load (%eax, tedx.0, 4) 


imul] t.la, %ecx.0 tebx.0 Ib 

load 4(%eax, %edx.0, 4) . 

imull t.1b, %ebx.0 

addl $2, %edx.0 

cmpl esi, %tedx.1 

jl-taken cc.1 Secx-* 
‘tebx.1 


图 .人 9” 二 次 展开 、 二 路 并 行 的 整数 乘法 内 循环 的 第 一 次 迭代 操作 
两 个 乘法 操作 是 逻辑 上 独立 的 。 
图 5.26 给 出 的 是 整数 乘法 的 头 三 次 迭代 (i=-0，2 和 4) MAB. MBAR, ATF 
法 部 必须 等 等 ， 直 到 前 一 次 迭代 的 结果 计算 出 来 。 这 个 机 器 还 是 能 每 四 个 时 钟 周 期 产生 两 个 结果 ， 
得 到 了 理论 上 的 CPE 2.0。 在 这 幅 图 中 ， 我 们 不 考虑 整数 功能 单元 的 有 限 集合 ， 但 是 也 没有 证 明 它 
是 这 个 特殊 过 程 的 限制 。 
比较 只 进行 循环 展开 和 使 用 循环 展开 以 及 两 路 并 行 ， 我 们 得 到 以 下 的 性 能 : 


展开 X2 1.50 4.00 3.00 5.00 
combine6 354 展开 X2, F##7T X2 . . 


对 于 整数 求 和 ， 并 行 化 并 没有 帮助 ， 因 为 整数 加 法 的 执行 时 间 只 是 一 个 时 钟 周期 。 不 过 对 于 整数 和 
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浮 扣 乘法 ,我 们 将 CPE 减 小 了 1 倍 。 从 本 质 上 看 ， 我 们 加 倍 地 使 用 了 功能 单元 。 对 于 浮 点 加 法 ， 某 
坚 其 他 的 资源 约束 将 我 们 的 CPE 限制 在 了 2.0， 而 不 是 理论 值 1.5。 

我 们 早 就 知道 ， 二 进 制 补 码 运算 是 可 交换 和 可 结合 的 ， 甚 至 于 溢出 时 也 是 如 此 。 因 此 ， 对 于 整 
数 数据 类 型 ， 在 所 有 可 能 的 情况 下 ，combine6 计算 出 的 结果 都 和 combines 计算 出 的 相同 。 因 此 ， 
优化 编译 幽 潜在 地 能 够 将 combine4 中 所 示 的 代码 首先 转换 成 combines 的 一 个 二 路 循环 展开 变种 ， 
然后 骨 通 过 引入 并 行 性 ,将 之 转换 成 combine6 的 一 个 变种 。 在 优化 编译 器 的 语言 中 ,这 称 为 迭代 分 
害 〈iteration splitting)。 许 多 编译 器 自动 进行 循环 展开 ， 但 是 进行 迁 代 分 割 的 编译 器 相对 比较 少 了 。 


*ecdx.0 


i ; 

2 my 
3 secx.) 

4 sebx.] | 


B i=0 
oe 
Ee 9 
10 
11 
12 t.3b 
13 TELE 2 
14 
15 tecx.3 
i=4 
16 ” %ebx.3 
TERS 


图 2.26 ”在 有 限 资 源 情 况 下 ， 二 次 展开 、 二 路 并 行 的 整数 乘法 操作 的 调度 
乘法 器 现在 可 以 每 4 个 周期 产生 两 个 值 了 。 


万 一 方面 ， 我 们 知道 浮 点 乘法 和 加 法 不 是 可 结合 的 。 因 此 ， 由 于 四 含 五 入 或 溢出 ，combines 和 
combine6 可 能 产生 不 同 的 结果 。 例 如 ， 假 想 这 样 一 种 情况 ， 所 有 索引 值 为 偶数 的 元 素 都 是 绝对 值 非 
常 大 的 数 , 而 索引 值 为 奇数 的 元 素 都 非常 接近 于 0.0. 那么 ,即使 最 终 的 乘积 已 不 会 溢出 ,乘积 PE 
TAY Heim, RA PO, 也 可 能 下 溢 。 不 过 在 大 多 数 现实 的 程序 中 ， 不 太 可 能 出 现 这 样 的 情况 。 因 为 
大 多 数 物 理 现 象 是 连续 的 ， 所 以 数字 数据 也 趋向 于 相当 的 平滑 ， 不 会 出 什么 问题 。 即 使 是 有 不 连续 
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的 时 候 ， 它 们 通常 也 不 会 导致 前 面 描述 的 条 件 那样 的 周期 性 模式 。 按 照 严格 顺序 对 元 素 求 和 不 太 可 
EB 会 有 比 “ 分 成 两 组 独立 求 和 ， 然 后 再 将 这 两 个 和 相 加 ”根本 上 更 好 的 准确 性 。 对 大 多 数 应 用 程序 
来 说 ， 使 性 能 翻 倍 要 比 对 奇怪 的 数据 模式 产生 不 同 的 结果 的 风险 更 重要 。 但 是 ,程序 开发 人 员 应 该 
与 潜在 的 用 户 协商 ， 看 看 是 否 有 特殊 的 条 件 ， 可 能 会 寻 致 修改 后 的 算法 不 能 接受 。 

就 像 我 们 能 以 任意 次 数 丰 展开 循环 ， 我 们 也 可 以 增加 并 行 度 为 任意 因子 p, WA k R p Æ 
除 。 下 面 是 对 于 不 同 展开 次 数 各 并行 度 的 一 些 结果 ， 


， 并 行 度 X2 


， 并行 度 X2 


， 并 行 度 X2 
， 并 行 度 X4 
， 并 行 度 X8 
， 并行 度 X3 


正如 这 张 表 说 明 的 那样 ， 增 加 循环 的 展开 度 和 并 行 度 能 帮助 程序 性 能 达到 某 个 点 ， 但 是 当 取 到 
极限 的 时 候 ， 性 能 的 增长 就 减缓 了 。 在 下 一 节 中 ， 我 们 将 会 描述 出 现 这 种 现象 的 两 个 原因 。 


5.10.2 ”寄存 器 溢出 〈register spilling) 

循环 并 行 性 的 好 处 是 受 描 述 计 算 的 汇编 代码 的 能 力 限 制 的 。 特别 地 ，IA32 指令 集 只 有 很 少量 的 
寄存 器 来 存放 累积 的 值 。 如 果 我 们 有 并 行 度 p 超过 了 可 用 的 寄存 器 数量 ， 编 译 器 会 诉 诸 于 溢出 
(spiling)， 将 某 些 临时 值 存 放 到 栈 中 。 一 旦 出 现 这 种 情况 , 性 能 会 急剧 下 降 。 当 我 们 试图 使 p=8 时 ， 
对 我 们 的 基准 程序 就 发 生 了 这 种 情况 。 我 们 的 测量 值 显 示 此 种 情况 下 的 性 能 比 p=4 时 的 性 能 更 差 。 

对 于 整数 数据 类 型 的 情况 ， 总 共 只 有 八 个 整数 寄存 器 可 用 。 其 中 有 两 个 〈%ebp 和 9%esp) 指向 
栈 中 的 区 域 。 在 这 段 代码 的 指针 版 本 中 ， 剩 下 的 六 个 寄存 器 中 有 一 个 要 存放 指针 data， 还 有 一 个 要 
存放 停止 位 置 dend。 这 就 只 剩 下 四 个 整数 寄存 器 可 以 用 来 存放 累积 的 值 了 。 在 这 段 代 码 的 数组 版 本 
中 ， 我 们 需要 三 个 寄存 器 来 保存 循环 索引 值 n SERSA limit， 以 及 数组 地 址 data。 这 就 只 剩 下 
三 个 整数 寄存 器 可 以 用 来 存放 累积 的 值 。 对 于 浮 点 数据 类 型 ， 我 们 需要 八 个 寄存 器 中 的 两 个 来 保存 
中 间 值 ， 剩 下 六 个 用 于 累积 值 。 因 此 ， 我 们 能 得 到 在 发 生 寄存 器 溢出 之 前 ， 最 大 并 行 度 为 6。 

八 个 整数 和 八 个 六 点 寄存 器 的 限制 是 IA32 指令 集 的 不 幸 产物 。 前 面 讲 到 过 的 重 命名 机 制 消除 
了 寄存 器 名 字 和 寄存 器 数据 实际 位 置 之 间 的 联系 在 现代 处 理 器 中 ， 寄 存 器 名 字 只 简单 地 用 来 标识 
在 功能 单元 之 间 传 网 的 程序 值 。IA32 只 提供 了 很 少量 的 这 样 的 标识 符 ， 跟 制 了 在 程序 中 能 表达 的 并 
行 性 的 数量 。 

通过 检查 汇编 代码 就 能 发 现 溢出 的 发 生 ， 例如， 在 八路 并 行 的 代码 的 第 一 个 循环 中 ， 我 们 看 到 
下 面 的 指令 序列 : 


type=INT, OPER = ' *' 
x6 in -12(%ebp), datati in Weax 
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1 movi -12 (ł%ebp),%edi Get x6 from stack 
2 imull 24 (%eax) , edi Multiply by data[i+6] 
3 movl %edi,-12(%*ebp) Put x6 back 


在 这 段 代 码 中 ,一 个 栈 的 位 置 被 用 来 存放 x6， 八 个 局 部 变量 中 的 一 个 被 用 来 累积 和 。 代 码 将 这 个 值 
加 载 到 一 个 寄存 器 中 ， 将 它 乘 以 一 个 数据 元 素 ， 然 后 再 存 回 到 同一 个 栈 的 位 置 中 。 作 为 一 条 通用 原 
则 ， 无 论 何 时 当 一 个 编译 了 的 程序 显示 出 在 某 个 频繁 使 用 的 内 循环 中 有 寄存 器 游 出 的 迹象 时 ， 它 都 
会 倾 问 于 重 写 代码 ， 使 之 需要 较 少 的 临时 值 。 通 过 减少 局 部 变量 的 数量 能 够 做 到 这 一 点 。 


练习 题 5.5 


面 给 出 的 是 根据 combine6 的 一 个 变种 产生 的 代码 ， 它 使 用 了 八 次 循环 展开 和 四 路 并 行 ， 
1 .L152: 

2 addi (%*eax) , %ecx 

3 addl 4(%eax), esi 

4 addl 8(%eax) , edi 

5 addl 12 (%eax) , tebx 
6 addl 16 (%eax) , tecx 
7 addl 20 (%eax) , %esi 
8 ) 
) 


addi 24 (%*eax) , %ed1 
9 addl 28 (%eax) , tebx 
10 addl $32, %eax 
11 addl $8,%edx 
12 cmpl -8(%ebp) , tedx 
13 jl .L152 


A. 什么 程序 变量 被 溢出 放 到 了 栈 中 ” 
B. 放 到 了 栈 中 的 什么 位 置 ? 
C. 为 什么 将 那个 溢出 值 放 到 栈 中 是 好 的 选择 呢 ”? 


使 用 泽 点 数据 时 ， 我 们 希望 将 所 有 的 局 部 变量 都 放 在 浮 点 寄存 器 栈 中 。 我 们 还 需要 保持 栈 顶 可 
用 于 从 存储 如 加 载 数据 。 这 限制 7 了 并行 度 小 于 或 等 于 7。 


5.10.3 ”对 并 行 的 限制 

对 于 我 们 的 基准 程序 ， 主 要 的 性 能 限制 是 由 于 功能 单元 的 能 力 。 如 图 5.12 所 示 ， 整 数 乘法 器 和 
浮 点 加 法 器 只 能 每 个 时 钟 周期 发 起 一 条 新 操作 。 这 , 加 上 对 加 载 单元 的 类 似 限制 , 将 这 些 情况 的 CPE 
限制 在 了 1.0。 浮 点 乘法 器 只 能 每 两 个 时 钟 周 期 发 起 一 条 新 操作 。 这 就 将 这 种 情况 的 CPE 限制 在 了 
2.0。 由 于 加 载 单 元 的 限制 ， 整 数 求 和 被 限制 在 了 CPE 1.0。 这 就 导致 了 下 面 对 达 到 的 性 能 与 理论 极 
限 之 间 的 比较 : 
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在 这 上 张 表 中 ， 为 每 种 情况 ， 我 们 都 选择 能 达到 最 佳 性 能 的 展开 和 并 行 的 组 合 。 对 于 整数 求 和 和 
乘积 以 及 浮 点 乘积 ， 我 们 能 够 接近 理论 极限 值 。 某 个 (或 某 些 ) 与 机 器 相关 的 因素 将 浮 点 滋 法 能 达 
到 的 CPE 限制 在 了 1.50， 而 不 是 理论 极限 值 1.0。 


练习 题 5.6 
考虑 下 面 的 计算 严 个 整数 的 数组 乘积 的 函数 。 我 们 三 次 展开 这 个 循环 。 


int aprod(int af], int n) 
{ 


int i, X, Y; Z; 


for (i = 0; 1 < n-2; i+= 3) { 
| 


x = ali]; y = ali+1]; z = afi+2]; 

r= r* x * y * z; /* Product computation */ 
} 
for (; 1 < nh; i++) 


return r; 


} 


Xt F 4k A Product computation 的 行 ， 我 们 可 以 用 括号 创建 出 计算 的 五 个 不 同 的 结合 ， 如 下 
所 示 : 


r= ((r * X) * y} * z; /* Al */ 
r= (r * (x * y)) * z; /* A2 */ 
r=r* ((x * y) * zy; /* AB */ 
r= r * (x * (y * Z))3 /* AG */ 
r= (r * x) * (y * z); /* AD */ 


我 们 在 Pentium IH 上 测试 了 函数 的 这 五 个 版 本 。 回 想 一 下 图 $.12， 在 这 种 机 器 上 整数 乘法 操 
作 的 执行 时 间 为 4 个 周期 ， 发 射 时 间 为 1 个 周期 。 

下 面 的 表 给 出 了 一 些 CPE 的 值 , MRT OE. 测量 出 的 CPE 值 是 实际 观测 到 的 .“ 理 论 CPE” 
的 意思 是 当 限 制 因 素 只 为 执行 时 间 和 整数 乘法 器 时 能 够 达到 的 性 能 . 


填写 出 漏 掉 的 条 目 。 对 于 漏 掉 的 CPE 的 度量 值 ， 你 可 以 使 用 来 自 其 他 有 相同 计算 行为 的 版 本 的 
值 . 对 于 CPE 的 理论 值 , 你 可 以 只 考虑 乘法 器 的 执行 时 间 和 发 射 时 间 , 确定 一 次 送 代 所 需 的 周期 数 ， 
然后 再 除 以 3, 
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5.11 综合 : 优化 合并 〈Combing) 代码 的 效果 小 结 


现在 ， 我 们 已 经 考虑 了 合并 《Combing ) 代码 的 六 个 版 本 ， 基 中 有 的 还 有 多 个 变种 。 让 我 们 和 暂 
停 一 下 ， 来 看 看 这 种 努力 的 整体 效果 ， 以 及 我 们 的 代码 是 如 何在 一 台 不 同 的 机 器 上 执行 的 。 图 5.27 
给 出 的 是 对 我 们 所 有 函数 以 及 几 个 其 他 变种 的 度量 性 能 。 正 如 看 到 的 那样 ， 我 们 只 要 简单 地 展开 特 
环 多 次 ， 就 能 达到 整数 求 和 的 最 大 性 能 ， 但 是 对 于 其 他 操作 ， 我 们 引入 一 些 (但 不 是 很 多 ) 并 行 性 。 
整体 性 能 达到 了 27.6 倍 ， 比 我 们 原始 的 代码 好 了 很 多 。 


combinel 未 优化 的 抽象 的 
combinel 抽象 的 -C2 
combine2 移动 vec_length 
combine3 直接 数据 访问 


combine4 累积 在 临时 变量 中 
combine5 ERF X4 
展开 X16 
combine6 展开 X2， 并 行 X2 
展开 X4， 并 行 X2 
展开 X8， 并 行 X4 


图 5.27 ”所 有 合并 范 数 的 结果 比较 
性 能 最 好 的 版 本 用 粗 体 表 示 。 


5.11.1 Atte E 

图 5.27 最 引 人 注 目的 特性 之 一 是 , 当 我 们 从 将 combine3 的 乘积 累积 在 存储 器 中 ,到 将 combines 
的 乘积 累积 在 一 个 浮 点 寄存 器 中 ， 浮 点 乘法 的 周期 数 急剧 下 降 。 通 过 这 么 一 点 小 小 的 改动 ， 代 码 运 
行 就 快 了 23.4 倍 。 当 出 现 这 样 一 种 出 乎 意料 的 结果 时 ， 猜 测 是 什么 可 能 引起 这 样 的 行为 ， 然 后 设计 
一 系列 试验 来 评估 这 个 假设 ， 这 是 很 重要 的 。 

当 我 们 得 看 这 张 表 时 ， 对 浮 点 乘法 的 情况 来 说 ， 如 果 将 结果 累积 在 存储 器 中 ， 好 像 有 点 奇怪 的 
事情 会 发 生 。 即 使 功能 单元 的 周期 数 是 相当 的 , 它 的 性 能 比 浮 点 加 法 或 整数 乘法 的 性 能 都 要 差 很 多 。 
在 一 个 IA32 处 理 器 上 ， 所 有 的 浮 点 操作 都 是 以 扩展 的 80 位 精度 执行 的 ， 而 浮 点 寄存 器 也 是 按照 这 
个 格式 存储 值 的 。 只 有 当 寄 存 器 中 的 值 写 入 存储 器 中 时 ,， 才 把 它 转换 成 32 位 ( 浮 点 数 ) 或 64 位 ( 双 
精度 ) 格式 。 | 

AERIANA PS, ARAARA TOWRA PRED 1024 的 向 量 上 执行 的 ， 
这 个 问 量 的 每 个 元 素 i 的 值 等 于 i+1。 因 此 ， 我 们 是 在 试图 计算 1024!， 它 大 约 是 5.4X 10°. IH 
大 的 一 个 数 可 以 用 扩展 精度 的 浮 点 格式 〈 它 可 以 表示 到 大 约 10 HH) 表示 ， 但 是 它 大 大 超出 了 
单 精度 (大 约 10”) RUER (大约 10) 能 表示 的 范围 。 当 我 们 到 达 =34 时 ， 单 精度 的 情况 就 会 
Hih To MARANER] i=171 时 , 双 精 度 的 情况 就 会 溢出 了 ,一 旦 我 们 达到 这 一 点 ,每 次 执行 combine3 
的 内 部 循环 中 的 语句 
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*dest = *dest OPER val; 


都 要 从 dest Pik(it+o, WCR Yal， 得 到 +oo， 然 后 将 它 存 回 到 dest。 很 明显 ， 这 个 计算 的 某 个 部 
分 需要 比 浮 点 乘法 所 要 的 正常 的 五 个 时 钟 周期 长 得 多 的 时 间 。 实际 上 ， 对 这 个 操作 进行 测试 ， 我 们 
发 现 用 一 个 数 乘 以 无 穷 大 会 花费 110~120 个 周期 。 很 可 能 ， 硬 件 察 觉 了 这 个 特殊 情况 ， 发 出 一 个 陷 
阱 (trap)， 它 会 使 一 个 软件 函数 执行 实际 的 计算 。CPU 设计 者 觉得 这 样 的 情况 会 非常 罕见 ， 以 至 于 
他 们 不 需要 用 硬件 设计 的 一 部 分 来 处 理 它 。 对 于 下 洲 也 会 发 生 类 似 的 行为 ， 

当 我 们 在 每 个 向 量 元 素 等 于 1.0 的 数据 上 运行 基准 程序 时 , 对 双 精 度 和 单 精 度 ,combine3 的 CPE 
都 达到 了 10.00 周期 。 这 与 对 其 他 数据 类 型 和 操作 进行 度量 到 的 时 间 更 加 一 致 ， 而 且 与 combine4 的 
时 间 也 是 相当 的 。 

这 个 示例 说 明了 评估 程序 性 能 的 一 个 挑战 ， 原 本 看 上 去 无 是 轻重 的 数据 和 操作 条 件 能 严重 地 影 
啊 测 量 结果 。 


5.11.2 ”变换 平台 

虽然 我 们 是 在 一 个 特殊 的 机 器 和 编译 器 环境 中 讲述 我 们 的 优化 策略 的 ， 但 是 通用 的 原则 也 适用 
于 其 他 机 器 和 编译 器 。 当 然 ， 最 优 的 策略 可 能 是 与 机 器 相关 的 。 作 为 一 个 示例 ， 图 5.28 给 出 的 是 
Compaq Alpha 21164 处 理 器 在 与 图 5.27 中 所 示 的 Pentium II 相当 的 条 件 下 的 性 能 结果 。 EMA 
用 的 是 Compaq C 编译 器 生成 的 代码 ， 它 使 用 了 比 GCC 更 多 的 高 级 优化 。 我 们 观察 到 ， 随 痢 我 们 治 
着 表 往 下 走 ， 周 期 时 间 通 常会 降低 ， 就 像 对 其 他 机 器 一 样 。 我 们 看 到 ， 我 们 能 有 效 地 运用 更 高 程度 
(八路 ) 的 并 行 ， 这 是 因为 Alpha 有 32 个 整数 和 32 个 浮 点 寄存 器 。 正 如 这 个 例子 说 明 的 那样 ， 程 
序 优化 的 通用 原则 对 各 种 不 同 的 机 器 者 适用， 即使 某 种 特殊 的 特性 组 合 会 导致 最 优 性 能 依赖 于 特殊 
的 机 器 。 


未 优化 的 抽象 的 
抽象 的 -02 
移动 vec_length 
直接 数据 访问 
累积 在 临时 变量 中 
展开 X4 

展开 X 16 

展开 X4， 并 行 xX2 
展开 X8， 并 行 X4 
展开 X8， 并 行 X8 


RI: 最 好 36.2 11.4 22.3 26.7 | 


5.28 PASH ARSE Compaq Alpha 21164 处 理 器 上 的 结果 比较 
同样 的 通用 优化 技术 在 这 种 机 器 上 也 有 用 。 


combinel 


combinel 


combine2 


combine3 


combined 


combine5 


combines 
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5.12 分支 预测 和 预测 镜 误 处 罚 


下 如 我 们 前 面 提 到 过 的 ， 现 代 处 理 器 在 执行 当前 指令 之 前 能 工作 得 很 好 ， 从 存储 融 读 新 指令 ， 
并 解码 指令 ， 以 确定 在 什么 操作 数 上 执行 什么 操作 。 只 要 指令 遵循 的 是 一 种 简单 的 顺序 ， 那 么 这 种 
指令 流水 线 化 (instruction pipeline) 就 能 很 好 地 工作 。 不 过 ， 当 遇 到 分 支 的 时 候 ， 处 理 器 必须 猜测 
分 文 该 住 哪个 方向 走 。 对 于 条 件 转移 的 情况 , 这 意味 着 要 预测 是 否 会 选择 分 支 。 对 于 像 间 接 跳 转 (就 
像 我 们 在 代码 中 看 到 的 ， 跳 转 到 由 一 个 跳 转 表 条 目 指 定 的 地 址 ) 或 过 程 返回 这 样 的 指令 ， 这 意味 看 
预测 目标 地 址 。 在 这 里 ， 我 们 集中 讨论 条 件 分 支 。 

在 一 个 使 用 投机 执行 (speculative execution) 的 处 理 嚣 中， 处理 器 会 开始 执行 预测 的 分 支 目标 
处 的 指令 。 它 这 样 做 的 方式 是 ， 避 免 修改 任何 实际 的 寄存 器 或 存储 器 位 置 ， 直 到 确定 了 实际 的 结果 。 
如 果 预 测 是 正确 的 ， 处 理 器 就 简单 地 “提交 ”投机 执行 的 指令 的 结果 ， 把 它们 存储 到 寄存 器 或 存储 
铬 中 。 如 果 预 测 是 错误 的 ， 处 理 占 必须 丢弃 掉 所 有 投机 执行 的 结果 ， 在 正确 的 位 置 ， 重 新 开始 取 指 
令 的 过 程 。 这 样 做 会 引起 很 大 的 分 支 处 罚 (branch penalty)， 因 为 在 产生 有 用 的 结果 之 前 ， 必 须 重新 
填 苑 指令 流水 线 。 

百 到 最 近 ， 文 持 投 机 执行 所 需 的 技术 都 被 认为 是 开销 太 大 ， 对 除了 最 高 级 的 超级 计算 机 以 外 的 
所 有 机 器 来 说 都 是 异乎 寻常 的 。 不 过 大 约 从 1998 年 开始 , 集成 电路 技术 使 得 可 以 在 一 块 芯片 上 放置 
如 此 之 多 的 电路 ， 以 至 于 有 些 电路 可 以 专门 用 来 支持 分 文 预测 和 投机 执行 。 到 目前 ， 台 式 机 或 服务 
器 中 几乎 每 个 处 理 器 都 支持 投机 执行 。 

在 优化 我 们 的 合并 过 程 中 ， 我 们 没有 看 到 循环 结构 对 性 能 的 任何 限制 。 也 就 是 ， 看 上 去 对 性 能 
惟一 的 限制 因素 是 由 于 功能 单元 。 对 于 这 个 过 程 处 理 ， 处 理 器 通常 能 够 预测 循环 结尾 处 的 分 支 的 方 
问 。 实 际 上 ， 如 果 处 理 器 总 是 预测 会 选择 分 支 ， 那 么 除了 对 最 后 一 次 迭代 以 外 ， 它 都 是 对 的 。 

和 人们 已 经 提出 了 许多 方法 来 预测 分 支 ， 而 且 对 这 些 方法 的 性 能 也 进行 了 很 多 研究 。 一 种 常见 的 
月 发 式 方法 是 预测 任意 到 较 低 地 址 的 分 支 都 会 被 选择 ， 而 任何 到 较 高 地 址 的 分 支 则 不 会 。 到 较 低 地 
址 的 分 文 是 用 来 关闭 循环 的 ， 因 为 循环 通常 会 执行 多 次 ， 预 测 这 些 分 支 会 被 选择 是 个 好 主意 。 另 一 
方面 ， 前 回 分 支 是 用 于 条 件 计算 的 。 实 验 表 了 明 后 同 选择 、 前 向 不 选择 的 启发 式 方法 在 大 约 65% 的 时 
间 里 是 正确 的 ， 而 预测 所 有 的 分 支 都 会 被 选择 的 成 功率 只 为 大 约 60% 。 也 有 更 加 复杂 的 策略 ， 需 要 
更 多 的 硬件 。 例 如 ，Intel Pentium I 和 II 处 理 器 使 用 的 分 支 预测 策略 声称 在 90% 一 95% 的 时 间 里 都 
是 正确 的 。 

我 们 可 以 进行 实验 来 测试 处 理 器 的 分 支 预测 的 能 力 ， 以 及 预测 错误 的 代价 。 我 们 用 图 5.29 中 所 
示 的 绝对 值 函 数 作为 我 们 的 测试 示例 。 这 幅 图 还 给 出 了 编译 后 的 形式 。 对 于 非 负 的 参数 ， 分 支 会 被 
选择 ， 以 略 过 为 负 时 的 指令 。 我 们 对 这 个 计算 一 个 数组 中 每 个 元 素 绝对 值 的 函数 计时 ， 这 个 数组 是 
H+) 和 -1 的 各 种 模式 组 成 的 。 对 于 规则 的 模式 (例如 ， 全 +1、 全 -1 或 交替 的 +1 和 -1)， 我 们 发 现 
Pa BM is HE 13.01 一 13.41 个 周期 。 我 们 以 此 作为 我 们 完美 分 支 条 件 下 性 能 的 估计 值 。 对 于 “个 设置 为 
+1 和 -1 的 随机 模式 的 数组 , 我 们 发 现 函 数 需要 20.32 个 周期 。 随机 处 理 的 一 个 原则 是 无 论 用 什么 策 
略 来 猜测 值 的 序列 ， 如 果 底 层 的 处 理 是 真正 随机 的 ， 那 么 我 们 只 可 能 有 50% 的 时 间 是 正确 的 。 例如， 
无 论 一 个 人 用 什么 策略 来 猜 扔 硬币 的 结果 ， 只 要 扔 硬币 是 公平 的 ， 成 功 的 概率 就 只 能 是 0.5。 因 而 ， 
我 们 可 以 看 到 ， 这 个 处 理 器 预测 错误 的 分 支 会 引起 大 约 14 个 时 钟 周 期 的 处 罚 ， 因 为 50% 的 预测 错 
误 率 会 叶 致 函数 运行 平均 慢 7 个 周期 。 意 思 就 是 说 ， 对 absval 的 调用 依据 分 支 预测 的 成 功率 ， 需 要 
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13~27 个 周期 。 
code/opt/absval.c 
1 int absval(int val) 
2 { 
3 return (val<Q) ? -val : val; 
4 } 
ing code/opt/absval.c 
Ca) C 代码 
1 absval: 
2 pushl %ebp 
3 movl %esp, tebp 
4 movl 8(%ebp) , eax Get val 
5 testl teax, teax Test it 
6 jge .L3 If >0, goto end 
7 negl %eax Else, negate it 
8 .L3: end: 
9 movl gebp ,%esp 
10 popi %*ebp 
11 ret 
(b) 汇编 代码 


图 5.29 绝对 值 代码 
我 们 用 这 段 代 码 来 测量 分 支 预 测 错误 的 代价 。 


14 个 周期 的 处 神 是 相当 大 的 。 例 如 ， 如 果 我 们 的 预测 准确 率 只 有 6$%， 那 么 对 每 个 分 支 指令 ， 
处 理 器 平均 会 浪费 14X0.35=4.9 周期 。 即 使 是 Pentium I Al II 声称 的 预测 准确 率 是 90 多 一 95% ， 由 
于 预测 错误 ,每 个 分 支 都 会 浪费 大 约 1 个 周期 。 对 实际 程序 的 研究 表明 , 在 典型 的 “整数 ”程序 (也 
网 是 ， 那 些 不 处 理 小 数 数 据 的 程序 ) 中 ， 分 支 大 约 占 到 了 所 有 执行 指令 的 15%， 而 在 典型 的 小 数 程 
序 中 ， 分 支 大 约 占 3%~12% [33]。 因 此 ， 由 于 低 效 率 的 分 支 处 理 造 成 的 任何 时 间 浪 费 都 能 对 处 理 
an tt Ber ELA BY 

许多 与 数据 相关 的 分 支 是 根本 不 能 预测 的 。 例 如 ， 没 有 任何 依据 猜测 我 们 绝对 值 函 数 的 一 个 参 
数 是 正 数 还 是 负数 。 为 了 提高 包括 条 件 求 值 代码 的 性 能 ， 许 多 处 理 器 设计 被 扩展 来 包括 条 件 传 送 
(conditional move) 指令 。 这 些 指令 允许 某 些 形式 的 条 件 句 不 需要 任何 分 支 语句 就 能 实现 。 

在 IA32 指令 集中 , 从 PentiumPro 开始 增加 了 许多 不 同 的 cmov 指令 .最 近 所 有 的 Intel 和 与 Intel 
兼容 的 处 理 器 都 支持 这 些 指令 ， 它 们 执行 的 操作 类 似 于 CRE: 

if (COND) 

x = Y; 

这 里 y 是 源 操 作 数 ， 而 x 是 目的 操作 数 。 条 件 COND 确定 是 否 要 执行 拷贝 操作 ， 它 是 基于 条 件 
码 值 的 某 种 组 合 的 ， 类 似 于 测试 和 条 件 转移 指令 。 作 为 一 个 示例 ， 当 条 件 码 表明 一 个 值 小 于 ON, 
cmovll 指令 执行 一 个 拷贝 。 注 意 ， 这 条 指令 的 第 一 个 “1” 表 示 “jless《〈 小 于 )”， 而 第 二 个 “1” 是 
GAS 表示 长 字 的 后 缀 。 
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下 面 的 汇编 代码 展示 了 如 何 用 条 件 传送 来 实现 绝对 值 ; 


1 movl 8(%ebp) , teax Get val as result 

2 movl %teax, %edx Copy to %edx 

3 negl %edx Negate %edx 

4 testl %teax, teax Test val 

5 Conditionally move Yoedx to peax 

6 cmovll %tedx, $eax If < 0, copy %edkx to result 


正如 这 段 代码 表明 的 那样 ， 策 略 是 将 val 设置 为 返回 值 ， 计 算 -val， 并 当 val 为 负 时 ， 有 条 件 地 
将 它 传送 到 寄存 器 %eax 以 改变 返回 值 。 我 们 对 这 段 代 码 的 测试 表明 无 论 数据 模式 怎样 ， 它 都 运行 
13.7 个 周期 。 该 整体 性 能 明显 地 好 于 需要 13~27 个 周期 的 过 程 。 


练习 题 5.7 
体 的 一 个 朋友 写 了 一 个 利用 条 件 传送 指令 的 优化 编译 器 。 你 试 着 编译 下 面 的 C 代码 ， 


1 /* Dereference pointer or return 0 if null */ 


2 int deref(int *xp) 

3 { 

4 return xp ? *xp : 0; 

5 } 

编译 器 为 过 程 体 产生 下 面 的 代码 。 

1 movl 8(%ebp) ,sedqx Get xp 

2 movi (%edx),%eax Get *xp as result 

3 testl %tedx, tedx Test xp 

4 cmovll tedx, eax If 0, copy 0 to result 


解释 一 下 为 什么 这 段 代 码 提 供 的 不 是 deref 的 合法 实现 . 


GCC 目前 的 版 本 不 用 条 件 传送 来 产生 任何 代码 。 由 于 期 望 与 以 前 的 486 和 Pentium 4b H 48 fk 
HA, 编译 器 不 利用 这 些 新 特性 。 在 我 们 的 试验 中 ,我 们 使 用 的 是 上 面 所 示 的 手写 的 汇编 代码 。 
由 于 代码 生成 的 质量 更 糟糕 ， 一 个 使 用 GCC 工具 在 C 程序 中 榜 入 汇编 代码 的 版 本 需要 17.1 个 周 
期 。 

不 幸 的 是 ，C 程序 员 对 改进 一 个 程序 的 分 支 性 能 是 无 能 为 力 的 ， 除 了 意识 到 数据 相关 的 分 支 会 
引起 性 能 上 很 高 的 花费 。 除 此 之 外 ， 程 序 员 对 编译 器 产生 的 详细 的 分 支 结构 几乎 没有 什么 控制 ， 很 
难 使 分 文 更 容易 预测 一 些 。 最 终 ， 我 们 必须 依靠 两 种 因素 的 结合 ， 一 是 编译 器 生成 好 的 代码 ， 尺 量 
减少 条 件 分 支 的 使 用 ; 另 一 个 是 处 理 器 有 效 地 分 支 预测 ， 降 低 分 支 预测 错误 的 数量 。 


5.13 ”理解 存储 器 性 能 


到 目前 为 止 我 们 与 的 所 有 代码 ,以 及 我 们 运行 的 所 有 测试 ， 对 存储 器 的 需求 都 相对 较 少 。 例如， 
我 们 都 是 在 长 度 为 1024 的 向 量 上 测试 那些 合并 函数 ， 数 据 量 不 会 超过 8096 字 节 。 所 有 的 现代 处 理 
器 都 包含 一 个 或 多 个 高 速 缓存 (cache) 存储 器 ， 以 提供 对 这 样 少量 的 存储 器 的 快速 访问 。 图 5.12 
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ATS TY AB aR ES EMRE PH. ER 6 章 中 ， 我 们 会 更 详细 地 探究 高 速 组 
存 是 如 何 工 作 的 ， 以 及 如 何 编写 充分 利用 高 速 缓存 的 代码 。 

在 本 节 中 ， 我 们 会 进一步 研究 加 载 和 存储 操作 的 性 能 ， 我 们 仍然 假设 被 读 或 写 的 数据 是 在 总 速 
缓存 中 的 。 如 图 5.12 所 示 ， 这 两 个 单元 的 执行 时 间 都 为 3， 而 发 射 时 间 为 1。 迄今 为 赴 我 们 的 所 有 
程序 都 只 用 了 加 载 操作 ， 都 有 这 样 一 个 属性 ， 一 条 加 载 操 作 的 地 址 依赖 于 对 某 个 寄存 器 执行 增加 操 
作 ， 而 不 是 依赖 于 另 一 条 加 载 操 作 的 结果 。 因 此 ， 如 图 5.15~ Ay 5.18. K 5.21 和 图 5.26 所 示 ， 寺 
载 操作 能 利用 流水 线 化 ， 每 个 时 钟 周期 开始 新 的 加 载 操作 。 加 载 操 作 相 对 较 长 的 执行 时 间 对 程序 性 
能 没有 任何 负面 影 啊 ， 


5.13.1 ”加载 的 执行 时 间 

作为 一 个 性 能 受 加 载 操 作 执 行 时 间 限 制 的 代码 示例 ， 考 虑 函数 list_len， 如 图 5.30 Prax. XAR 
数 计算 的 是 一 个 链表 的 长 度 .。 在 该 函数 的 循环 中 , 变量 ls 的 每 个 连续 的 值 都 依赖 于 指针 引用 1s->next 
读 出 的 值 。 我 们 的 测试 表明 函数 list_len 的 CPE 为 3.0, 我 们 认为 这 是 加 载 操 作 执行 时 间 的 直接 反映 。 
为 了 说 明 这 一 点 ， 来 考虑 这 个 循环 的 汇编 代码 ， 以 及 它 的 第 一 次 迭代 到 操作 的 翻译 ， 


L27: 


incl %eax incl $eax.9 
movl (%edx), tedx load (%edx.0Q) 
testl tedx, tedx testl tedx.1,%edx.1 
ne .L27 jne-taken cc.1 
code/opt/list.c 
1 typedef struct ELE { 
2 Struct ELE *next; 
3 int data; 
4 } list_ele, *list_ptr; 
5 
6 int list_len(list_ptr is} 
7 { 
8 int len = 0; 
9 
10 for (; ls; ls = 1ls->next) 
11 len++; 
12 return len; 
13 } 
UncodeopiiSshc 
图 5.30 HRA 
XAS A T DRR RAE A BT T 


寄存 器 %edx 的 每 个 连续 的 值 都 依赖 于 一 个 以 %edx 作为 操作 数 的 加 载 操作 的 结果 。 图 5.31 给 出 的 
是 这 个 函数 头 三 次 迭代 的 操作 的 调度 。 正 如 看 到 的 那样 ， 雪 载 操作 的 执行 时 间 将 CPE 限制 在 了 3.0. 
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9.13.2 


*eax.3 


周期 


图 3.31 链表 长 度 函 数 的 操作 的 调度 
加 载 操 作 的 执行 时 间 将 CPE 的 最 小 值 限制 在 了 3.0. 


存储 的 执行 时 间 


在 迄今 为 止 我 们 所 有 的 示例 中 ， 我 们 只 通过 使 用 加 载 操 作 从 一 个 存储 器 位 置 读数 据 到 一 个 寄存 
器 中 来 与 存储 器 交互 。 与 之 对 应 的 ， 存 储 (store) 操作 将 一 个 寄存 器 值 写 到 存储 器 。 正 如 图 5.12 表 
明 的 那样 ， 这 个 操作 名 义 上 的 执行 时 间 也 是 三 个 周期 ， 发 射 时 间 为 一 个 周期 。 不 过 ， 它 的 行为 以 及 
它 与 加 载 操 作 的 交互 有 几 个 微妙 的 问题 。 
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code/opt/copy.c 
/* Set element of array to 0 */ 
void array_clear(int *src, int *dest, int n) 
{ 


int i; 


for (1 = 0 


: n: i++) 
dest[1] 


l < 
= Q; 
} 


/* Set elements of array to 0, unrolling by 8 */ 
void array_clear_8(int *src, int *dest, int n) 
{ 

int 1; 

int len =n - 7; 
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16 for (i = 0; 1 < len; i1+=8) { 
17 dest[i] = 0; 
18 dest[i+1] = 0; 
19 dest[i+2] = 0; 
20 dest [i+3] = 0; 
21 dest[i+4] = 0; 
22 dest [1+5] = 0; 
23 dest[i+6j) = Q; 
24 dest [1I+7] = 0; 
25 } 
26 for (; i < ns i++) 
a7 dest[i] = 0; 
28 } 
code/opt/copy.c 
图 5.32 SRAM AR 
这 说 明了 存储 操作 的 流水 线 化 。 


与 加 载 操作 一 样 ， 在 大 多 数 情况 中 ， 存 储 操 作 能 够 在 完全 流水 线 化 的 模式 中 工作 ， 每 个 周期 开 
始 一 条 新 的 存储 。 例 如 ， 考虑 图 5.32 中 所 示 的 函数 ,它们 将 一 个 长 度 为 n 的 数组 dest MIR RAN 
0。 我 们 对 这 第 一 个 版 本 的 测试 表明 CPE 为 2.00。 因 为 每 次 迭代 都 需要 一 个 存储 操作 ， 所 以 很 明显 
处 理 器 至 少 每 2 个 周期 能 够 开始 一 条 新 的 存储 操作 。 为 了 进一步 探究 , 我 们 试 着 展开 这 个 循环 八 次 ， 
如 array_clear_8 的 代码 所 示 。 对 于 这 个 函数 ， 我 们 测量 得 到 CPE 1.25。 也 就 是 ， 每 次 迭代 需要 大 约 
10 个 周期 ， 并 发 射 8 个 存储 操作 。 因 此 , 我 们 几乎 已 经 达到 每 个 周期 一 条 新 存储 操作 的 最 优 极限 了 。 

同 到 目前 为 止 我 们 已 经 考虑 过 的 其 他 操作 不 同 ， 存 储 操作 并 不 影响 任何 寄存 器 值 。 因 此 ， 就 其 
本 性 来 说 ,一 系列 存储 操作 一 定 是 相互 独立 的 。 实 际 上 ， 只 有 一 条 加 载 操 作 是 受 一 条 存储 操作 结果 
影响 的 ， 因 为 只 有 一 条 加 载 操 作 能 从 由 存储 操作 写 的 那个 存储 器 位 置 读 回 值 。 图 5.33 所 示 的 函数 
write_read 说 明了 加 载 和 存储 操作 之 间 可 能 的 相互 影响 。 这 幅 图 也 展示 了 该 函数 的 两 个 示例 执行 ， 
是 对 两 元 素数 组 a 调用 的 ， 该 数组 的 初始 内 容 为 -10 和 17， 参 数 cnt 等 于 3。 这 些 执行 说 明了 加 载 和 
存储 操作 的 一 些微 妙 之 处 。 

在 图 5.33 的 示例 A 中 ， 参 数 src 是 一 个 指向 数组 元 素 a[0] 的 指针 ， 而 dest 是 一 个 指向 数组 元 素 
a[1] 的 指针 。 在 此 种 情况 中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 值 -10。 因 此 ， 在 两 次 欠 代 之 后 ， 数 
组 元 素 就 会 分 别 保持 固定 为 -10 和 -9。 从 src 读 出 的 结果 不 受 对 dest 的 写 的 影 啊 。 在 较 大 次 数 的 迭 
代 上 测试 这 个 示例 得 到 CPE 2.00. 

在 图 5.33 Ca) 的 示例 B 中 ， 参 数 src 和 dest 都 是 指向 数组 元 素 a[0] 的 指针 。 在 此 种 情况 中 ， 指 
针 引 用 *src 的 每 次 加 载 都 会 得 到 指针 引用 *dest 的 前 次 执行 存储 的 值 。 因 而 ， 一 系列 不 断 增 加 的 值 会 
被 存储 在 这 个 位 置 。 通 常 ， 如 果 调 用 函数 write_read 时 参数 sre 和 dest 指向 同一 个 存储 器 位 置 ， 而 
参数 cnt HHA n>0， 那 么 净 效 果 是 将 这 个 位 置 设置 为 n-1。 这 个 示例 说 明了 一 个 现象 我们 称 之 为 
写 / 读 相关 【〈write/read dependency) 一 一 一 个 存储 器 读 的 结果 依赖 于 一 个 非常 近 的 存储 器 写 。 我 们 
的 性 能 测试 表明 示例 B 的 CPE 为 6.00。 写 / 读 相关 导致 处 理 速度 的 下 降 。 


code/opt/copy.c 
1 /* Write to dest, read from src */ 


2 void write_read{int *src, int *dest, int n) 
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3 | 

4 int cnt = n; 

5 int val = 0; 

6 

7 while (cnt--) { 

8 *dest = val; 

9 val = (*src)4l1; 
10 } 

11 } 


code/opt/copy.c 


ANP A: write read(&a[0],&a[1],3) 


图 5.33 ” 写 和 读 存储 器 位 置 的 代码 以 及 示例 执行 
这 个 函数 强调 的 是 当 参 数 sre 和 dest 相等 时 ， 存 储 和 加 载 之 间 的 相互 影响 。 


为 了 了 解 处 理 器 是 如 何 区 别 这 两 种 情况 的 ， 以 及 为 什么 一 种 情况 比 另 一 种 运行 得 慢 ， 我 们 必须 
更 加 仔细 地 看 看 加 载 和 存储 执行 单元 , 如 图 5.34 所 示 。 存储 单元 包含 一 个 存储 缓冲 区 (store buffer), 
它 包含 已 经 被 发 射 到 存储 单元 而 又 还 没有 完成 存储 操作 的 地 址 和 数据 ， 这 里 的 完成 包括 更 新 数据 高 
速 组 存 。 提 供 这 样 一 个 缓冲 区 ， 使 得 一 系列 存储 操作 不 必 等 待 每 个 操作 更 新 高 速 缓 存 就 能 够 执行 。 
当 一 条 加 载 操作 发 生 时 ， 它 必须 检查 存储 缓冲 区 中 的 条 上 且 ， 看 有 没有 地 址 相距 配 。 如 果 有 地 址 相 匹 
配 ， 它 就 取出 相应 的 数据 条 上 且 作为 加 载 操 作 的 结果 。 

其 中 内 循环 的 汇编 代码 和 它 的 第 一 次 迭代 到 操作 的 翻译 如 下 所 示 : 


$edx, (%ecx} storeaddr (%*ecx} 

Storedata tedx.0 
($ebx} , tedx load (%ebx) $edx.la 
$edx incl %edx.la %edx.1b 


%$eax deci Seax.0 - ‘teax.l 


~L32 jne-taken cc.l 
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图 3.34 ”加 载 和 存储 单元 的 细节 
存储 单元 包含 一 个 未 执行 的 写 的 缓冲 区 。 加 载 单元 必须 检查 它 的 地 址 是 否 与 存储 单元 中 的 地 址 相符 ， 以 发 现 写 / 读 相 关 。 


我 们 看 到 ， 这 里 movl tedx, (Secx) 被 翻译 成 两 个 操作 ，storeaddr 指令 计算 存储 操作 的 地 址 ， 
创建 一 个 存储 缓冲 区 中 的 条 目 ， 并 设置 该 条 目的 地 址 字段 ，storedata 指令 设置 该 条 目的 数据 字段 。 
因为 只 有 一 个 存储 单元 , 而 存储 操作 是 按照 程序 顺序 处 理 的 , 所 以 两 个 操作 如 何 协调 是 没有 歧义 的 。 
正如 我 们 看 到 的 那样 ， 这 两 个 计算 的 执行 是 相互 独立 的 这 一 事实 对 程序 性 能 来 说 可 能 很 重要 。 

图 5.35 给 出 了 对 于 示例 A 的 情况 ，write_read HALAERE FSF. W storeaddr 和 load 
操作 之 间 的 虚线 表明 的 那样 ，storeaddr 操作 创建 一 个 存储 缓冲 区 中 的 条 目 ， 然 后 load 会 检查 这 个 条 
目 。 因 为 这 两 个 操作 并 不 等 价 ， 所 以 load 操作 会 继续 从 高 速 缓存 中 读数 据 。 虽 然 存 储 操作 还 没有 完 
成 ， 处 理 器 仍然 能 发 现 它 影 响 的 存储 器 位 置 不 同 于 加 载 正 试图 读 的 位 置 。 第 二 次 迭代 仍 会 重复 这 个 
过 程 。 这 里 ， 我 们 能 看 到 storedata 操作 必须 等 待 ， 直 到 加 载 和 增加 了 前 一 次 迭代 的 结果 ,在 此 之 前 
很 人 人，storeaddr 操作 和 load 操作 可 以 比较 它们 的 地 址 是 否 相同 ， 确 定 它们 是 不 同 的 ， 就 允许 加 载 操 
作 继 续 进 行 。 在 我 们 的 计算 图 中 ， 展 示 了 第 二 次 迭代 的 加 载 就 在 第 一 次 达 代 的 加 载 后 1 个 周期 开始 
执行 。 如 果 继 续 更 多 的 迭代 ， 我 们 就 会 发 现 这 个 图 表明 CPE 为 1.0。 很 明显 ， 某 个 其 他 的 资源 约束 
将 实际 性 能 限制 在 了 CPE 2.0 上 。 

图 5.36 给 出 了 对 于 示例 B 的 情况 ，write_read 的 头 两 次 达 代 操作 的 时 序 。 同 样 地 ，storeaddr 和 
load 操作 之 间 的 虚线 表明 , storeaddr 操作 创建 一 个 存储 缓冲 区 中 的 条 目 , 然后 load 会 检查 这 个 条 目 。 
因为 这 些 条 日 都 是 一 样 的 ， 所 以 加 载 必须 等 待 ， 直 到 storedata 操作 完成 ， 然 后 它 再 从 存储 缓冲 区 中 
获得 数据 。 这 个 等 待 在 图 中 是 以 load 操作 加 长 了 的 方 框 来 表示 的 ,此 外 , 我 们 展示 了 一 条 从 storedata 
到 load 操作 的 虚线 箭头 ， 它 表明 storedata 的 结果 被 传递 到 load 作为 它 的 结果 。 我 们 这 些 操 作 的 时 
FAI TEHER CPE 为 6.0。 不 过 ， 这 样 的 时 序 确切 地 是 如 何 出 现 的 ， 还 不 是 完全 清楚 ， 所 以 这 
些 图 只 是 示意 说 明 性 的 ， 而 不 是 实际 的 。 通常 ， 处 理 器 /存储 器 接口 是 处 理 器 设计 中 最 复 扫 的 部 分 之 
一 。 不 僵 阅 详细 的 文档 和 使 用 机 器 分 析 工 具 ， 我 们 只 能 给 出 实际 行为 的 -~ 个 假想 的 描述 。 

如 这 两 个 例子 所 示 ， 存 储 器 操作 的 实现 包含 很 多 细微 的 问题 。 对 于 寄存 器 操作 ， 在 指令 解码 成 
操作 时 ， 处 理 器 就 可 以 确定 哪些 指令 会 影响 另外 哪些 指令 。 另 一 方面 ， 对 于 存储 器 (或 内 存 ) 操作 ， 
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住 加载 和 存储 地 址 被 计算 出 来 之 前 ， 处 理 器 都 不 能 预测 哪些 指令 会 影响 男 外 哪些 指令 。 由 于 存储 器 
操作 占 到 了 程序 很 大 的 一 部 分 ， 和 存储 器 子 系统 被 优化 成 以 独立 的 存储 器 操作 来 提供 更 大 的 并 行 性 。 


Yeax.o 
yedx.0 


store store Ne Riis ; J ae 
3 store 
h 7 | | addr 
oe = en E a bOGX La i 7 he ane 


| decl | ‘eax. 2 
ce. 


周期 
p 


TRI 


EK 2 
图 5.35 对 示例 人 的 write_reag 的 时 序 
存储 和 加 载 操 作 有 不 同 的 地 址 ， 因 此 可 以 不 等 待 存储 就 进行 加 载 。 


edx. 0 ie a bE 


rie 


a | | dec! ER , teax.1 a 


| : store | store g : | at 
i “| data addr i i Linc | _ 


*f aX. 2 


周期 


图 5.36 ”对 示例 B 的 write read 的 时 序 
存储 和 加 载 操 作 有 相同 的 地 址 ， 因 此 加 载 必 须 等 待 ， 直 到 它 可 以 从 存储 获得 结果 了 。 
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练习 题 5.8 
作为 另 一 个 具有 游 在 的 加 载 -存储 相互 影响 的 代码 , 考虑 下 面 的 函数 , 它 将 一 个 数组 的 内 容 拷贝 
到 男 一 个 数组 : 


1 void copy_array(int *src, int *dest, int n) 
2 

3 int i; 

4 

5 for (i = 0; i < n; i++) 

6 dest[i] = src[il; 

- 


} 

假设 a 是 一 个 长 度 为 1000 的 数组 ， 它 被 初始 化 为 每 个 元 素 a 名 等 于 i. 

A. 调用 copy_array(a+1, a, 999) 的 效果 是 什么 ? 

B. 调用 copy_array(a, a+1, 999) 的 效果 是 什么 ? 

C. 我 们 的 性 能 测试 表明 问题 A 调用 的 CPE 为 3.00, 而 问题 B 调用 的 CPE 为 5.00. 你 认为 是 什 
么 因素 造成 了 这 样 的 性 能 差异 ? 

D. 调用 copy_array(a, a, 999) 的 性 能 会 是 怎样 的 ” 


5.14 现实 生活 : 性 能 提高 技术 

虽然 我 们 只 考虑 了 有 限 的 一 组 应 用 程序 ， 但 是 我 们 能 得 出 关于 如 何 编写 高 效 代码 的 很 重要 的 经 
验 教训 。 我 们 已 经 描述 了 许多 优化 程序 性 能 的 基本 集 略 : 

1. 高 级 设计 。 为 手边 的 问题 选择 适当 的 算法 和 数据 结构 。 要 特别 警觉 ， 避 免 使 用 会 渐进 地 产生 
糟糕 性 能 的 算法 或 编码 技术 。 

2. 基本 编码 原则 。 避 免 限 制 优化 的 因素 ， 这 样 编译 器 就 能 产生 高 效 的 代码 。 

e 消除 连续 的 函数 调用 。 在 可 能 时 ， 将 计算 移 到 循环 外 。 考 虑 有 选择 的 妥协 程序 的 模块 性 以 
获得 更 大 的 效率 。 
消除 不 必要 的 存储 器 引用 。 引 入 临时 变量 来 保存 中 间 结 果 。 只 有 在 最 后 的 值 计 算出 来 时 ， 
才 将 结果 存放 到 数组 或 全 局 变量 中 。 

3. 低级 优化 。 

e 尝试 各 种 与 数组 代码 相对 的 指针 形式 。 

e 通过 展开 循环 降低 循环 开销 。 

e 通过 诸如 迭代 分 割 之 类 的 技术 ， 找 到 使 用 流水 线 化 的 功能 单元 的 方法 。 

要 给 读者 最 后 的 忠告 是 ， 要 小 心 避 免 花费 精力 在 令 人 误解 的 结果 上 。 一 项 有 用 的 技术 是 ， 在 优 
化 代码 时 使 用 检查 代码 (checking code) 来 测试 代码 的 每 个 版 本 ， 以 确保 在 这 -过 程 中 没有 引入 错 
Rm. 检查 代码 将 一 系列 测试 应 用 到 程序 上 ， 确 保 它 得 到 期 望 的 结果 。 当 引入 新 的 变量 ， 改 变 循环 边 
界 ， 以 及 使 代码 整体 更 复杂 时 ， 很 容易 出 错 。 此 外 ， 注 意 到 性 能 上 任何 不 同 寻 常 的 或 出 平 意 料 的 变 
化 是 很 重要 的 。 正 如 我 们 已 经 表明 的 那样 ， 由 于 性 能 异常 ， 基 准 数 据 的 选择 能 够 在 性 能 比较 中 造成 
很 大 的 差异 ， 因 为 我 们 只 执行 短 指令 序列 。 
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5.15 确认 和 消除 性 能 瓶颈 


到 些 刻 为 止 ， 我 们 只 考虑 了 优化 小 的 程序 ， 在 这 样 的 小 程序 中 ， 需 要 优化 的 地 方 很 清楚 。 在 处 
理 大 程序 时 ， 甚 至 于 很 难 知 道 应 该 优化 什么 。 在 本 节 中 ， 我 们 会 描述 如 和 何 使 用 代码 剖析 程序 (code 
Profiters );， 这 是 在 程序 执行 时 收集 性 能 数据 的 分 析 _ 工 具 。 我 们 还 展示 了 一 个 系统 优化 的 通用 原则 ， 
BRAY Amdahl 定律 ( Amdahl’s law). 


5.15.1 程序 剖析 

程序 齐 析 (profiling) 包括 运行 程序 的 这 样 一 个 版 本 ， 其 中 插入 了 工具 代码 ， 以 确定 程序 的 各 
个 部 分 需要 多 少时 间 。 确 认 出 程序 中 我 们 需要 集中 注意 力 优 化 的 部 分 是 很 有 用 的 。 齐 析 的 一 个 有 力 
之 处 在 于 可 以 一 边 在 现实 的 基准 数据 (benchmark data) 上 运行 实际 的 程序 ， 一 边 进行 剖析 。 

Unix 系统 提供 了 一 个 前 析 程 序 GPROF。 这 个 程序 产生 两 种 形式 的 信息 。 首 先 ， 它 确定 程序 中 
每 个 函数 花费 了 多 少 CPU 时 间 。 其 次 ， 它 计算 每 个 函数 被 调用 的 次 数 ， 以 调用 函数 来 分 类 。 这 典 种 
形式 的 信息 都 非常 有 用 。 这 些 计时 给 出 了 不 同 函 数 在 确定 整体 运行 时 间 中 的 相对 重要 性 。 调 用 信息 
使 得 我 们 能 理解 程序 的 动态 行为 。 


file.txt: 

1. 程序 必须 为 谢 析 而 编译 和 链接 。 使 用 GCC (以 及 其 他 C omit), REE A TT Lie Fh 
括 运 行 时 标记“-pg”。 

unix> gcc -02 -pg prog.c -o prog 

2. 然后 程序 像 住 常 一 样 执 行 : 

unlx> ./prog file.txt 

IST BS CLE AR HE AK EE rE TT A CF gmon.out。 

3. Ya HA GPROF 来 分 析 gmon.out 中 的 数据 。 

unix> gprof prog 

前 术 报 告 的 第 一 部 分 列 出 了 执行 各 个 函数 花费 的 时 间 ， 按 照 降序 排列 。 作 为 一 个 示例 ， 下 面 列 
出 了 报告 中 关于 程序 中 头 二 个 函数 的 那 一 部 分 : 


% cumulative self self total 
time seconds seconds calls ms/call ms/call name 
85.62 7.80 7.80 1 7800.00 7800.00 sort_words 
6.59 8.40 0.69 946596 0.00 0.00 find_ele_rec 
4.50 8.81 0.41 946596 0.00 0.00 lowerl 


#8 — 47 AR Ze Xt BE wh BS BA AF TE BRN i). SB SL A Ti) A 
NIMS th. BOW ah Ee BIT HAITI Bit, BSR 
fete STE IX ee EA VA), fo 8 PU eR A A RSA BEAD. ZETIA 
HTP, KX sort_words 只 被 调用 了 一 次 , 但 就 是 这 一 次 调用 需要 7.80 秒 , 而 函数 lowerl 被 调用 了 
946 596 次 ， 总 共 需 要 0.41 秒 。 

剖析 报告 的 第 二 部 分 给 出 的 是 这 个 涌 数 的 调用 历史 。 下 面 是 一 个 递归 肾 数 find_ele_rec 的 历史 ， 
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4872758 find _ ele rec [5] 
0.60 0.01 946596/946596 insert_string [4] 
[5] 6.7 0.60 0.01 946596+4872758 find_ele_rec [5] 
0.00 0.01 26946/26946 save_string [9] 
0.00 0.00 26946/26946 new_ele [11] 
4872758 find_ele_rec [5] 


这 个 历史 既 显 示 了 调用 find_ele_rec 的 函数 ， 也 显示 了 它 调用 的 函数 。 在 上 面 一 部 分 中 ， 我 们 
发 现 这 个 函数 实际 上 被 调用 了 5819354 次 (显示 为 “946596+4872758”) 一 一 它 自 己 调用 了 4 872 758 
次 ， 而 函数 insert_string 〈 它 本 身 被 调用 了 946 596 次 ) 调用 了 946 596 ve. AX find_ele_rec 依次 调 
用 了 另外 两 个 男 数 save_string 和 new_ele， 每 个 函数 总 共 被 调用 了 26946 次 。 

根据 这 个 调用 信息 ， 我 们 通常 可 以 推断 出 关于 程序 行为 的 有 用 信息 。 例 如 ， 销 数 find_ele_rec 
是 一 个 递归 过 程 ， 它 扫 拉 一 个 链表 ， 碍 找 一 个 特殊 的 字符 串 。 假 设 递 归 与 顶层 调用 的 比率 十 5.15， 
我 们 可 以 推断 出 它 每 次 平均 大 约 需 要 扫描 6 个 元 素 。 

GPROF 有 些 属 性 值得 注意 : 

e 计时 不 是 很 准确 。 计 时 是 基于 一 个 简单 的 间隔 计数 (interval counting〉 机 制 的 ， 在 第 9 章 

会 讨论 这 个 问题 。 简 而 言 之 ， 编 译 过 的 程序 为 每 个 图 数 维护 一 个 计数 器 ， 记 录 花 费 在 执 
行 该 曙 数 上 的 时 间 。 操 作 系 统 使 得 每 隔 某 个 规则 的 时 间 问 隔 656， 程序 被 中 断 一 次 。6 的 典型 
值 的 范围 为 1.0 一 10.0 毫秒 。 当 中 断 发 生 时 ， 它 会 确定 程序 正在 执行 什么 函数 ， 并 将 该 函数 
的 计数 器 值 增加 6。 当 然 ， 也 可 能 这 个 函数 只 是 刚 开 始 执 行 ， 而 很 快 就 会 完成 ， 却 赋 给 它 从 
上 次 中 断 以 来 整个 的 执行 花费 。 在 两 次 中 断 中 也 可 能 运行 其 他 某 个 程序 ， 却 因此 根本 没有 
计算 花费 。 

对 于 运行 时 间 较 长 的 程序 ， 这 种 机 制 工作 得 相当 好 。 从 统计 上 来 说 ， 应 该 根据 花费 在 执行 查 数 
上 的 相对 时 间 来 对 每 个 函数 计算 花费 。 不 过 ， 对 于 那些 运行 时 间 少 于 1 秒 的 程序 来 说 ， 得 到 的 统计 
数字 只 能 看 成 是 粗略 的 估计 值 。 

e 调用 信息 相当 可 靠 。 编 译 过 的 程序 为 每 对 调用 者 和 被 调用 者 维护 一 个 计数 器 。 每 次 调用 一 

个 过 程 时 ， 就 会 对 适当 的 计数 器 加 1. 
e 默认 情况 下 ， 不 会 显示 对 库 函 数 的 调用 。 作 为 替代 ， 对 库 函数 调用 的 次 数 体现 在 了 调用 另 
数 的 次 数 中 。 


5.15.2 ”使 用 剂 棉 程序 来 指导 优化 

作为 一 个 用 剖析 程序 来 指导 程序 优化 的 示例 ， 我 们 创建 了 一 个 包括 几 个 不 同 任务 和 数据 结构 的 
程序 。 这 个 应 用 程序 读 一 个 文本 文件 ， 创 建 一 张 互 不 相同 的 单词 和 每 个 单词 出 现 次 数 的 表 ， 然 后 按 
照 出 现 次 数 的 降序 对 单词 排序 。 作 为 基准 程序 ， 我 们 在 一 个 由 莎士比亚 全 集 组 成 的 文件 上 运行 这 个 
程序 。 据 此 ， 我 们 确定 莎士比亚 一 共 写 了 946 596 个 单词 ， 其 中 26946 是 互 不 相同 的 。 最 常见 的 单 
同 是 “the”， 出 现 了 29 801 次 。 单 词 “tove” 出 现 了 2249 次 ， 而 “death” 出 现 了 933 x. 

我 们 的 程序 是 由 下 列 部 分 组 成 的 。 我 们 创建 了 一 系列 的 版 本 ， 从 各 部 分 简单 的 算法 开始 ， 然 后 
再 换 成 更 成 熟 完善 的 算法 : 

i. 从 文件 中 读 出 每 个 单词 , 并 转换 成 小 写字 母 。 我们 最 初 的 版 本 使 用 的 是 函数 lowerl (图 5.7), 
我 们 知道 它 的 复杂 度 是 二 次 的 。 
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2. 对 字符 串 应 用 一 个 哈 希 田 数 ， 为 一 个 有 s 个 表 元 (buckets) 的 哈 布 表 产 生 一 个 0~s-1 之 间 
的 数字 。 我 们 最 初 的 另 数 只 是 简单 地 对 字符 的 ASCII 代码 求 和 和 ， 再 对 s 求 模 。 

3. 每 个 哈 希 表 元 都 组 织 成 一 个 链表 。 程序 沿 厦 这 个 链表 扫描 ， 寻 找 一 个 匹配 的 条 晶 。 如 果 找 到 
了 ， 该 单词 的 频 度 就 加 1。 否 则 ， 就 创建 一 个 新 的 链表 元 素 。 我 们 最 初 的 版 本 递归 地 完成 这 个 操作 ， 
将 新 元 素 插 在 链表 尾部 。 

4. 一 旦 已 经 生成 了 这 张 表 , 我 们 就 根据 频 度 对 所 有 的 元 素 排序 ,我 们 最 初 的 版 本 使 用 插入 排序 。 

图 5.37 给 出 了 我 位 的 单词 频 度 分 析 程 序 各 个 版 本 的 训 析 结果 。 对 于 每 个 版 本 ， 我 们 将 时 间 分 为 
五 类 。 

Sort; 按照 频 度 对 单词 排序 。 

List:， 为 匹配 单词 扫描 链表 ， 如 果 需 要 ， 插 入 一 个 新 的 元 素 。 

Lower， 将 字符 串 转换 为 小 写字 母 。 

Hash: 14006 A i RX. 

Rest， 其 他 所 有 函数 的 和 。 

如 图 中 (a) 部 分 所 示 , 我 们 最 切 的 版 本 需要 9 秒 多 钟 ， 大 多 数 时 间 花 在 了 排序 上 。 这 并 不 奇怪 ， 
因为 插入 排序 有 二 次 复杂 度 ， 而 程序 对 27 000 个 值 进行 排序 。 

在 我 们 下 一 个 版本 中 ， 我 们 用 库 函 数 qsort 进行 排序 ， 这 个 函数 是 基于 快速 排序 算法 的 。 在 图 
中 这 个 版 本 称 为 “Quicksort”。 更 有 效 的 排序 算法 使 花 在 排序 上 的 时 间 降 低 到 可 以 忽略 不 计 ， 而 整个 
运行 时 间 降 低 到 大 约 1.2 秒 。 图 的 (Cb) 部 分 给 出 的 是 剩 下 各 个 版 本 的 时 间 ， 所 用 的 比例 能 使 我 们 看 
得 更 清楚 。 

改进 了 排序 ， 现 在 我 们 发 现 链 表 扫 描 变 成 了 抠 颈 。 想 想 这 个 低 效 率 是 由 于 函数 的 递归 结构 引起 
的 ， 我 们 用 一 个 迭代 的 结构 替换 它 ， 显 示 为 “lter First”。 令 人 奇怪 的 是 ， 运 行 时 间 增 加 到 了 大 约 1.8 
秒 。 恨 据 更 近 一 步 的 研究 ， 我 们 发 现 两 个 链表 函数 之 间 有 一 个 细微 的 差别 。 递 归 版 本 将 新 元 素 插 入 
到 链表 尾部 ， 而 友 代 成 本 把 它们 揪 到 链表 头 部 。 为 了 使 性 能 最 大 化 ， 我 们 希望 频率 最 高 的 单词 出 现 
在 链表 的 开始 处 。 这 样 一 来 ， 函 数 就 能 快速 地 定位 常见 的 情况 。 假 设 单词 在 文档 中 是 均匀 分 布 的 ， 
我 们 期 望 频 度 高 的 单词 的 第 一 次 出 现在 频 度 低 的 单词 的 第 一 次 出 现 之 前 。 通 过 将 新 单词 插入 尾部 ， 
第 一 个 函数 倾向 于 按照 频 度 的 降序 排序 ， 而 第 二 个 函数 则 相反 。 因 此 我 们 创建 第 三 个 使 用 迭代 的 链 
表 扫 描 斋 数 ， 不 过 是 将 新 元 素 插入 到 链表 的 尾部 。 使 用 这 个 版 本 ， 显 示 为 “Tter Last?， 时 间 降 到 了 
大 约 1.0 秒 ， 比 递归 版 本 稍微 好 一 点 。 

接 下 来 ,我 们 考虑 哈 希 表 的 结构 。 最 初 的 版 本 只 有 1021 个 表 元 (通常 ， 会 选择 表 元 的 个 数 为 素 
数 ， 以 增强 哈 希 函数 将 关键 字 均 匀 分 布 在 表 元 中 的 能 力 )。 对 于 一 个 有 26 946 个 条 目的 表 来 说 ， 这 
就 意味 着 平均 负载 (load) 是 26 946/1007=26.4。 这 就 解释 了 为 什么 有 那么 多 时 间 花 在 了 执行 链表 操 
作 上 了 一 一 搜索 包括 测试 大 量 的 候选 单词 。 它 还 解释 了 为 什么 性 能 对 链表 顺序 这 么 敏感 了 。 因 而 ， 
我 们 将 表 元 的 数量 增加 到 了 10 007， 将 平均 负载 降低 到 了 2.70。 不 过 ， 很 奇怪 的 是 ， 我 们 的 整体 运 
行 时 间 增 加 到 了 1.11 秒 。 痢 析 结 果 表 明 增 加 的 时 间 主 要 花 在 了 小 写字 母 转 换 函 数 上 ， 虽 然 不 大 可 能 
是 这 样 的 。 我 们 的 运行 时 间 过 于 短 了 ， 我 们 不 能 期 望 这 些 计 时 非常 精确 。 

我 们 假设 表 变 大 了 而 性 能 变 差 了 是 因为 哈 希 函 数 选择 得 不 太 好 。 简 单 地 对 字符 编码 求 和 不 能 产 
生 一 个 大 范围 的 值 ， 也 不 能 根据 字符 的 分 类 做 出 区 分 。 例 如 ， 单 词 “god” 和 “dog” 都 会 哈 希 到 位 
A. ]47+157+144=448， 因 为 它们 包含 相同 的 字符 。 单 词 “foe” 也 会 哈 希 到 这 个 位 置 ， 因 为 
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146+157+145=448。 我 们 换 成 一 个 使 用 移 位 和 异 或 操作 的 哈 希 函数 。 使 用 这 个 版 本 ， 显 示 为 “Better 
Hash”, WJ FER T 0.84 秒 。 一 个 更 加 系统 化 的 方法 是 更 加 仔细 地 研究 关键 字 在 表 元 中 的 分 布 ， 
如 果 哈 希 函 数 的 输出 分 布 是 均匀 的 ， 那 么 确保 这 个 分 布 接近 于 人 们 期 望 的 那样 。 


10 一 一 一 一 一 一 
| 


CPU 秒 数 


Initial Quicksort iter first iter last Big table Better hash Linear lowe 


(a) 所 有 的 版 本 


CPU $h% 


Quicksort Iter first iter last Big table Better hash Linear lower 


Cb) 除了 最 慢 版 本 以 外 的 所 有 版 本 


图 ".37 ”单词 频 度 计数 程序 各 个 版 本 的 剖析 结果 时 间 是 根据 程序 中 不 同 的 主要 操作 划分 的 


节 后 ， 我 们 把 运行 时 间 降 到 了 一 半 的 时 间 是 花 在 执行 小 写字 母 转换 上 了 。 我 们 已 经 看 到 了 函数 
lowerl 的 性 能 很 差 , 特别 是 对 长 字符 串 来 说 。 这 篇 文档 中 的 单词 足够 短 ， 能 避免 二 次 性 能 (quadratic 
performance) 的 灾难 性 的 结果 ;， 最 长 的 单词 Chonorificabilitudinitatibus”) 长 度 为 27 个 字符 。 不 过 
换 成 使 用 lower2， 显 示 为 “Linear Lower” 得 到 很 好 的 性 能 ， 整 个 时 间 降 到 了 0.52 秒 。 

通过 这 个 练习 , 我 们 展示 了 代码 剖析 能 够 帮助 将 一 个 简单 应 用 程序 所 需 的 时 间 从 9.11 秒 降 低 到 
0.52 秒 一 一 提高 到 了 17.5 倍 。 剖 析 程 序 帮助 我 们 把 注意 力 集中 在 程序 最 耗 时 的 部 分 上 ， 同 时 还 提供 
了 关于 过 程 调用 结构 的 有 用 信息 。 

我 们 可 以 看 到 ， 齐 析 是 工具 箱 中 一 个 很 有 用 的 工具 ， 但 是 它 不 应 该 是 惟 -- 一 个 。 计 时 测量 不 是 
很 准确 ， 特 别 是 对 较 短 的 运行 时 间 ( 小 于 1 秒 ) 来 说 。 结 果 只 适用 于 被 测试 的 那些 特殊 的 数据 。 例 
如 ， 如 果 我 们 在 由 较 少数 量 的 较 长 字符 串 组 成 的 数据 上 运行 最 初 的 函数 ， 我 们 会 发 现 小 写字 母 转换 
RA ERAS. SHENAE, MRE RAPA RBA, Ria BALA BR 
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者 的 性 能 杀手 ,例如 lowerl 的 二 次 性 能 。 通常 ， 假 设 我 们 在 有 代表 性 的 数据 上 运行 程序 ， 旗 析 能 帮 
助 我 们 对 典型 的 情况 进行 优化 ， 但 是 我 们 还 应 该 确保 对 所 有 可 能 的 情况 ， 程 序 都 有 相当 的 性 能 。 这 
主要 包括 避免 得 到 糟糕 的 渐 近 性 能 (asymptotic performance) 的 算法 (例如 插入 算法 ) 和 坏 的 编程 
实践 〈 例 如 lowerl )。 


5.15.3 Amdahl 定律 

Gene Amdahl (计算 领域 的 先驱 之 一 ) 做 出 了 一 个 关于 提高 系统 一 部 分 性 能 的 效果 的 人 简单 但 是 
富有 洞察 力 的 观察 。 这 个 观察 现在 被 称 为 Amdahl 定律 。 其 主要 思想 是 当 我 们 加 快 系统 -- 个 部 分 的 
速度 时 ， 对 系统 整体 性 能 的 影响 依赖 于 这 个 部 分 有 多 重要 和 速度 提高 了 多 少 。 考 虑 一 个 系统 ， 人 在 其 
中 执行 某 个 应 用 程序 需要 时 间 Ty。 假设 系统 的 某 个 部 分 需要 这 个 时 间 的 百分比 为 a, 而 我 们 将 它 的 
性 能 提高 到 了 大 倍 。 也 就 是 ， 这 个 部 分 原来 需要 时 间 ec7.u， 而 现在 需要 时 间 (aTwo)K。 因 此 ， 整 个 执 
行 时 间 会 是 

Tew = (1 @) Tog + (OT jig )/k 
= nl(l- @) + ak] 


据 此 ， 我 们 可 以 计算 加 速 S = Tora! Tren 为 : 
çz — it _ 
(1- a&)+ ak 
作为 一 个 示例 ， 考 虑 这 样 一 种 情况 ， 系 统 原来 占用 60% 时 间 (a=0.6) 的 部 分 被 提高 到 了 3 倍 
(k=3 )。 那 么 我 们 得 到 加 速 1/[0.4+0.6/3]=1.67。 因 此 ， 即 使 我 们 大 幅度 改进 了 系统 的 一 个 主要 部 分 ， 
我 们 的 净 加 速 还 是 很 小 。 这 就 是 Amdah] 定律 的 主要 观点 一 一 要 想 大 幅度 提高 整个 系统 的 速度 ， 我 
们 必须 提高 整个 系统 很 大 一 部 分 的 速度 。 
练习 题 5.9 
假设 你 的 职业 是 卡车 司机 ,你 被 春 佣 运送 一 车 土豆 从 Idaho 的 Boise 到 Minnesota 的 Minneapolis, 
总 距离 为 2500 公里 。 你 估计 在 速度 限制 以 内 你 开车 的 平均 时 速 为 100 公里 , 整个 行程 需要 25 小 时 。 
A. 你 在 新 闻 里 听 说 Montana 刚刚 取消 了 它 的 限 速 ， 这 段 路 程 有 1500 公里 。 你 的 卡车 可 以 开 到 
每 小 时 150 公里 。 你 这 次 行程 的 加 速 (speedup) 会 是 多 少 ? 
B. 你 可 以 在 www.fasttrucks.com 为 你 的 卡车 购买 一 个 新 的 涡轮 增 压 器 。 它 们 有 许多 样式 ， 不 过 
想 开 得 越 快 ， 花 费 就 越 大 。 要 想 行程 加 速达 到 5/3， 你 必须 以 多 大 的 速度 通过 Montana? 
练习 题 5.10 
你 公司 的 市 场 部 门 许诺 你 的 客户 下 一 版 软件 性 能 会 提高 一 倍 。 分 配给 你 的 任务 是 就 这 个 承诺 发 
表意 见 。 你 确定 只 能 改进 系统 80% 的 部 分 。 为 了 达到 整体 性 能 目标 ， 体 需要 将 这 个 部 分 提高 到 多 少 
(也 就 是 ,的 值 应 为 多 少 )? 


(5.1) 


Amdahl 定律 的 -- 个 有 趣 的 特殊 情况 是 若 虑 将 大 设 为 mo 的 效果 。 也 就 是 ， 我 们 能 够 取出 系统 的 某 
个 部 分 ， 把 它 的 速度 提高 到 时 间 可 以 忽略 不 计 的 程度 。 那 么 我 们 得 到 
S_ = ! 
(1- a) 


(5.2) 
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因此 ， 例 如 ， 如 果 我 们 能 够 将 系统 60% 的 部 分 速度 提高 到 它 所 需要 的 时 间接 近 于 0, MAR 
的 净 增 速 也 仍然 只 为 1/0.4=2.5。 当 我 们 用 快速 排序 取代 插入 排序 时 ， 从 我 们 的 字典 程序 中 就 能 看 出 
这 个 性 能 。 最 开始 的 版 本 花费 它 9.1 秒 中 的 7.8 秒 来 进行 插入 排序 ， 得 到 a=0.86。 使 用 快速 排序 ， 
花费 在 排序 上 的 时 间 变 得 可 以 忽略 不 计 ， 得 到 预测 的 增 速 为 7.1、 实 际 上 ， 实 际 的 增 速 要 高 一 点 ; 
9.11/1.22=7.5， 这 是 由 于 对 初始 版 本 的 剖析 测试 的 不 准确 性 造成 的 。 我 们 能 够 获得 大 的 增 速 ， 这 是 
因为 排序 占 到 了 整个 执行 时 间 的 一 个 非常 大 的 比例 。 

Amdahl 定律 挡 述 了 一 个 改进 任何 过 程 的 通用 原则 .。 除了 适用 于 提高 计算 机 系统 的 速度 之 外 , 它 
还 能 指导 一 个 公司 试 着 降低 生产 剃 须 刀 的 成 本 ， 或 是 指导 一 个 学 生 改 进 他 或 她 的 平均 绩 点 。 或 许 它 
仁 计 算 机 氟 界 里 最 有 意义 ， 在 计算 机 世界 中 ， 我 们 通常 将 性 能 提高 一 倍 或 更 多 。 只 有 通过 优化 系统 
很 大 的 一 部 分 才能 获得 这 么 高 的 提高 率 。 
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里 然 关 于 代码 优化 的 大 多 数论 述 都 描述 了 编译 器 是 如 何 能 生成 高 效 代码 的 ， 但 是 应 用 程序 员 有 
很 多 方法 来 协助 编译 器 完成 这 项 任务 。 没 有 任何 编译 器 能 用 一 个 好 的 算法 或 数据 结构 代替 低 效率 的 
算法 或 数据 结构 ， 因 此 程序 设计 的 这 些 方面 仍然 应 该 是 程序 员 主 要 关心 的 。 我 们 还 看 到 妨碍 优化 的 
因素 ， 例 如 存储 器 别名 和 过 程 调用 ， 严 重 限制 了 编译 器 执行 大 量 优化 的 能 力 。 园 样 ， 程 序 员 必须 对 
消除 这 些 妨碍 优化 的 因素 负 主 要 的 责任 。 

除 此 之 外 ， 我 们 还 研究 了 一 系列 技术 ， 包 括 循环 展开 、 和 迭代 分 割 以 及 指针 运算 。 随 着 我 们 对 优 
化 的 深入 ， 研 究 汇编 代码 以 及 试 着 理解 机 器 是 如 何 执 行 计算 的 变 得 重要 起 来 。 对 于 现代 、 乱 序 处 理 
右上 的 执行 ， 分 析 程 序 是 如 何在 有 无 限 处 理 资源 但 是 功能 单元 的 执行 时 间 和 发 射 时 间 与 目标 处 理 器 
相符 的 机 器 上 执行 的 ， 收 获 良 多 。 为 了 精练 这 个 分 析 ， 我 们 还 应 该 考虑 诸如 功能 单元 数量 和 类 型 这 
样 的 资源 约束 。 

包含 条 件 分 支 或 与 存储 器 系统 复杂 交互 的 程序 ， 比 我 们 首先 考虑 的 简单 循环 程序 ， 更 加 难以 分 
析 和 优化 。 基 本 策略 是 使 循环 更 容易 预测 ， 并 试 着 减少 存储 和 加 载 操 作 之 间 的 相互 影响 。 

当 处 理 人 型 程序 时 ， 将 我 们 的 注意 力 集 中 在 最 耗 时 的 部 分 变 得 很 重要 。 代 码 剖 析 程 序 和 相关 的 
工具 能 帮助 我 们 系统 地 评价 和 改进 程序 性 能 。 我 们 描述 了 GPROF， 一 个 标准 的 Unix 剖析 工具 。 也 
还 有 更 加 复杂 完善 的 剖析 程序 可 用 ， 例 如 Intel 的 VTUNE 程序 开发 系统 。 这些 工 具 可 以 在 过 程 级 分 
解 执行 时 | 间 ， 测 量程 序 每 个 基本 块 (basic block) 的 性 能 。 基本 块 是 没有 条 件 操 作 的 指令 序列 。 

Amdahl 定律 提供 了 对 通过 只 改进 系统 一 部 分 所 获得 的 性 能 收益 的 一 个 简单 但 是 很 有 力 的 看 法 。 
收益 既 依赖 于 我 们 对 这 个 部 分 的 提高 程度 ， 也 依赖 于 这 个 部 分 原来 在 整个 时 间 中 所 占 的 比例 。 


参考 文献 说 明 

有 许多 关于 编译 器 优化 技术 的 作品 。Muchnick 的 著作 被 认为 是 最 全 面 的 [55]。Wadleigh 和 
Crawford 的 关于 软件 优化 的 著作 [85] 包 含 了 一 些 我 们 已 经 谈 到 的 内 容 ， 不 过 它 还 描述 了 在 并 行 机 器 
上 获得 高 性 能 的 过 程 。 

我 们 对 乱 序 处 理 器 的 操作 的 找 述 相当 简单 和 抽象 。 可 以 在 高 级 计算 机 体系 结构 教科 书 中 找到 对 
通用 原则 更 完整 的 描述 ， 例 如 Hennessy 和 Patterson 的 著作 [33， 第 3 Æ]. Shriver 和 Smith 给 出 了 
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AMD 处 理 器 的 详细 描述 [69]，AMD 处 理 器 与 我 们 描述 的 处 理 器 有 相似 之 处 。 
大 多 数 关 于 计算 机 体系 结构 的 忆 都 讲述 了 Amdahl 定律 。Hennessy 和 Patterson 的 著作 [33] 主 要 
关心 的 是 量化 的 系统 评价 ， 并 提供 了 对 这 个 主题 相当 好 的 讲解 。 


RREN 
5.11 %0 
假设 我 们 想 编 写 一 个 计算 两 个 向 量 内 积 的 过 程 。 这 个 函数 的 一 个 抽象 版 本 对 整数 和 浮上 数据 都 


有 CPE 54。 通 过 进行 与 我 们 将 抽象 combinel 变换 为 更 有 效 的 combine4 相同 类 型 的 变换 ， 我们 得 到 
如 下 代码 : 


1 /* Accumulate in temporary */ 


2 void inner4(vec_ptr u, vec_ptr v, data_t *dest) 
3 { 

4 int 1; 

5 int length = vec_length(u); 

6 data_t *udata = get_vec_start(u); 

7 data_t *vdata = get_vec_Start|(v}; 

8 data t sum = (data_t) 0; 

9 

10 for (i = 0; i < length; i++) [ 

11 sum = sum + udata[i] * vdatal[il; 
12 } 

13 *dest = sum; 

14 } 


BATT A a ik Se ANT RE | IR RIK RE 3.11 个 周期 。 其 中 循环 的 汇编 代码 如 下 
所 示 : 


udata in Yoesi, vdata in %ebx, iin Wedx, sum in Wecx, length in Wedi 


1 .L24: loop: 

2 movl (%esi,%edx,4),%eax Get udata{i] 

3 imull (%ebx, tedx, 4), teax Multiply by vdata[i] 
4 addl teax, %ecx Add to sum 

5 incl %edx i++ 

6 cmpl %edi, tedx Compare i:length 

7 jl .L24 if <, goto loop 


假设 整数 乘法 是 由 通用 整数 功能 单元 执行 的 ， 而 这 个 单元 是 流水 线 化 的 ， 这 意味 着 在 一 个 乘法 
开始 之 后 一 个 周期 ， 一 个 新 的 整数 操作 《〈 乘 法 或 其 他 操作 ) 就 能 开始 了 。 还 假设 整数 /分 支 功能 单元 
能 执行 简单 的 整数 操作 。 

A. 给 出 这 些 汇编 代码 行 到 操作 序列 的 翻译 。mov] 指令 翻译 成 一 条 load 操作 。 寄存 器 %eax Æ 
环 中 被 更 新 两 次 。 用 标号 区 分 不 同 版 本 的 %eax.1a 和 %eax.1b。 

B. 解释 函数 怎么 能 比 整数 乘法 需要 的 周期 数 运行 得 还 快 。 

C 解释 是 什么 因素 限制 了 这 段 代 码 的 CPE 最 好 也 只 能 为 2.5。 

D. 对 于 浮 点 数据 ， 我们 得 到 的 CPE 为 3.5。 不 需要 检查 汇编 代码 ， 描 述 将 性 能 限制 在 最 好 情况 
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ABRIER 3 个 周期 的 一 个 因素 。 
5.12 ¢ 
编写 习题 5.11 中 描述 的 一 个 版 本 的 内 积 过 程 ， 使 用 四 次 循环 展开 。 
我 们 对 这 个 过 程 的 测试 得 到 对 整数 数据 CPE 为 2.20， 而 对 浮 点 数据 CPE X 3.50. 
A. 解释 为 什么 任何 版 本 的 内 积 过 程 都 不 能 达到 比 2 更 大 的 CPE 了 。 
B. 解释 为 什么 对 浮 点 数 的 性 能 不 能 通过 循环 展开 而 得 到 提高 ， 
5.13 ¢ 
编写 习题 5.11 中 描述 的 一 个 版 本 的 内 积 过 程 ， 使 用 四 次 循环 展开 和 两 路 并 行 。 
我 们 对 这 个 过 程 的 测试 得 到 对 浮 点 数 的 CPE 为 2.25。 描 述 将 性 能 限制 在 最 好 CPE 为 2.0 的 两 个 
因素 。 
5.14 o@ 


你 刚刚 加 入 一 个 编程 小 组 ， 他 们 试图 开发 世界 上 最 快 的 阶乘 函数 。 开 始 时 使 用 递 轨 阶乘 ， 他 们 
将 代码 转换 成 使 用 夺 代 ， 


1 int fact (int n} 

2 { 

3 int i; 

4 int result = 1; 

5 

6 for (1 = n; 1 > 0; i--) 

7 result = result * 1; 
B return result; 

9 } 


通过 这 样 做 ， 他 们 将 函数 的 CPE 数 从 63 降低 到 4， 这 是 在 Intel Pentium II EW (AAD). 
不 过 ， 他 们 还 想 干 得 再 好 一 点 。 
其 中 一 个 程序 员 昕 说 过 循环 展开 ， 她 写 出 了 如 下 代码 ; 


1 int fact_u2 (int n) 

2 { 

3 int i? 

4 int result = 1; 

5 for {i =n; i > 0; 1-=2) { 

6 result = (result * i) * (i-1); 
7 } l 

3 return result; 

9 } 


RK, DA RRIARNIGMBS n 的 某 些 值 返回 0。 

A. 对 于 哪些 nn fH, fact_u2 和 fact 会 返回 不 同 的 值 ? 

B. 给 出 如 何 修正 fact_u2。 注 意 ， 对 于 这 个 过 程 有 个 特殊 的 窑 门 ， 只 要 修改 一 个 循环 界限 。 
C. 对 fact_u2 使 用 基准 程序 ， 显 示 性 能 没有 改进 。 你 会 如 何 解释 这 个 现象 呢 ? 
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D. 你 将 循环 中 的 这 行 修改 为 


6 result = result * (1 * (1 - 1)); 
让 每 个 人 惊奇 的 是 ， 现 在 测 出 的 性 能 有 CPE 2.5。 你 怎样 解释 这 个 性 能 改进 呢 ? 
5.15 ¢ 


使 用 条 件 传送 指令 ， 编 写 下 列 函 数 体 的 汇编 代码 : 


1 /* Return maximum of x and y */ 

2 int max(int x, int y) 

3 { 

4 return (x < y} ? Y : X; 
5 } 

5.16 o¢ 


使 用 条 件 传送 ， 翻 详 如 下 形式 的 语句 

val = cond-expr? then-expr : else-expr: 
的 通用 技术 产生 了 如 下 形式 的 代码 

val = then-expr; 

temp = else-expr; 

test = cond-expr; 

if (test) val = temp; 

这 里 最 后 一 行 是 用 一 个 条 件 传送 指令 来 实现 的 。 以 练习 题 5.7 为 例 ， 资 明 这 个 翻译 合法 的 通用 
EEK 

5.17 Oo 

Bax Te at A ee ER A 


1 int list_sum(list_ptr 1s) 

2 { 

3 int sum = Q; 

4 

5 for (; ls; ls = ls->next) 
6 Sum += ls->data; 

pi return sum; 

8 } 


HEIRE Bai AA RE AIRA PRERE F: 


.L43: 


addl 4(%*edx},%teax mov] 4({%*edx. 0} 


addl t.1,%eax.0 
movl {%edx), tedx load (%edx.0} 
testl *edx, tedx testl tedx.1,%*tedx.1 


jne .L43 jne-taken cc.l 
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A. 按照 图 5.31 的 风格 ， 画 图 说 明 循 环 头 三 次 迭代 的 操作 的 调度 。 回 想 一 下 只 有 一 个 加 载 单 元 。 
B. 我 们 对 这 个 函数 的 测试 得 到 CPE 为 4.00。 这 与 你 在 A 部 分 中 男 出 的 图 一 致 吗 ? 

5.18 多 

FARKAS EA 5.17 中 所 示 的 链表 求 和 消 数 的 一 个 变种 : 


1 int list_sum2(list_ptr 1s) 
< { 

3 int sum = Q; 

4 list_ptr old; 

5 

6 while (ls) { 

7 old = ls; 

8 ls = |lS->next; 

9 Sum += old->data; 
10 } 

11 return sum; 

12 } 


这 段 代码 的 编写 方式 ， 使 得 取 下 一 个 链表 元 素 的 存储 器 访问 早 于 从 当前 元 素 取 数据 字段 的 存储 
器 访问 。 
循环 的 汇编 代码 和 第 一 次 从 代 到 操作 的 翻译 如 下 : 
.L48: 


novl *edx, %ecx 


novl (%edx}, sedx load (%edx.0) 


addl 4(%ecx) , $eax movl 4(%edx.0) 


addl t.1,%eax.0 
testl %edx, tedx testl tedx.1,%edx.1 


jne .L48 ine-taken cc.1 


注意 ， 寄 存 器 传送 操作 movl %edx, tecx 不 需要 用 任何 操作 来 实现 。 它 的 处 理 只 要 简单 地 将 
标记 edx.0 与 寄存 器 %ecx 联系 起 来 ， 这 样 一 来 ， 后 面 的 指令 addl 4(%ecx), eax 就 会 被 翻译 成 
以 edx.0 作为 它 的 源 操作 数 。 

A. 按照 图 5.31 的 风格 ， 芳 图 说 明 循 环 头 三 次 迭代 的 操作 的 调度 。 回 想 一 下 只 有 一 个 加 载 单元 。 

B. 我 们 对 这 个 函数 的 测试 得 到 CPE 为 3.00。 这 与 你 在 A 部 分 中 画 出 的 图 一 致 吗 ? 

C. 这 个 函数 比 问题 5.17 中 的 函数 怎样 更 好 地 利用 了 加 载 单元 ? 

5.19 ¢ 

假设 给 了 你 一 个 任务 ， 要 提高 一 个 由 3 个 部 分 组 成 的 程序 的 性 能 。 部 分 A 需要 整个 运行 时 间 的 
20%， 部 分 B 需要 30%， 而 部 分 C 需要 50%. MAS 1000 美元 能 将 部 分 B 的 速度 提高 到 3.0 倍 ， 
也 可 以 将 部 分 C 的 速度 提高 到 1.5 倍 。 哪 种 选择 会 使 性 能 最 大 化 ? 


382 第 5 章 


练习 题 答案 


练习 题 5.1 答案 
这 个 问题 说 明了 存储 器 别名 的 某 些 细微 的 影响 。 
正如 下 面 加 了 注释 的 代码 所 示 ， 结 果 会 是 将 xp 处 的 值 设置 为 0: 


1 *xp = *xp + *xp; /* 2X */ 
2 *xp = *xp - *xp; /* 2x-2x = 0 */ 
3 *xp = *xp - *xp; /* 0-0 = Q */ 


这 个 示例 说 明 我 们 关于 程序 行为 的 直觉 往往 会 是 错误 的 。 我 们 自然 地 会 认为 xp Al yp 是 不 同 的 
情况 ， 却 忽略 了 他 们 相等 的 可 能 性 。 错 误 通 常 源 自 程序 员 没 想到 的 情况 。 

练习 题 5.2 答案 

这 个 问题 说 明了 CPE 和 绝对 性 能 之 间 的 关系 。 可 以 用 初等 代数 解决 这 个 问题 。 我 们 发 现 对 于 n 
<2， 上 有 版 本 1 最 快 。 对 于 3<n<2， 版 本 2 最 快 ， 而 对 于 n>8， 版 本 3 RE. 

练习 题 5.3 答案 


这 是 个 简单 的 练习 ， 但 是 认识 到 一 个 for 循环 的 四 个 语句 〔 初 始 化 、 测 试 、 更 新 和 循环 体 ) 执行 
的 次 数 是 不 同 的 很 重要 . 


练习 题 5.4 答案 


正如 我 们 在 第 3 章 中 发 现 的 ， 从 汇编 代码 到 C 代码 的 逆向 工程 提供 了 对 编译 过 程 的 有 用 见识 。 
下 面 的 代码 给 出 了 对 于 通用 数据 和 通用 合并 操作 的 形式 : 


1 void combine5px8(vec_ptr v, data_t *dest) 
2 { 

3 int length = vec_length(v); 

4 int limit = length - 3; 

5 data_t *data = get_vec_Starti(v); 
6 data_t x = IDENT; 

7 int i; 

B 

9 /* Combine 8 elements at a time */ 

10 for (i = 0; i < limit; i+=8) ( 

11 x = X OPER dataf[0] 

12 OPER data[l1]} 

13 OPER data[2] 

14 OPER data[3] 

15 OPER data[4] 


16 OPER data[5] 
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17 OPER data[6] 

18 OPER datal[7]; 

19 data += 8; 

20 } 

21 

22 /* Finish any remaining elements */ 
23 for (; 1 < length; i++) { 
24 x = X OPER data[0]; 
25 data++; 

26 } 

27 *dest = x; 

28 } 


我 们 手写 的 指针 代码 通过 计算 指针 的 结束 值 ， 能 够 消除 循环 变量 i。 这 又 是 一 个 训练 有 素 的 人 
常常 能 够 看 出 那些 被 编译 器 忽略 了 的 变换 的 示例 。 


练习 题 5.5 管 案 

Yt HHA (spilled) 值 通常 存储 在 本 地 枝 帧 中 。 因此， 它们 相对 于 %ebp 的 偏 移 为 负 。 我 们 可 以 在 
汇编 代码 中 第 12 行 上 看 到 这 样 一 个 引用 。 

A. 变量 limit 被 溢出 到 栈 中 。 

B. 它 在 相对 于 %ebp 偏 移 为 -8 处 。 

C. 只 有 在 确定 是 否 会 选择 结束 循环 的 jl 指令 时 才 会 需要 这 个 值 。 如 果 分 支 预测 逻辑 预测 会 选择 
分 文 ， 那 么 下 一 次 迭代 就 能 在 循环 测试 完成 之 前 进行 。 因 此 ， 比 较 指 令 不 是 确定 循环 性 能 的 关键 路 径 
的 一 部 分 。 此 外 , 因为 这 个 变量 不 会 在 循环 中 被 改变 , 所 以 把 它 放 到 栈 中 不 需要 任何 额外 的 存储 操作 。 


练习 题 5.6 答案 
ss。 me 0 we 中 很 人 的 改天 是 如 何 能 够 造成 巨大 的 性 能 差异 的 特别 是 在 乱 序 执行 的 机 
。 图 5.38 表示 了 函数 针对 每 种 结合 的 一 次 迭代 的 乘法 操作 的 调度 。 每 次 迭代 包括 三 个 乘法 ， 而 
eR cane (显示 为 r.0) 并 计算 一 个 新 的 值 (显示 为 x1)。 不 过 ， 如 灰色 虚线 所 示 ， 关 
ERIE (critical path)， 也 就 是 对 的 连续 更 新 之 间 的 最 小 时 间 可 以 是 12 (A1)、8 (A2 BIAS) 或 4 
(A3 和 A4)。 假 设 处 理 器 达到 最 大 的 并 行 度 ， 那 么 只 有 这 个 关键 路 径 会 限制 CPE 的 理论 值 ， 
这 会 得 到 下 面 的 表 : 


从 这 张 表 我 们 看 出 结合 A1、A2 ALAS 达到 了 它们 的 理论 最 优 值 ， 而 A2 和 A3 每 次 迭代 要 花费 
5 个 周期 ， 而 不 是 理论 上 的 最 优 值 4。 


5.38 问题 5.6 中 情况 的 乘法 操作 的 调度 
灰色 虚线 表示 限制 变量 r 的 连续 更 新 之 间 时 间 的 关键 路 径 。 


练习 题 5.7 答案 

这 个 问题 证 明了 当 使 用 条 件 传 送 时 需要 小 心 。 它 们 要 求 对 源 操 作 数 求 值 ， 甚 至 于 在 不 使 用 这 个 
值 时 。 

这 段 代 码 总 是 间接 引用 xp〈 汇 编 代 码 的 第 2 行 )。 在 xp 为 0 的 情况 中 ， 这 会 导致 一 个 空 指针 引 
用 。 


练习 题 5.8 答案 

这 个 问题 要 求 你 分 析 一 个 程序 中 潜在 的 load-store 交互 作用 。 

A. 它 会 将 每 个 元 素 alik EA itl, 0 < i< 998. 

B. 它 会 将 每 个 元 素 alik EAO, 0 <i< 999. 

C. 在 第 二 种 情况 中 ， 一 次 友 代 的 加 载 取 决 于 前 次 迭代 存储 的 结果 。 因 此 ， 在 连续 的 迭代 之 间 有 
与 / 读 相关 。 

D. 它 会 得 到 CPE 5.00， 因 为 存储 和 后 续 的 加 载 之 间 没 有 相关 。 


练习 题 5.9 答案 

这 个 问题 说 明了 Amdahl 定律 不 仪 仪 只 适用 于 计算 机 系统 ， 

A. 按照 等 式 5.1， 我 们 有 a= 0.6 和 大 = 1.5。 更 直观 地 说 ， 穿 过 Montana 行驶 1500 公里 天 要 10 
个 小 时 ， 而 剩 下 的 行程 也 需要 10 个 小 时 。 这 会 得 到 增 速 25/(104+10)=1.25. 

B. 按照 等 式 5.1， 我 们 有 a= 0.6， 而 我 们 需要 S=5/3， 根 据 这 些 我 们 可 以 解 出 k。 更 直观 地 说 ， 
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为 了 使 行程 加 速 5/33, 我 们 必须 将 整个 时 间 降 低 到 15 个 小 时 。Montana 之 外 的 部 分 仍然 需要 10 个 小 
时 ， 所 以 我 们 必须 在 5 个 小 时 内 通过 Montana。 这 要 求 行 驶 速度 为 每 小 时 300 公里 ， 对 于 卡车 来 说 
实在 是 太 快 了 ! 


练习 题 5.10 答案 
通过 一 些 示 例 是 理解 Amdahl 定律 的 最 好 方法 。 这 个 例子 要 求 你 从 一 个 不 回 寻 常 的 角度 来 看 等 
式 5.1. 

这 个 问题 是 这 个 等 式 的 一 个 简单 应 用 。 给 定 5=2 和 a=0.8， 而 你 必须 解 出 大 : 

l 

© {1-0.8)+0.8/k 

0.4 + 1.6/k 1.0 
k = 2.67 
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到 目前 为 止 , 在 我 们 对 系统 的 研究 中 , 我 们 依赖 于 一 个 简 特 的 计算 机 系统 模型 ，CPU AIS, 
而 存储 器 (memory) 系统 为 CPU 存放 指令 和 数据 。 在 我 们 简单 的 模型 中 ， 存 储 器 系统 是 一 个 线性 
的 字 节 数组 , 而 CPU 能 够 在 一 个 常数 时 间 内 访问 每 个 存储 器 位 置 。 虽然 运 今 为 止 这 都 是 一 个 有 效 的 
模型 ， 但 是 它 没 有 反映 现代 系统 实际 工作 的 方式 。 

实际 上 ， 存储 器 系统 (memory system) 是 一 个 具有 不 同 容 量 、 成 本 和 访问 时 间 的 存储 (storage) 
设备 的 层次 结构 .CPU 寄存 器 保存 着 最 常用 的 数据 ,靠近 CPU 的 小 的 、 快 速 的 高 速 缓存 存储 器 (cache 
memory) 作为 存储 〈stored) 在 相对 慢 速 的 主 存储 器 (main memory， 简 称 主 存 ) 中 数据 和 指令 子 集 
的 缓冲 区 域 。 主 存 暂 时 存放 存储 在 较 大 的 慢 速 磁盘 上 的 数据 ， 而 这 些 磁盘 常 第 又 作为 存储 在 通过 网 
络 连 接 的 其 他 机 器 的 磁盘 或 磁带 上 的 数据 的 绥 冲 区 域 。 

存储 器 层次 结构 是 可 行 的 ， 这 是 因为 与 下 一 个 更 低层 次 的 存储 设备 相 比 来 说 ， 一 个 编写 民 好 的 
程序 倾 癌 于 更 频繁 地 访问 某 一 个 层次 上 的 存储 设备 。 所 以 ， 下 一 层 的 存储 设备 可 以 更 慢 速 一 点 ， 也 
因此 更 大 ， 每 个 位 更 便宜 。 整 体 效 果 是 一 个 大 的 存储 器 池 ， 其 成 本 与 层次 结构 底层 最 便宜 的 人 存储 设 
备 相 当 ， 但 是 却 以 接近 于 层次 结构 顶部 存储 设备 的 高 速率 向 程序 提供 数据 。 

作为 一 个 程序 员 ， 你 需要 理解 存储 器 层次 结构 ， 因 为 它 对 你 应 用 程序 的 性 能 有 着 已 大 的 影 啊 。 
如 宁 你 的 程序 需要 的 数据 是 存储 在 CPU 寄存 器 中 的 , 那么 在 执行 期 间 , 在 零 个 周期 内 就 能 访问 到 它 
们 。 如 果 存 储 在 高 速 缓存 中 ， 需 要 1 一 10 个 周期 。 如 果 存 储 在 主 存 中 ， 需 要 50~100 个 周期 。 而 如 
果 存 储 在 磁盘 上 ， 和 需要 大 约 20 000 000 个 周期 ! 

这 里 束 是 计算 机 系统 中 一 个 基本 而 持久 的 思想 ， 如 有 果 你 理解 了 系统 是 如 何 将 数据 在 存储 毅 层 次 
结构 中 上 上 下 下 移动 的 ， 那 么 你 可 以 编写 你 的 应 用 程序 ， 使 得 它们 的 数据 项 存储 在 层次 结构 中 较 高 
的 地 方 ， 在 那里 CPU 能 更 快 地 访问 到 它们 。 

这 个 思想 围绕 着 计算 机 程序 的 一 个 称 为 局 部 性 〈locality) 的 基本 属性 。 具 有 良好 局 部 性 的 程序 
倾 回 于 一 次 又 一 次 地 访问 相同 的 数据 项 集合 ， 或 是 倾向 于 访问 邻近 的 数据 项 集合 。 具 有 良好 局 部 性 
的 程序 比 局 部 性 差 的 程序 更 多 地 倾向 于 从 存储 器 层次 结构 中 较 高 层次 处 访问 数据 项 ， 因 此 运行 得 更 
快 。 例 如 ， 不 同 的 矩阵 乘法 核心 程序 执行 相同 数量 的 算术 操作 ， 但 是 有 不 回程 度 的 局 部 性 ， 它 们 的 
运行 时 间 可 以 相差 6 倍 ! 

在 本 章 中 ,我 们 会 看 看 基本 的 存储 技术 一 一 SRAM 存储 器 、DRAM 存储 器 、ROM 人 存储 器 和 磁 
盘 一 一 并 描述 它们 是 如 何 被 组 织 成 层次 结构 的 。 特 别 地 ， 我 们 将 注意 力 集中 在 CPU 和 主 存 之 间作 
为 缓存 区 域 的 高 速 缓存 存储 器 上 ， 因 为 它们 对 应 用 程序 性 能 的 影响 最 大 。 我 们 向 你 展示 如 何 分 析 
你 的 C 程序 的 局 部 性 ， 而 且 我 们 还 介绍 改进 你 的 程序 中 局 部 性 的 技术 。 你 还 会 学 到 一 种 描绘 某 台 
机 句 虐 存储 兹 层次 结构 的 性 能 的 有 趣 方 法 ， 称 为 “存储 器 山 (memory mountain)”， 它 给 出 的 读 访 
间 次 数 是 局 部 性 的 一 个 函数 。 


6.1 存储 技术 


计算 机 拷 术 的 成 功 很 大 程度 上 源 自 于 存储 技术 的 巨大 进步 。 早 期 的 计算 机 只 有 几 千 字 节 的 随机 
访问 存储 器 。 最 早 的 IBM PC 甚至 于 没有 硬盘 。1982 年 引入 的 IBM PC-XT 有 10M 字 节 的 磁盘 。 到 
2000 年 ， 主 流 机 器 已 有 1000 HF PC-XT 的 磁盘 存储 器 ， 而 且 这 个 比率 会 以 每 陋 年 或 二 年 10 倍 的 
速度 增长 。 
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6.1.1 随机 访问 存储 器 

随机 访问 存储 器 (random-access memory, RAM) 分 为 两 类 一 一 静态 的 和 动态 的 。 静 态 RAM 
(SRAM) 比 动态 RAM (DRAM) 更 快 ， 但 也 贵 得 多 。SRAM 用 来 作为 高 速 缓存 存储 器 ， 既 可 以 在 
CPU 心 片 上 ， 也 可 以 不 在 CPU 芯片 上 。DRAM 用 来 作为 主 存 以 及 图 形 系统 的 帧 缓冲 区 。 典 型 地 ， 
一 个 果 面 系统 的 SRAM 不 会 超过 几 兆 字 节 ， 但 是 DRAM 却 有 几 百 或 几 千 兆 字 节 。 


SRAM 将 每 个 位 存储 在 一 个 双 稳 态 的 〈bistable) 存储 器 单元 (cell) 里 。 每 个 单元 是 用 一 个 六 
曲 体 管 电路 来 实现 的 这 个 电路 有 这 样 一 个 属性 ， 它 可 以 无 限期 地 保持 在 两 个 不 同 的 电压 配置 
(configuration ) 或 状态 (state) 之 一 。 其 他 任何 状态 都 是 不 稳定 的 一 一 从 那里 开始 ， 电 路 会 迅速 地 
转移 到 两 个 稳定 状态 中 的 一 个 。 这 样 一 个 存储 器 单元 类 似 于 图 6.1 中 男 出 的 倒转 的 钟 摆 。 

当 钟 摆 倾 斜 到 最 左边 或 最 右边 时 ， 它 是 稳定 的 。 从 其 他 任何 位 置 ， 钟 摆 都 会 倒 向 一 边 或 另 一 边 。 
原则 上 ， 钟 的 也 能 在 垂直 的 位 置 无 限期 地 保持 平衡 ， 但 是 这 个 状态 是 亚 稳 态 的 (metastable ) 一 最 
细微 的 扰动 也 能 使 它 倒 下 ， 而 且 一 旦 倒 下 就 永远 不 会 再 恢复 到 垂直 的 位 置 。 

由 于 SRAM 存储 器 单元 的 双 稳 态 特性 ， 只 要 有 电 ， 它 就 会 永远 地 保持 它 的 值 。 即 使 有 干扰 ， 例 
如 电子 噪音 ， 来 扰乱 电压 ， 当 干扰 消除 时 ， 电路 就 会 恢复 到 稳定 值 。 


不 稳定 状态 


左 稳 态 HEA 
图 6.1 “倒转 的 钟 摆 


同 SRAM 单元 一 样 ， 钟 摆 只 有 两 个 稳定 的 组 态 或 状态 。 

DRAM 将 每 个 位 存储 为 对 电容 的 充电 。 这 个 电容 非常 小 ， 通 党 只 有 大 约 干 万 亿 分 之 一 法 拉 
也 就 是 ，30X105 法拉。 不 过 ， 回想 一 下 法 拉 是 一 个 非常 大 的 计量 单位 。DRAM 存储 器 可 以 制造 得 
非常 密集 一 -每 个 单元 由 一 个 电容 和 一 个 访问 晶体 管 组 成 。 但 是 ， 与 SRAM 不 同 ，DRAM 存储 器 单 
元 对 干扰 非常 敏感 。 当 电容 的 电压 被 扰乱 之 后 ， 它 就 永远 不 会 恢复 了 。 暴 露 在 光线 下 会 导致 电容 申 
庄 改 变 。 实 际 上 ， 数 码 照 相机 和 摄像 机 中 的 传感器 本 质 上 就 是 DRAM 单元 的 阵列 。 

注 漏 电流 的 各 种 因素 会 导致 DRAM 单元 在 10 一 100 SMM NAA fy. HANE, 计算 机 运 
行 的 时 钟 周期 是 以 纳 秒 来 衡量 的 ， 这 个 保持 时 间 已 经 很 长 了 。 存储 器 系统 必须 周期 性 地 通过 读 出 然 
后 与 回来 刷新 存储 器 的 每 个 位 。 有 些 系 统 也 使 用 错误 纠正 码 ， 其 中 计算 机 的 字 会 被 多 编码 几 个 位 ( 例 
如 ，32 位 的 字 可 能 用 38 位 来 编码 )， 这 样 一 来 ， 电路 可 以 发 现 并 纠正 一 个 字 中 任何 单个 的 错误 位 。 

图 6.2 总 结 了 SRAM 和 DRAM 存储 器 的 特性 。 只 要 有 申 , SRAM 就 是 持续 的 。 与 DRAM FA, 
它 不 需要 刷新 。SRAM 的 存 取 比 DRAM th. SRAM 对 诸如 光 和 电 噪音 这 样 的 干扰 不 敏感 。 代 价 是 
SRAM 单元 比 DRAM 单元 使 用 更 多 的 晶体 管 ， 因 而 没 那么 密集 ， MASH, HEX. 


390 第 6 章 


高 速 缓存 存储 器 
主 存 ， 帧 缓冲 区 
图 6.2 DRAM 和 SRAM 存储 器 的 特性 


常规 的 DRAM 

DRAM 心 片 中 的 单元 (位 〉 被 分 成 d 个 超 单元 (supercell)， 每 个 超 单元 都 是 由 w 个 DRAM 单 
元 组 成 的 。 一 个 dXw 的 DRAM 总 共存 储 了 dw 位 信息 。 超 单元 被 组 织 成 一 个 + 行 c 列 的 长 方形 阵 
列 ， 这 里 rc=d。 每 个 超 单元 有 形 如 (i, DHH, AE i 表示 行 ， 而 j 表示 列 。 

例如 , 图 6.3 展示 的 是 一 个 16 X8 的 DRAM 芯片 的 组 织 , 有 d=16 个 超 单元 , 每 个 超 单元 有 w=8 
位 ，r=4 行 ，c=4 列 。 带 阴影 的 方 框 表示 地 址 (2.1) 处 的 超 单元 。 信 息 通 过 称 为 管 脚 (pin) 的 外 部 连 
接 器 流入 和 流出 芯片 。 每 个 管 脚 携带 一 个 一 位 的 信号 。 图 6.3 给 出 了 两 组 管 脚 ，8 个 data SH, © 
们 能 传送 一 个 字 节 到 艺 片 或 从 芯片 传 出 一 个 字 节 ， 以 及 2 个 addr SA, 它们 携带 2 位 的 行 和 列 超 单 
元 地 址 。 其 他 携带 控制 信息 的 管 脚 没有 显示 出 来 。 


la La] 


图 6.3 一 个 128 位 16x8 的 DRAM 芯片 的 高 级 视图 


Sit: 关于 术语 的 注释 

Fy EADIE MARA A DRAM 的 阵列 元 素 确 定 一 个 标准 的 名 字 。 计 算 机 构架 师 倾向 于 称 之 为 “单元 
(cell 六， 使 这 个 术语 具有 DRAM 存储 单元 之 意 。 电 路 设计 者 倾向 于 称 之 为 “ 字 〈word )>， 使 之 具有 主 存 
一 个 字 之 意 。 为 了 避免 混淆 ， 我 们 采用 了 无 歧义 芥 林 语 “ 超 单元 ( supercell )” . 

每 个 DRAM 芯片 被 连接 到 某 个 称 为 存 钳 控 制 器 的 电路 ， 这 个 电路 可 以 一 次 传送 w 位 到 每 个 
DRAM 心 所 或 一 次 从 每 个 DRAM 芯片 传 出 w 位 。 为 了 读 出 超 单元 (六 的 内 容 , 存储 控制 器 将 行 地 址 
i 发送 到 DRAM， 然 后 是 列 地 址 j。DRAM 把 超 单元 (ij) 的 内 容 发 回 给 控制 器 作为 响应 。 行 地 址 i 被 
bk RAS (Row Access Strobe, 行 访问 选 通 脉冲 ) 请 求 。 列 地 址 j 被 称 为 CAS (Column Access Strobe, 
列 访问 选 通 脉冲 ) 请 求 。 注 意 RAS 和 CAS 请 求 共享 同样 的 DRAM 地 址 管 脚 。 

例如 ,要 从 图 6.3 中 的 16X8 的 DRAM 中 读 出 超 单 元 (2,1),， 存储 控制 器 发 送行 地 址 2， 如 图 64 

Ca) 所 示 。DRAM 的 响应 是 将 行 2 的 整个 内 容 都 拷贝 到 一 个 内 部 的 行 缓冲 区 。 接 下 来 ， 存 储 控制 
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am AIS NPE 1， 如 图 6.4 (b) Pim. DRAM 的 啊 应 是 从 行 缓冲 区 拷贝 出 超 单元 (2.1) 中 的 8 位 ， 并 
把 它们 发 送 到 存储 控制 器 。 


DRAM 芯片 


f= 


A TARK | : “内 部 行 缓冲 区 


= 
Seccemactevens<= SSSCSRC Rata Beet O.Y = 关上 四 有 本 本 本 但 mm oil TI 


Ca) 选择 行 2 (RAS 请 求 ) (b) 选择 列 1 (CAS 请 求 ) 
图 6.4 读 一 个 DRAM 超 单元 的 内 容 


电路 设计 者 将 DRAM 组 织 成 二 维 阵列 而 不 是 线性 数组 的 一 个 原因 是 降低 芯片 上 地 址 管 脚 的 数 
量 。 例 如 ， 如 果 我 们 示例 的 128 位 DRAM 被 组 织 成 一 个 16 个 超 单元 的 线性 数组 ， 地 址 为 0 一 15， 
者 么 已 片 会 和 需要 4 个 地 址 管 脚 而 不 是 2 个 。 二 维 阵列 组 织 的 缺点 是 必须 分 两 步 发 送 地 址 ， 这 增加 了 
访问 时 间 。 

AFR ARR 

DRAM 心 片 包装 在 存储 器 模块 (memory module) th, 它 插 到 主板 的 扩展 槽 上 。 常 见 的 包装 包 
FE 168 个 管 脚 的 双 列 直 插 存储 器 模块 (Dual Inline Memory Module, DIMM), ‘ELA 64 位 为 块 传送 数 
据 到 存储 控制 器 和 从 存储 控制 器 传 出 数据 ， 还 包括 72 个 管 脚 的 单列 直 插 存储 器 模块 (Single Inline 
Memory Module, SIMM), ‘UA 32 位 为 块 传送 数据 。 

图 6.5 展示 了 一 个 存储 器 模块 的 基本 思想 。 示 例 模块 用 八 个 64Mbit 的 8MX8 的 DRAM 芯片 ， 
总 共存 储 64MB ( 兆 字 节 )， 这 八 个 芯片 编号 为 0~7. 每 个 超 单元 存储 主 存 的 一 个 字 节 ， 而 用 相应 
超 单元 地 址 为 (ij) 的 八 个 超 单元 来 表示 主 存 中字 节 地 址 A 处 的 64 位 双 字 。 在 图 6.5 中 的 示例 中 ， 
DRAM 0 存储 第 一 个 低位》 字 节 ，DRAM 1 存储 下 一 个 字 节 ， 依 此 类 推 。 

归 取 出 存储 器 地 址 A 处 的 一 个 64 位 双 字 , 存储 控制 器 将 A 转换 成 一 个 超 单 元 地 址 (i), 并 将 它 
友 公 到 存储 器 模块 ， 然 后 存储 器 模块 再 将 i 和 j 广播 到 每 个 DRAM.。 作为 响应 , 每 个 DRAM 输出 它 
的 (ij) 超 单元 的 8 位 内 容 。 模 块 中 的 电路 收集 这 些 输 出 ， 并 把 它们 合并 成 一 个 64 位 双 字 ， 再 返回 给 
存储 控制 器 。 

通过 将 多 个 存储 器 模块 连接 到 存储 控制 器 ， 能 够 聚合 主 存 。 在 这 种 情况 中 ， 当 控制 器 收 到 一 个 地 
HE 4 时 ， 控 制 器 选择 包含 4 的 模块 上 ,将 A 转换 成 它 的 (ij) 的 形式 ， 并 将 (i) 发 送 到 模块 k. 


1 IA32 会 称 64 位 为 “四 字 ”。 
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练习 题 6.1 

接 下 来 ，r 表示 一 个 DRAM 阵列 中 的 行 数 ，c 表示 列 数 ， 忆 表示 行 寻 址 所 需 的 位 数 ， 户 表示 列 
可 址 所 需 的 位 数 。 对 于 下 面 每 个 DRAM, 确定 2 的 知 数 的 数组 维 数 , 使 得 max(b,, bm‘), max(b,, b) 
是 对 数组 的 行 或 列 寻 址 所 需 的 位 数 中 较 大 的 值 . 


口 : 超 单 元 (ij) 


由 八 个 8MX8 的 
DRAM 组 成 的 64MB 


存储 器 模块 

56~63148~55140~47132~39|24-31|116~23} 8-15 | 0-7 

位 上 位 | 位 | 位 | 位 | 位 | 位 | 位 

63 5655 4847 4039 3231 2423 1615 8 7 0 
| tT TT TT T T TI | [perag 


位 于 主 存 地 址 A 处 的 64 位 双 字 


到 CPU A A 64 位 双 字 


图 6.3 读 一 个 存储 器 模块 的 内 容 


增强 的 DRAM 
有 许多 种 DRAM 存储 器 , 而 生产 厂商 试图 跟 上 迅速 增长 的 处 理 器 速度 , 市 场 上 会 定期 推出 新 的 
MAR. 每 种 都 是 基于 传统 的 DRAM 单元 ， 并 进行 了 一 些 优化 ， 改 进 了 访问 基本 DRAM 单元 的 速度 。 
e FPM DRAM (fast page mode DRAM， 快 页 模式 DRAM)。 传 统 的 DRAM 将 超 单 元 的 一 整 行 
拷贝 到 它 的 内 部 行 缓冲 区 中 ， 使 用 一 个 ， 然 后 丢弃 剩余 的 。FPM DRAM 允许 对 同一 - 行 连续 的 
访问 可 以 直接 从 行 缓冲 区 得 到 服务 ， 从 而 改进 了 这 一 点 。 例 如 ， 要 从 一 个 传统 的 DRAM 的 行 
i 中 读 四 个 超 单元 ， 存 储 控制 器 必须 发 送 四 个 RAS/CAS 请 求 ， 即 使 是 行 地 址 i 在 每 个 情况 中 
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都 是 一 样 的 。 要 从 一 个 FPM DRAM 的 同一 行 中 读 取 超 单元 , 存储 控制 器 发 送 第 一 个 RAS/CAS 
请 求 ， 后 面 跟 三 个 CAS 请 求 。 开 始 的 RAS/CAS 请 求 将 行 寺 拷贝 到 行 缓冲 区 ， 并 返回 第 一 个 
超 单元 。 接 下 来 三 个 超 单元 直接 从 行 缓冲 区 获得 服务 ， 因 此 比 开始 的 超 单元 更 快 。 
e EDO DRAM (extended data out DRAM， 扩 展 数据 输出 DRAM). FPM DRAM 的 一 个 增强 
的 形式 ， 它 允许 单独 的 CAS 信和 号 在 时 间 上 靠 得 更 紧密 一 点 。 
e SDRAM (synchronous DRAM,， 同 步 DRAM)。 就 它们 与 存储 控制 器 通信 使 用 一 组 显 式 的 控 
制 信号 来 说 ， 常 规 的 、FPM 和 EDO DRAM 都 是 异步 的 。SDRAM 用 与 驱动 存储 控制 器 相 
同 的 外 部 时 钟 信 号 的 上 升 沿 来 代替 许多 这 样 的 控制 信号 。 我 们 不 会 深入 讨论 细节 ， 最 终 效 
Ade SDRAM 能 够 比 那些 异步 的 存储 器 更 快 地 输出 它 的 超 单元 的 内 容 。 
e DDR SDRAM (double data-rate synchronous DRAM， 双 倍数 据 速率 同 步 DRAM). DDR 
SDRAM 是 对 SDRAM 的 一 种 增强 ， 它 通过 使 用 时 钟 的 两 个 边沿 作为 控制 信号 ， 从 而 使 
DRAM 的 速度 翻 倍 。 
e Rambus DRAM (RDRAM)。 这 是 另 一 种 私有 技术 ， 它 的 最 大 带宽 比 DDR SDRAM 的 更 高 。 
e VRAM RAM (Video RAM,， 视频 )。 它 用 在 图 形 系统 的 帧 绿 冲 区 中 。VRAM 的 思想 与 FPM 
DRAM 类 似 。 两 个 主要 区 别 是 : (DVRAM 的 输出 是 通过 依次 对 内 部 缓冲 区 的 整个 内 容 进行 
BATS BIN; QVRAM 允许 对 存储 器 并 行 地 读 和 写 。 因 此 ， 系 统 可 以 在 写 下 一 次 更 新 的 新 
E CS) 的 同时 ， 用 帧 缓冲 区 中 的 像素 刷 屏 幕 〈 读 )。 
Sit: DRAM 技术 流行 的 历史 
直到 1995 年 ， 大 多 数 PC 都 是 用 FPM DRAM 制造 的 。1996 一 1999 年 ，EDO DRAM 在 市 场 上 上 所 了 
优势 ， 而 FPM DRAM 几乎 销声匿迹 了 。SPDRAM 最 早出 现在 1995 年 在 高 端 系统 中 ， 而 到 2002 年 ， 大 多 
3% PC 都 是 用 SDRAM 和 DDR SDRAM 制造 的 。 


FE SA RTE RE 

WREE, DRAM 和 SRAM 会 丢失 它们 的 信息 ， 从 这 个 意义 上 说 ， 它 们 是 易 失 的 volatile)。 
刃 一 方面 ， 非 易 失 性 存储 器 (nonvolatile memory) 即使 是 在 关 电 后 ， 仍然 保存 着 它们 的 信息 。 有 很 
多 种 非 易 失 性 存储 器 。 由 于 历史 原因 ， 虽 然 ROM 中 有 的 类 型 既 可 以 读 也 可 以 写 ， 但 是 它们 整体 上 
都 被 称 为 ROM (read-only memory， 只 读 存 储 器 )。ROM 是 以 它们 能 够 被 重 编程 (5) 的 次 数 和 对 
它们 进行 重 编程 所 用 的 机 制 来 区 分 的 。 

PROM (programmable ROM， 可 编程 ROM) 只 能 被 编程 一 次 。PROM 包括 一 种 谤 丝 (fuse), 
每 个 存储 器 单元 只 能 用 高 电流 熔断 一 次 。 

EPROM (erasable programmable ROM， 可 擦 写 可 编程 ROM) 有 一 个 透明 的 石英 窗口 ， 允 许 光 
到 达 存 储 单元 。 紫 外 线 光照 射 过 窗口 ，EPROM 单元 就 被 清除 为 0。 对 EPROM 编程 是 通过 使 用 一 种 
把 1 写 入 EPROM 的 特殊 设备 来 完成 的 .EPROM 能 够 被 擦 除 和 重 编程 的 次 数 的 数量 级 可 以 达到 1000 
次 。EEPROM (electrically erasable PROM， 电 子 可 擦 除 PROM) 类 似 于 EPROM, 但 是 它 不 需要 一 
个 物理 上 独立 的 编程 设备 , 因此 可 以 直接 在 印 制 电路 卡 上 编程 。EEPROM 能 够 被 编程 的 次 数 的 数量 
级 可 以 达到 10° XK. A (flash memory) 是 一 类 小 的 非 易 失 性 存储 器 ， 基 于 EEPROM， 它 可 以 插 
入 到 呆 面 机 器 、 手 持 设备 或 视频 游戏 控制 台 ， 以 及 从 上 面 拔 下 来 。 

存储 在 ROM 设备 中 的 程序 通常 被 称 为 固件 firmware)。 当 一 人 计算 机 系统 通电 以 后 ， 它 会 运 


394 第 6 章 


行 存储 在 ROM 中 的 固件 。 一 些 系 统 在 固件 中 提供 了 少量 基本 的 输入 和 输出 函数 一 一 例如 ，PC 的 
BIOS (基本 输入 /输出 系统 ) 例 程 。 复 杂 的 设备 ， 像 图 形 卡 和 磁盘 驱动 器 ， 也 依赖 国 件 来 翻译 来 上 自 
CPU 的 VO (输入 /输出 ) 请 求 。 


访问 主 存 

数据 洲 通 过 称 为 总 线 (bus) 的 共享 电路 在 处 理 器 和 DRAM 主 存 之 间 来 来 回回 。 每 次 CPU 和 
主 存 之 间 的 数据 传送 都 是 通过 一 系列 步骤 来 完成 的 ， 这 些 步 又 称 为 总 线 事 务 (bus transaction)。 读 
事务 (read transaction) 从 主 存 传送 数据 到 CPU， 写 事务 (write transaction) 从 CPU 传送 数据 到 
主 存 。 

总 线 是 一 组 并 行 的 导线 ， 能 携带 地 址 、 数 据 和 控制 信和 号。 取决 于 总 线 设 计 ， 数 据 和 地 址 信号 可 
以 共享 同一 组 导线 ， 也 可 以 使 用 不 同 的 。 同 时 ， 两 个 以 上 的 设备 也 能 共享 同一 个 总 线 。 控 制 线 携带 
的 信号 会 同步 事务 ， 并 标识 出 当前 正在 被 执行 的 事务 的 类 型 。 例 如 ， 当 前 关注 的 这 个 事务 是 到 主 存 
的 吗 ? 还 是 到 诸如 磁极 控制 器 这 样 的 其 他 L/O 设备 ? 这 个 事务 是 读 还 是 写 ? 总 线 上 的 信息 是 地 址 还 
是 数据 项 ? 

图 6.6 展示 了 一 台 典 型 的 桌面 系统 的 结构 。 主 要 部 件 是 CPU OH. RRA VO 桥接 器 (LO 
bridge) MSHA 〈 其 中 包括 存储 控制 器 )， 以 及 组 成 主 存 的 DRAM 存储 器 模块 。 这 些 部 件 由 -一 对 
总 线 连 接 起 来 的 ， 其 中 一 条 总 线 是 系统 总 线 (system bus), EH CPU 连接 到 UVO 桥接 器 ， 另 一 条 总 
线 是 存储 器 总 线 (memory bus), CH VO 桥接 器 连接 到 主 存 。 

VO 桥接 器 将 系统 总 线 的 电信 号 翻译 成 存储 器 总 线 的 电信 号 。 正 如 我 们 看 到 的 那样 ，VO 桥接 器 
也 将 系统 总 线 和 存储 器 总 线 连接 到 VO 总 线 ， 像 磁盘 和 图 形 卡 这 样 的 WO 设备 共享 VO 总 线 。 不 过 
现在 ， 我 们 将 注意 力 集中 在 存储 器 总 线 上 。 


CPU 芯片 


图 6.6 ”典型 的 连接 CPU 和 主 存 的 总 线 结构 
考虑 当 CPU 执行 一 个 加 载 操作 时 会 发 生 什 么 
movl A, %eax 
这 里 ， 地 址 A 的 内 容 被 加 载 到 寄存 器 %eax FP. CPU 芯片 上 称 为 总 线 接口 (bus interface) WH 
路 友 起 总 线 上 的 读 事务 。 读 事务 是 由 三 个 步骤 组 成 的 。 首 先 ，CPU 将 地 址 A 放 到 系统 总 线 上 。LIO 
桥接 器 将 信号 传递 到 存储 器 总 线 ， 如 图 6.7 (a)。 接 下 来 ， 主 存 感 觉 到 存储 器 总 线 上 的 地 址 信号 ， 从 
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存储 器 总 线 读 地 址 ， 从 DRAM 取出 数据 字 ， 并 将 数据 写 到 存储 器 总 线 。LO 桥接 器 将 存储 器 总 线 信 
号 翻译 成 系统 总 线 信 号 ， 然 后 传递 到 系统 总 线 ， 如 图 6.7 (b)。 最 后 ，CPU 感觉 到 系统 总 线 上 的 数 
据 ， 从 总 线 上 读数 据 ， 并 将 数据 拷贝 到 寄存 器 %eax， 如 图 6.7 Cc). 


寄存 器 文件 


teax coer “ed oo 


总 线 接口 


寄存 器 文件 


(b>) 主 存 从 总 线 读 出 A， 接 收 字 x， 然 后 将 x 放 到 总 线 上 


寄存 器 文件 


主 存 
0 
A 


(c) CPU 从 总 线 读 出 字 x， 并 将 它 找 贝 到 寄存 器 Weax 中 


图 6.7 ”加载 操 作 mo A, Zeax 的 存储 器 读 事务 
相反 地 ， 当 CPU 执行 一 个 存储 操作 时 
movl teax, A 
这 里 ， 寄 存 器 %eax 的 内 容 被 写 到 地 址 A, CPU 发 起 写 事 务 。 同 样 ， 有 三 个 基本 步骤 。 首 先 ， 
CPU 将 地 址 放 到 系统 总 线 上 。 存 储 器 从 主 存 总 线 读 出 地 址 ， 并 等 待 数据 到 达 ， 如 图 6.8 (a). BF 


K, CPU 将 %eax 中 的 数据 字 拷 贝 到 系统 总 线 ， 如 图 6.8 (b)。 最 后 ， 主 存 从 存储 器 总 线 读 出 数据 字 ， 
然后 再 将 这 些 位 存储 到 DRAM 中 ， 如 图 6.8 Cc). 
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ALU 


电线 接口 


(a) CPU 将 地 址 A 放 到 存储 器 总 线 。 主 存 读 出 这 个 地 址 ， 并 等 待 数据 字 


(b) CPU 将 数据 字 y 放 到 总 线 上 


寄存 器 文件 


(c) 主 存 从 总 线 读数 据 字 y， 并 将 它 存 储 在 地 址 A 
图 6.8 存储 操作 movl%eax, A 的 存储 器 写 事务 


6.1.2 磁盘 存储 

磁盘 是 广 为 应 用 的 保存 大 量 数据 的 存储 设备 , 存储 数据 的 数量 级 可 以 达到 几 十 到 几 百 千 兆 字 节 ， 
而 基于 RAM 的 存储 器 只 能 有 几 百 或 几 干 兆 字 节 。 不 过 ， 从 磁盘 上 读 信息 需要 几 毫 秒 ， 比 从 DRAM 
读 慢 了 10 万 倍 ， 比 从 SRAM 读 慢 了 100 万 倍 。 


做 盘 构 造 

磁盘 是 由 盘 片 《platter) 构成 的 。 每 个 盘 片 有 两 面 ， 表面 (surface) 覆盖 着 磁性 记录 材料 。 盘 片 
中 间 有 一 个 可 以 旋转 的 主轴 (spindle)， 它 使 得 盘 片 以 固定 的 旋转 速率 (rotational rate) 旋转 ， 通 常 
Fe 5 400~15 000RPM (revolution per minute， 转 每 分 钟 )。 夏 盘 通 常 包含 一 个 或 多 个 这 样 的 盘 片 ， 
甩 装 在 一 个 密封 的 容器 内 。 

图 6.9 (a) 展示 了 一 个 典型 的 磁盘 表面 的 结构 。 每 个 表面 是 由 一 组 称 为 磁道 Crack) 的 同心 圆 
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组 成 的 ， 且 每 个 磁道 被 划分 为 一 组 扇 区 〈sector)。 每 个 扇 区 包含 相等 数量 的 数据 位 〈 通 常 是 512 字 
方 )， 这 些 数 据 编码 在 扇 区 上 的 磁性 材料 中 。 扇 区 之 间 由 一 些 间 了 贞 Cgap) 分 阳 开 ， 这 些 则 阶 中 不 存 
储 数据 位 。 间 际 存 储 用 来 标识 扇 区 的 格式 化 位 。 

磁盘 是 由 一 个 或 多 个 县 放 在 一 起 的 盘 片 组 成 的 ， 它 们 放 在 一 个 罕 封 的 包装 里 ， 如 图 6.9 (b) 所 
未 。 整 个 装置 通常 被 称 为 磁盘 驱动 器 (disk drive), 里 然 我 们 通常 简称 为 磁盘 (disk)。 


H k 
BAX 0 
ARK 1 盘 片 0 
AK 2 
BAK 3 BHK l 
AK 4 
BAK 5 盘 片 2 
主轴 
(a) 一 个 盘 片 的 视图 (b》 多 个 盘 片 的 视图 


图 6.” 磁盘 构造 

磁盘 制造 商 通常 用 木 语 柱 面 (cylinder) 来 描述 多 个 盘 片 驱动 器 的 构造 ， 这 虫 ， 柱 面 是 所 有 盘 片 
表面 上 到 中 心 主轴 的 距离 相等 的 磁道 的 集合 。 例 如 ， 如 果 一 个 驱动 器 有 三 个 盘 片 、 WTB. Ah 
上 的 磁道 的 编号 都 是 一 致 的 ， 那 么 柱 面 上 就 是 六 个 磁道 上 的 集合 。 

fi SEY tat 

一 个 磁盘 上 可 以 记录 的 最 大 位 数 被 称 为 它 的 最 大 容量 ， 或 者 简称 为 容量 。 磁盘 容量 是 由 以 下 技 
术 因 素 决 定 的 : 

。 EKEJI (recording density) (位 /英寸 )， 做 道 一 英寸 的 段 中 可 以 放 入 的 位 数 。 

。 磁道 密度 (track density) GE: 从 盘 片 中 心 出 发 半径 为 一 英寸 的 段 内 可 以 有 的 磁道 数 。 

° 向 密度 (areal density) (位 /平方 英寸 ). 岂 录 密度 与 磁道 密度 的 乘积 。 

磁盘 制造 商 不 懈 地 努力 以 增加 面 密度 〔 从 而 增加 容量 )， 而 面 密度 每 隔 几 年 就 会 翻 倍 。 最 初 的 磁 
盘 ， 是 在 面 密度 很 低 的 时 代 设计 的 ， 将 每 个 磁道 分 为 数目 相同 的 扇 区 ， 局 区 的 数目 是 由 最 内 的 磁道 能 
记录 的 肩 区 数 决定 的 。 为 了 保持 每 个 磁道 有 固定 的 扇 区 数 ， 越 往 外 的 磁道 扇 区 隔 得 越 开 。 在 面 密 度 相 
对 比较 低 的 时 候 ， 这 种 方法 很 合理 。 不 过 ， 随 着 面 密度 的 提高 ， 局 区 之 间 的 间隙 (那里 没有 存储 数据 
位 ) 变 得 不 可 接收 的 大 了 。 因 此 ， 现代 大 容量 磁盘 使 用 一 种 称 为 多 区 记录 (multiple zone recording) 
的 技术 。 在 这 种 技术 中 ， 磁 道 集合 被 分 成 了 不 相交 的 子 集合 ， 称 为 记录 区 (recording zone)。 每 个 区 
包含 一 组 连续 的 磁道 。 一 个 区 中 的 每 个 磁道 都 有 相同 数量 的 扇 区 ， 这 个 扇 区 的 数量 是 由 该 区 中 最 里 面 
的 磁道 所 包含 的 肩 区 数 确 定 的 。 注 意 ， 软 盘 仍 然 使 用 的 是 老式 的 方法 ， 每 个 磁道 的 房 区 数 是 常数 。 

下 面 的 公式 给 出 了 一 个 磁盘 的 容量 : 

Disk #bytes average# sectors 4 tracks # surfaces # platters 
capacity | “sector” — track ™ surface platter ~ disk 
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例如 ， 假 设 我 们 有 一 个 磁盘 ， 有 5 MRA, NAR 512 字 节 ， 每 个 面 20 000 条 磁道 ， 每 条 磁 
E FIY 300 个 局 区 。 那 么 这 个 磁盘 的 容量 


Disk _ 512bytes 300sectors 20000tracks 2surfaces 5 platters 
capacity ~ “sector ~ track surface i platter ~ disk 
= 30720000000bytes 
= 30.72GB 


注意 ， 制 造 商 是 以 干 兆 字 节 (GB) 为 单位 来 表达 磁盘 容量 的 ， 这 里 1GB = 10” 字 节 ， 


TE, RK (kilo) 、M (mega) 和 G (giga) 这 样 的 前 组 的 含义 依赖 于 上 下 文 。 对 于 与 DRAM 和 
SRAM 容量 相关 的 单位 ， 通 常 K=2"，M= 2”， 而 G =22。 对 于 与 像 磁盘 和 网 络 这 样 的 LO 设备 容量 相 
关 的 单位 ， 通 常 K= 10，M= 104， 而 G= 10?. 速率 和 吞吐 量 常常 也 使 用 这 些 前 级 ， 

得 运 地 ， 对 于 我 们 通常 依赖 的 封底 〔 back-of-the-envelope ) 估计 值 ， 无 论 是 哪 种 假设 在 实际 中 都 工作 
得 很 好 。 例 如 ，2” = 1 048 576 和 10° = 1 000 000 之 间 相 对 差别 很 小 : (22 - 109 1 105 = $%。 类 似 地 ， 对 
F 2” = 1073 741 824 和 10?= 1 000 000 000: (2% - 10° 10°=7%. 


练习 题 6.2 
计算 这 样 一 个 磁盘 的 容量 ， 它 有 2 个 盘 片 ，10 000 个 柱 面 ， 每 条 磁道 平均 有 400 个 扇 区 ， 而 每 
个 局 区 有 $12 字 节 。 


RE EE ERE 

Ri ES FA: EB — “45 AP (actuator arm) 的 读 / 写 头 (read/write head) 来 读 写 存储 在 磁性 表面 
的 位 ， 如 图 6.10 (a) 所 示 。 通 过 沿 着 半径 轴 移 动 这 个 传动 臂 ， 驱 动 器 可 以 将 读 / 写 头 定位 在 盘面 上 
的 任何 磁道 上 。 这 样 的 机 械 运 动 称 为 寻 道 (seek)。 一 瑟 读 / 写 头 定位 到 了 期 望 的 磁道 上 ， 那 么 当 破 
志 上 的 每 个 位 通过 它 的 下 面 时 ， 读 / 写 头 可 以 感知 到 这 个 位 的 值 〈 读 该 位 )， 也 可 以 修改 这 个 位 的 值 
(与 该 位 )。 有 多 个 盘 片 的 磁盘 针对 每 个 盘面 都 有 一 个 独立 的 读 / 写 头 ， 如 图 6.10 b) 所 示 。 读 / 写 
头 王 直 排 列 ， 一 致 行动 。 在 任何 时 刻 ， 所 有 的 读 / 写 头 都 位 于 同一 个 柱 面 上 。 


磁盘 表面 以 国定 读 / 写 头 连 到 传动 辟 的 
的 < Ei sex ` Fa i ; 

HERRE REFE ， 未 端 , 在 磁盘 表面 上 一 读 / 写 头 
层 水 萍 的 气垫 上 飞 郑 


f 
f 


ERA 


通过 在 半径 方向 上 


Ba, HAT 
将 读 / 写 头 定位 在 
任何 磁道 上 
(a) 一 个 盘 片 的 视图 (b 多 个 盘 片 的 视图 


图 6.10 磁盘 的 动态 特性 
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在 传动 臂 末 端的 读 / 写 头 在 磁盘 表面 高 度 大 约 0.1 微米 处 的 一 层 薄 薄 的 气垫 上 飞翔 .速度 大 约 为 
80km/h。 在 这 样 小 的 间 孙 里， 盘面 上 一 粒 微小 的 灰尘 都 像 一 块 已 石 。 如 果 读 /号 头 碰 到 了 这 样 的 一 块 已 
石 ， 读 / 写 头 会 停 下 来 ， 撞 到 盘面 一 一 所 谓 的 读 / 写 头 冲 撞 Chead crash)。 为 此 ， 磁 盘 忠 是 密封 包 疙 的 。 

磁盘 以 扇 区 大 小 的 块 来 读 写 数据 。 对 扇 区 的 访问 时 间 (access time) 有 三 个 主要 的 部 分 : 时 道 
时 间 (seek time), 4$} ti] (rotational latency) 和 传送 时 间 (transfer time): 

。 寻 道 时 间 ， 为 了 读 取 某 个 目标 扇 区 的 内 容 ， 传 动 璧 首先 将 读 / 写 头 定位 到 包含 目标 户 区 的 磁 
道上 。 移 动 传 动 辟 所 需 的 时 间 称 为 寻 道 时 间 。 寻 道 时 间 7... 依赖 于 传动 臂 以 六 的 位 置 和 传 
动 璧 在 盘面 上 移动 的 速度 。 现 代 驱 动 器 中 平均 寻 道 时 间 Tove ,是 通过 对 几 千 次 对 随机 扇 区 
的 寻 道 求 平均 值 来 测量 的 ， 通 常 为 6~9ms。 一 次 寻 道 的 最 大 时 间 Tmar seer 可 以 高 达 20ms。 

。 旋转 时 间 ， 一 旦 读 / 写 头 定位 到 了 期 望 的 磁道 ， 驱 动 器 等 待 日 标 扇 区 的 第 一 个 位 旋转 到 读 / 
写 头 下 。 这 个 步骤 的 性 能 依赖 于 当 读 / 写 头 到 达 目 标 扇 区 时 盘面 的 位 置 , 和 磁盘 的 旋转 速度 。 
在 最 坏 的 情况 下 ， 读 / 写 头 刚刚 错过 了 目标 扇 区 ， 必 须 等 待 磁盘 转 一 整 圈 。 因 此 ， 最 大 旋转 
时 间 ， 以 秒 为 单位 ， 是 

l 60 secs 

RPM l min 
平均 旋转 时 间 Tave rotation 是 Tmax rotation 的 一 半 。 

。 传送 时 间 : 当 目 标 扇 区 的 第 一 个 位 位 于 读 / 写 头 下 时 ， 驱 动 器 就 可 以 开始 读 或 者 写 该 而 区 的 
内 容 了 。 一 个 局 区 的 传送 时 间 依 赖 于 旋转 速度 和 每 条 磁道 的 户 区 数 日 。 因 此 ， 我 们 可 以 粗 
略 地 估计 一 个 户 区 以 秒 为 单位 的 平均 传送 时 间 如 下 

L y 1 60 secs 

RPM (average # sectors/track) imin 
我 们 可 以 估计 访问 一 个 磁盘 局 区 内 容 的 平均 时 间 为 平均 寻 道 时 间 、 平 均 旋转 时 间 和 平均 传送 时 

间 的 和 。 例 如 ， 考 虑 一 个 有 如 下 参数 的 磁盘 : 


$ 数 
旋转 速率 


Tmax rotation 一 


T 


avg transfer 一 


Tag seek 


每 条 磁道 的 平均 扁 区 数 


对 于 这 个 磁盘 ， 平 均 旋 转 时 间 (以 ms 为 单位 ) 是 


T 


avg rotation 


= I/2x T max rotation 


= 1/2x(60 secs/7200 RPM ) x 1000 ms/sec 
= 4ms 


平均 传送 时 间 是 

Tave transfer = 60/7200 RPM x1/400 sectors/track x 1000 ms/sec 
0.02 ms 
总 之 ， 整 个 估计 的 访问 时 间 是 
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Jee = oer seek 十 lavi rotation 十 hove transfer 
= 9ms+4ms+0.02 ms 
= 13.02 ms 


这 个 例子 说 明了 一 些 很 重要 的 问题 : 

e 访问 一 个 磁盘 扇 区 中 512 字 节 的 时 间 主 要 是 寻 道 时 间 和 旋转 时 间 。 访 问 扇 区 中 的 第 -- 个 字 
三 用 了 很 长 时 间 ， 但 是 剩 下 的 字 节 几乎 不 用 时 间 。 

© 因为 寻 惠 时间 和 旋转 时 间 大 致 相等 的 ， 所 以 将 寻 道 时 间 乘 2 是 估计 磁盘 访问 时 间 的 简单 而 
合理 的 方法 。 

。 对 存储 在 SRAM 中 的 双 字 的 访问 时 间 大 约 是 4ns， 对 DRAM 的 访问 时 间 是 60ns。 因 此 ， 从 
存储 器 中 读 一 个 512 字 节 扇 区 大 小 的 块 的 时 间 对 SRAM 来 说 大 约 是 256ns, 对 DRAM 来 说 
Ke te 4000ns。 磁 盘 访 问 时 间 (大 约 10ms) 比 SRAM KAK 40000 倍 ， 比 DRAM KAK 
2500 倍 。 如 果 我 们 比较 访问 一 个 单字 的 时 间 ， 这 些 访问 时 间 的 差别 会 更 大 。 

练习 题 6.3 

估计 访问 下 面 这 个 磁盘 上 一 个 忆 区 的 访问 时 间 (以 ms 为 单位 ); 

参 数 


旋转 速率 
Tave seek &ms 


ERROBI F EA M 


iZ PHE AH 

正如 我 们 看 到 的 那样 ， 现 代 磁 盘 构 造 复杂 ， 有 多 个 盘面 ， 这 些 盘 面 上 有 不 同 的 记录 区 。 为 了 对 
操作 系统 隐藏 这 样 的 复杂 性 ， 现 代 磁 盘 将 它们 的 构造 简化 为 一 个 b 个 肩 区 大 小 的 逻辑 块 的 序列 ， 编 
号 为 0,1,…,b-1。 磁 盘 中 有 一 个 小 的 硬件 /固件 设备 ， 称 为 碰 盘 控制 器 ， 维 护 着 逻辑 块 号 和 实际 〔 物 
PE) 磁盘 山区 之 间 的 上 映射 关系 。 

当 操 作 系 统 想 要 执行 一 个 VO 操作 时 ， 例 如 读 一 个 磁盘 扇 区 的 数据 到 主 存 ， 操 作 系 统 会 发 送 一 
个 命令 到 磁盘 控制 器 ， 让 它 读 某 个 逻辑 块 号 。 控 制 器 上 的 固件 执行 一 个 快速 表 查 找 ， 将 一 个 逻辑 块 
SRE TS CR, Bh, AR) 的 三 元 组 ， 这 个 三 元 组 惟一 地 标识 了 对 应 的 物理 扇 区 。 控 制 器 
上 的 便 件 解释 这 个 三 元 组 ， 上 将 VO 头 移动 到 适当 的 柱 面 ， 等 待 扇 区 移动 到 VO 头 下 ， 将 VO 头 感知 
到 的 位 放 到 控制 器 上 的 一 个 小 缓冲 区 中 ， 然 后 将 它们 拷贝 到 主 存 中 。 
Sit: 格式 化 的 磁盘 容量 

在 磁 司 可 以 存储 数据 之 前 ， 它 必须 被 磁盘 控制 器 格式 化 。 这 包括 用 标识 扁 区 的 信息 填写 扁 区 之 间 的 
癌 陈 ， 标 识 出 表面 有 故障 的 柱 面 并 且 不 使 用 它们 ， 以 及 在 每 个 区 中 预 留 出 一 组 柱 面 作为 备用 。 如 果 区 中 
一 个 柱 面 在 磁 僵 使 用 过 程 中 坏 掉 了 ， 就 可 以 使 用 这 些 备用 的 柱 面 。 因 为 存在 着 这 些 备用 的 柱 面 ， 所 以 磁 
SBS Bh PLGA AIA ERAS BE). 


访问 磁盘 
像 图 形 卡 、 监 视 器 、 鼠 标 、 键 盘 和 磁盘 这 样 的 设备 都 是 通过 诸如 Intel 的 PCIC Peripheral Component 
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Interconnect, SPER Bit) 总 线 这 样 的 VO 总 线 连接 到 CPU 和 主 存 的 。 间 系统 总 线 和 存储 器 总 线 
个 同 ( 它 们 是 与 CPU 相 关 的 ), 诸 如 PCI 这 样 的 WO RE 发 计 成 与 底层 CPU EX. plin, PCA Macintosh 
部 可 以 使 用 PCI 总线。 图 6.11 展示 了 一 个 典型 的 VO 总 线 结构 (A PCI 为 模型 )， 它 连接 了 CPU. 
EFM VO 设备 。 


CPU 
寄存 器 文件 


= 
= 


系统 总 线 Wi 
Hie 


针对 诸如 网 络 适 


s a 7 配器 这 样 的 其 他 


BRER 键盘 监视 器 < 


图 6.11 典型 的 总 线 结构 ， 它 连接 CPU、 主 存 和 WO 设备 


显然 VO 总 线 比 系统 总 线 和 存储 器 总 线 慢 ， 但 是 它 可 以 容纳 种 类 繁多 的 第 三 方 WO 设备 。 例 如 ， 
在 图 6.11 中 ， 有 三 个 不 同类 型 的 设备 连接 到 总 线 ， 
e USB (Universal Serial Bus, 通用 串 行 总 线 ) 控制 器 是 一 个 将 设备 连接 到 USB 的 电路 。USB 
的 吞吐 率 可 以 达到 12Mbit/s. 左 为 慢 速 或 中 速 串 行 设备 设计 的 ， 例 如 键盘 、 和 鼠标 、 调 制 解 
Wala. SEGAL. RAF. CD-ROM 驱动 器 和 打印 机 。 
。 图形 卡 (或 适配器 ) 包含 硬件 和 软件 逻辑 ， 它们 负责 代表 CPU 在 显示 器 上 画像 素 。 
。 磁盘 控制 器 包含 硬件 和 软件 逻辑 ， 它 们 用 来 代表 CPU 读 写 磁盘 数据 。 
其 他 的 设备 , 例如 网 络 适 配器 , 可 以 通过 将 适配器 插入 到 主板 上 空 的 扩展 槽 中 ， 从 而 连接 到 VO 
总 线 ， 这 些 插 模 提供 了 到 总 线 的 直接 电路 连接 。 
时 然 详 细 描 述 VO 设备 是 如 何 工作 的 以 及 如 何 对 它们 进行 编程 ， 超 出 了 我 们 讨论 的 范围 ， 但 是 
我 们 可 以 给 你 一 个 概要 的 描述 。 例 如 ， 图 6.12 总 结 了 当 CPU 从 磁盘 读数 据 时 发 生 的 步骤 。 
CPU 使 用 一 种 称 为 存储 器 映射 JJO (memory-mapped VO) 的 技术 来 向 VO 设备 发 射 命令 ， 如 图 
6.12 Ca) 所 示 。 在 使 用 存储 器 映射 VO 的 系统 中 ， 地 址 空间 中 有 一 块 地 址 是 为 与 IO 设备 通信 保留 
的 。 每 个 这 样 的 地 址 称 为 一 个 WO 端口 (UO port)。 当 一 个 设备 连接 到 总 线 时 ， 它 与 一 个 或 多 个 端 
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口 相 关联 (或 它 被 映射 到 一 个 或 多 个 端口 )。 
CPU i} 


USB 控制 器 
限 标 键盘 


Ca) CPU 通过 将 命令 、 逻 辑 块 号 和 目的 存储 器 地 址 写 到 与 磁盘 相关 联 的 存储 器 映射 地 址 ， 发 起 一 个 辜 盘 读 


CPU 芯片 
寄存 器 文件 


USB 控制 器 


BER 键盘 监视 器 


Cb) BBR RRR, FATT FEA DMA 传送 
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CPU 芯片 
寄存 器 文件 


总 线 接口 


me 
鼠标 键盘 上 监视 器 


(c) 当 DMA 传送 完成 时 ， 磁 盘 控 制 器 以 一 个 中 断 通 知 CPU 
图 6.12 读 一 个 磁盘 扇 区 


作为 一 个 简单 的 例子 , 假设 磁盘 控制 器 被 映射 到 端口 0xa0。 随 后 ，CPU 可 能 通过 执行 三 个 对 地 
址 oxa 的 存储 指令 ， 发 起 磁盘 读 : 第 一 条 指令 是 发 送 一 个 命令 字 ， 它 告诉 磁盘 发 起 一 个 读 ， 还 发 送 
了 其 他 的 参数 ， 例 如 当 读 完成 时 ， 是 否 中 断 CPU (我 们 会 在 8.1 节 中 讨论 中 断 )。 第 二 条 指令 指明 应 
该 读 的 逻辑 块 号 。 第 三 条 指令 指明 应 该 存储 磁盘 扇 区 内 容 的 主 存 地 址 。 

当 CPU 发 起 了 请 求 之 后 ， 在 磁盘 执行 读 的 时 候 ， 它 通常 会 做 些 其 他 的 工作 。 问 想 一 下 ， 一 个 
1GHz 的 处 理 器 时 钟 周 期 为 1Ins， 在 用 来 读 磁 盘 的 16ms 时 间 里 ， 它 潜在 地 可 能 执行 1600 万 条 指令 。 
在 传输 进行 时 ， 只 是 简单 地 等 待 ， 什 么 都 不 做 ， 是 一 种 极 大 的 浪费 。 

人 在 做 盘 控 制 器 收 到 来 自 CPU 的 读 命令 之 后 , 它 将 逻辑 块 号 翻译 成 一 个 扇 区 地 址 , EKA 
容 ， 然 后 将 这 些 内 容 直 接 传 送 到 主 存 ， 不 需要 CPU 的 干涉 ， 如 6.12 b) 所 示 。 这 个 设备 可 以 自己 
执行 读 或 者 写 总 线 事务 ， 而 不 需要 CPU 干涉 的 过 程 ， 称 为 DMA (direct memory access， 直 接 存 储 
副 访 问 )。 这 种 数据 传送 称 为 DMA 传送 (DMA transfer). 

在 DMA 传送 完成 ， 磁 盘 扇 区 的 内 容 被 安全 地 存储 在 主 存 中 以 后 ， 磁 盘 控 制 器 通过 给 CPU 发 送 
一 个 中 源 信 和 号 来 通知 CPU， 如 图 6.12 (c) 所 示 。 基 本 思想 是 中 断 会 发 信号 到 CPU 芯片 的 一 个 外 部 
管 脚 上 。 这 会 导致 CPU 暂停 它 当前 正在 做 的 工作 ， 跳 转 到 一 个 操作 系统 函数 。 这 个 函数 会 记录 下 
VO 已 经 完成 ， 然 后 将 控制 返回 到 CPU 被 中 断 的 地 方 。 


Sit: 一 个 商用 磁盘 的 剖析 
磁盘 制造 商 在 他 们 的 网 页 上 公布 了 许多 高 级 技术 信息 。 例 如 ， 如 果 我 们 访问 IBM Ultrastar 36LZX BE 
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盘 的 网 页 ， 我 们 可 以 得 到 如 图 6.13 所 示 的 构造 和 性 能 信息 . 


$12 Fi 
il 


nN a 15 110 ian on = 
记 《 ) 352 000 H/R = 

磁道 密度 20 000 磁道 /英寸 平均 旋转 时 间 2.99ms 

面 密度 7 040Mb/ 平 方 英寸 平均 寻 道 时 间 4.9ms 


格式 化 的 容量 36GB 持续 的 传送 速率 21~36MB/s 


6.13 IBM Ultrastar 36LZX 的 构造 和 性 能 


来 源 : wwwstorage.ibm.com。 


磁盘 制造 商 通常 会 忽略 公布 关于 每 个 记录 区 构造 的 详细 信息 . 不过， 存储 技术 研究 人 员 开 发 出 了 一 个 
很 有 用 的 工具 ， 称 为 DIXtrac, 它 能 自动 发 现 大 哇 关 于 SCSI 磁盘 构造 和 性 能 的 低级 信息 168]. 例如 ，DIXtrac 
能 够 发 现 我 们 示例 的 IBM 磁盘 详细 的 区 构造 ， 如 图 6.14 所 示 。 表 中 的 每 一 行 都 描述 了 磁盘 表面 11 个 区 中 
的 某 一 个 ， 关 于 该 区 中 遍 区 数目 、 了 映射 到 该 区 中 扁 区 的 远 辑 块 的 范围 ， 以 及 该 区 中 柱 面 的 范围 和 数目 . 


终止 
逻辑 块 号 
2 292 096 
2 292 097 | 11949751 
11 949 752 | 19416 566 
19 416 567 | 36 409 689 
36 409 690 | 39844 151 
39 844 152 | 46287 903 
46 287 904 | 52201 829 
52 201 830 | 56691 915 
56 691916 | 60087 818 
60 087 819 | 67001 919 
67 010 920 | 71687 339 


l 
2 
3 
4 
5 
6 
7 
8 
9 


6.14 IBM Ultrastar 36LZX 的 区 图 
来 源 : DIXtrac 自动 磁盘 驱动 器 描述 工具 [68]。 


这 个 区 图 表 进 一 步 证 实 了 一 些 关 于 IBM 磁盘 的 有 趣 的 事实 。 首先 ， 靠 外 边 的 区 ( 周 长 更 长 ) 比 
舍 里 面 的 区 有 更 多 的 扇 区 . 第 二 ， EY BARS SHAR (你 可 以 自己 检查 一 下 ). 未 被 使 用 
的 扇 区 形成 一 个 备用 柱 面 池 。 如 果 一 个 扁 区 上 的 记录 材料 坏 了 ， 磁 盘 控 制 器 会 自动 地 将 该 柱 面 上 的 
逐 辑 块 重 映射 到 一 个 可 用 的 备用 柱 面 上 。 所以， 我 们 看 到 ， I HE R LAS AAR RES BEARS BEE Boh, 
一 个 更 简单 的 接口 ， 还 能 够 提供 一 层 抽象 ， 使 得 磁盘 能 够 更 健壮。 就 像 我 们 在 第 10 章 中 研究 虚拟 存 
储 器 时 将 会 看 到 的 那样 ， 这 种 通用 的 抽象 思想 非常 强大 . 
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6.1.3 ”存储 技术 趋势 
从 我 们 对 存储 技术 的 讨论 中 ， 可 以 总 结 出 几 个 很 重要 的 思想 : 


| oo | s [ 90 | os | 2000 
美元 /MB 19 200 2 900 320 256 100 
访问 时 间 (ns) 


不 同 的 存储 技术 有 不 同 的 价格 和 性 能 折 中 。SRAM E DRAM 快 一 点 ， 而 DRAM 比 磁盘 要 
快 很 多 。 另 一 方面 ， 快 速 存储 总 是 比 慢 速 存储 要 贵 的 。SRAM 每 字 节 的 造价 比 DRAM 高 ， 
DRAM 的 造价 又 比 磁盘 高 得 多 。 
不 同 存储 技术 的 价格 和 性 能 属性 以 截然 不 同 的 速率 变化 着 。 图 6.15 总 结 了 从 1980 年 以 来 的 
存储 技术 的 价格 和 性 能 属性 ,最早 的 PC 是 那 一 年 提出 的 . 这 些 数字 是 从 以 前 的 贸易 杂记 
挑选 出 来 的 。 虽然 它们 是 从 非 正 式 的 调查 中 得 到 的 ， 但 是 这 些 数字 还 是 能 揭示 出 一 些 有 趣 
的 趋势 的 。 

BM 1980 FLR, SRAM 技术 的 成 本 和 性 能 基本 上 是 以 相同 的 速度 改善 的 。 访 问 时 
间 下 降 了 大 约 100 倍 , 而 每 兆 字 节 的 成 本 下 降 了 200 倍 , 如 图 6.15 (a) Prax. 不 过 , DRAM 
AMR NEE K, MHAR. DRAM 每 兆 字 节 的 成 本 下 降 了 8000 倍 所 示 几 乎 是 四 个 
数量 级 )， 而 DRAM 的 访问 时 间 只 下 降 了 大 约 6 倍 ， 如 图 6.1$ b) 所 示 。 磁 盘 技 术 有 和 和 
DRAM 相同 的 趋势 ， 甚 至 于 变化 更 大 。 从 1980 年 以 来 ， 磁 盘存 储 的 每 兆 字 节 成 本 增长 了 
50 000 倍 ， 访 问 时 间 改 善 得 很 少 ， 只 有 10 售 左 右 ， 如 图 6.15 C) 所 示 。 这 些 惊人 的 长 期 
趋势 突出 了 存储 器 和 磁盘 技术 的 一 个 基本 事实 : 增加 密度 (从 而 降低 成 本 〉 比 降低 访问 时 
间 更 容易 。 
DRAM 和 磁盘 访问 时 间 灌 后 于 CPU 时 钟 周期 时 间 。 正 如 我 们 在 图 6.15〈d) 中 看 到 的 那样 ， 
从 1980 年 到 2000 Œ, CPU 时 钟 周期 提高 了 600 倍 。 相 比 于 CPU 性 能 ，SRAM 的 性 能 是 稍 
ZW, RE SRAM 的 性 能 在 保持 增长 。 然 而 ，DRAM 和 磁盘 性 能 与 CPU 性 能 之 间 的 差距 
实际 上 是 加 大 许多 。 图 6.16 清楚 地 表面 了 各 种 趋势 ， 以 半 对 数 为 标 度 (semi-log scale), Hi 
出 了 图 6.15 中 的 访问 时 间 和 时 钟 周期 。 


2000:1980 


190 
300 150 35 15 3 100 


美元 /MB 
访问 时 间 (ns) 
典型 的 大 小 CMB) 


类 元 /MB 
访问 时 间 Cms) 
典型 的 大 小 (MB) 


(c) 磁盘 趋势 
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CPU 时 钟 频率 (MHz) 1 20 150 600 600 
CPU 时 钟 膨 期 (ns) | 000 50 6 1. 600 
(d) CPU 趋势 
6.15 ”存储 和 处 理 器 技术 发 展 趋势 


"uj 
H 


a 


1980 1985 1990 1995 2000 
年 份 


图 6.16 DRAM., WAA CPU 速度 之 间 逐 渐 增 大 的 差距 


正如 我 们 将 在 6.4 节 中 看 到 的 那样 ， 现 代 计 算 机 频繁 地 使 用 基于 SRAM 的 高 速 缓存 ， 以 弥补 处 
理 嚣 - 仔 储 器 之 间 的 差距 。 这 种 方法 行 之 有 效 是 因为 应 用 程序 的 一 个 称 为 局 部 性 〈locality) 的 基本 
属性 ， 接 下 来 我 们 就 讨论 这 个 问题 。 


6.2 局 部 性 


一 个 编号 良好 的 计算 机 程序 倾向 于 展示 出 良好 的 局 部 性 (locality)。 也 就 是 ， 它 们 倾向 于 引用 
的 数据 项 邻近 于 其 他 最 近 引 用 过 的 数据 项 ， 或 者 邻近 于 最 近 自 我 引用 过 的 数据 项 。 这 种 倾向 性 ， 
KA A) eh te AR FZ (principle of locality)， 是 一 个 持久 的 概念 ， 对 硬件 和 软件 系统 的 设计 都 有 着 极 
大 的 影响 。 

局 部 性 通常 有 两 种 形式 ， 时 间 局 部 性 (temporal locality) 和 空间 局 部 性 《spatial locality)。 在 一 
个 共有 良好 时 间 局 部 性 的 程序 中 ， 被 引用 过 一 次 的 存储 器 位 置 很 可 能 在 不 远 的 将 来 再 被 多 次 引用 。 
值 一 个 上 共有 良好 空间 局 部 性 的 程序 中 ， 如 果 一 个 存储 器 位 置 被 引用 了 一 次 ， 那 么 程序 很 可 能 在 不 远 
的 将 来 引用 附近 的 一 个 存储 器 位 置 。 

程序 员 应 该 理解 局 部 性 原理 ， 因 为 一 般 而 言 ， 有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 运行 得 
更 快 。 现 代 计 算 机 系统 的 各 个 层次 ， 从 硬件 到 操作 系统 、 到 应 用 程序 ， 它 们 的 设计 都 利用 了 局 部 
性 。 在 硬件 层 ， 局 部 性 原理 允许 计算 机 设计 者 通过 引入 称 为 高 速 缓存 存储 器 的 小 而 快速 的 存储 器 
来 保存 最 近 被 引用 的 指令 和 数据 项 ， 从 而 提高 对 主 存 的 访问 速度 。 在 操作 系统 级 ， 局 部 性 原理 允 
诈 系统 使 用 主 存 作为 虚拟 地 址 空间 最 近 被 引用 块 的 高 速 缓存 。 类 似 地 ， 操 作 系统 用 主 存 来 缓存 磁 
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盘 文 件 系统 中 最 近 被 使 用 的 磁盘 块 。 局 部 性 原理 在 应 用 程序 的 设计 中 也 扮演 着 重要 的 和 角色。 例如， 
Web 浏览 器 将 最 近 被 引用 的 文档 放 在 本 地 磁盘 上 ， 利 用 的 就 是 时 间 局 部 性 。 大 量 的 Web HRS 28-44 
最 近 被 请 求 的 文档 放 在 前 端 磁盘 高 速 缓存 中 ， 这 些 缓存 能 满足 对 这 些 文档 的 请 求 ， 而 不 需要 服务 
器 的 任何 干涉 。 


6.2.1 对 程序 数据 引用 的 局 部 性 

考虑 图 6.17 (a) 中 的 简单 隐 数 ， 它 对 一 个 向 量 的 所 有 元 素 求 和 和 。 这 个 程序 有 良好 的 局 部 性 吗 ? 
为 了 回答 这 个 问题 ， 我 们 来 看 看 每 个 变量 的 引用 模式 。 在 这 个 例子 中 ， 变 量 sum 在 每 次 循环 迭代 中 
被 引用 一 次 ， 因 此 ， 对 于 sum 来 说 ， 有 好 的 局 部 性 。 另 一 方面 ， 因 为 sum 是 标量 ， 对 于 sum 来 说 ， 
没有 空间 局 部 性 。 

正如 我 们 在 图 6.17 b) 中 看 到 的 ， 疝 量 v 的 元 素 是 被 顺序 读 取 的 ， 一 个 接 一 个 ， 按 照 它 们 体 
储 在 存储 器 中 的 顺序 (为 了 方 使 ， 我 们 假设 数组 是 从 地 址 0 Fee). Auk, NFS, SBA 
好 的 空间 局 部 性 ， 但 是 时 间 局 部 性 很 差 ， 因 为 每 个 向 量 元 素 只 被 访问 一 次 。 因 为 对 于 循环 体 中 的 每 
个 变量 ， 这 个 函数 要 么 有 好 的 空间 局 部 性 ， 要 么 有 好 的 时 间 局 部 性 ， 所 以 我 们 可 以 断定 sumvec K 
数 有 民 好 的 局 部 性 。 


int sumvec(int v{[N]) 
{ 
int i, sum = 0; 


sum += v[i]; 


1 
2 
3 
4 
5 for {1 = 0; 1 < N; i++) 
6 
7 return sum; 

8 


me Eee 


ams | 7 


(b) 


图 6.1/ (0) 一 个 具有 良好 局 部 性 的 程序 ，(b) 向 量 v 的 引用 模式 (N=8) 
注意 如 何 按照 向 量 元 素 存储 在 存储 器 中 的 顺序 来 访问 它们 。 


我 们 说 像 sumvec 这 样 顺 序 访问 一 个 向 量 每 个 元 素 的 函数 ， 具 有 步 长 为 1 的 引用 模式 (stride-1 
reference pattern )〈 相 对 于 元 素 的 大 小 )。 访 问 一 个 连续 的 向 量 的 每 第 k 个 元 素 ， 就 被 称 为 步 长 为 k 
的 引用 模式 (stride-k reference pattern )。 步 长 为 1 的 引用 模式 是 程序 中 空间 局 部 性 常见 和 重要 的 来 
W. RNS, MSR, FARE FM. 

对 于 引用 多 维 数组 的 程序 来 说 ， 步 长 也 是 一 个 很 重要 的 问题 。 考 虑 图 6.18 (a) 中 的 函数 
sumarrayrows， 它 对 一 个 二 维 数 组 的 元 素 求 和 。 双 重 循 环 按照 行 优先 顺序 (row-maior order) 读数 组 
的 元 素 。 也 就 是 ， 内 层 循 环 读 第 一 行 的 元 素 ， 依 此 类 推 。 函 数 sumarrayrows 具有 良好 的 空间 局 部 性 ， 
因为 它 按照 数组 被 存储 的 行 优 先 顺 序 来 访问 这 个 数组 ， 如 图 6.18 b) 所 示 。 其 结果 是 得 到 一 个 很 
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好 的 步 长 为 1 的 引用 模 云 和 县 好 的 空间 局 部 性 。 


1 int sumarrayrows {int a[{M] [N]) 
2 { 

3 int i, J, sum = QO; 

4 

5 for (1 = 0; i < M; 1L++) 

6 for {j = 0; j < N; j++) 
7 sum += ali] [j]; 

8 return sum; 

9 } 


(a) 


图 6.18 (a) 另 一 个 具有 良好 局 部 性 的 程序 ; (b) 数组 a 的 引用 模式 (M=2, N=3) 
有 良好 的 空间 局 部 性 ， 是 因为 数组 是 按照 与 它 存储 在 存储 器 中 一 样 的 行 优先 顺序 来 被 访问 的 。 


一 些 看 上 去 很 小 的 对 程序 的 改动 能 够 对 它 的 局 部 性 有 很 大 的 影响 。 例 如， 图 6.19 Ca) PRIR 
sumarraycols 计算 和 图 6.18 Ca) 中 函数 sumarrayrows 一 样 的 结果 。 惟 一 的 区 别 是 我 们 交换 了 i Mj 
的 循环 。 这 样 交 换 循 环 对 它 的 局 部 性 有 何 影 响 ? 

糟糕 的 空间 局 部 性 损害 了 函数 sumarraycols， 因 为 它 按照 列 来 扫描 数组 ， 而 不 是 护照 行 。 因 为 C 
数组 在 存储 器 中 是 按照 行 来 存放 的 , 结果 就 得 到 步 长 为 (N X sizeof(int)) 的 引用 模式 ， 如 图 6.19 (bd 
所 示 。 
int sumarraycols (int a[M][N]) 


{ 


int 1, J, sum = 0; 


for (j = 0; j< N; j++) 
for {i = 0; 1 < M; i++) 
sum += a[i] [Jj]; 
return sum; 


oO Own UB WwW NP 


访问 顺序 。 问 顺序 
(b) 


M619 (a) 一 个 空间 局 部 性 很 差 的 程序 ，(b) 数组 oa 的 引用 模式 (M= 2, N=3) 
消 数 的 空间 局 部 性 很 差 ， 这 是 因为 它 使 用 步 长 为 (N X sizeofkin0) 的 引用 模式 来 扫描 存储 器 。 
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6.2.2 取 指 令 的 局 部 性 
因为 程序 指令 是 存放 在 存储 器 中 的 ，CPU 必须 取出 〈 读 出 ) 这 些 指 令 ， 所 以 我 们 也 能 够 评价 
一 个 程序 关于 取 指 令 的 局 部 性 。 例如， 图 6.17 中 for 循环 体 里 的 指令 是 按照 连续 的 存储 器 顺序 执 
行 的 ， 因 此 循环 有 良好 的 空间 局 部 性 。 因 为 循环 体会 被 执行 多 次 ,所 以 它 也 有 很 好 的 时 间 局 部 性 。 
代码 区 别 于 程序 数据 的 一 个 重要 属性 是 在 运行 时 它 是 不 能 被 修改 的 。 当 程序 正在 执行 时 ，CPU 
只 从 存储 器 中 读 出 它 的 指令 。CPU 决 不 会 重 写 或 修改 这 些 指令 。 


6.2.3 ”局 部 性 小 结 
在 这 一 节 中 ， 我 们 介绍 了 局 部 性 的 基本 思想 ， 还 给 出 了 一 些 量化 评价 一 个 程序 中 局 部 性 的 简单 
原则 : 
。 重复 引用 同一 个 变量 的 程序 有 良好 的 时 间 局 部 性 。 
。 对 于 具有 步 长 为 k 的 引用 模式 的 程序 ， 步 长 越 小 ， 空 间 局 部 性 越 好 。 具 有 步 长 为 1 的 引 
用 模式 的 程序 有 很 好 的 空间 局 部 性 。 在 存储 器 中 以 大 步 长 跳 来 跳 去 的 程序 空间 局 部 性 会 
RÆ. 
。 对 于 取 指 令 来 说 ， 循 环 有 好 的 时 间 和 空间 局 部 性 。 循 环 体 越 小 ， 循 环 迭 代 次 数 越 多 ， 局 部 
性 越 好 。 
到 本 章 后 面 ， 在 我 们 学 习 了 高 速 缓存 存储 器 以 及 它们 是 如 何 工 作 的 之 后 ， 我 们 会 向 你 展示 如 何 
高 速 缓存 命中 率 和 不 命中 率 来 量化 局 部 性 的 概念 。 你 还 会 弄 明白 为 什么 有 良好 局 部 性 的 程序 通 党 
比 局 部 性 差 的 程序 运行 得 更 快 。 尽 管 如 此 ， 了 解 如 何 看 一 眼 源 代 码 就 能 获得 对 程序 中 局 部 性 的 高 级 
感觉 ， 是 程序 员 要 掌握 的 一 项 有 用 而 且 重 要 的 技能 。 


练习 题 6.4 
改变 下 面 函数 中 循环 的 顺序 ， 使 得 它 以 步 长 为 工 的 引用 模式 扫描 三 维 数组 a. 


int sumarray3d(int a[N] [N] [N]) 

2 { 

3 int i, j, k, sum = 0; 

4 

5 for (1 = 0; i < N; i++) { 

6 for {J s07 4 <N jala 
7 ftor (k = 0; k < N; k++) { 
8 sum += a[k] [i][j}]; 
9 } 

10 } 

11 } 

12 return sum; 

E .| 

练习 题 6.5 


图 6.20 中 的 三 个 函数 ， 以 不 同 的 空间 局 部 性 程度 ， 执 行 相同 的 操作 。 请 对 这 些 函数 的 空间 局 部 
性 进行 排序 。 解 释 你 是 如 何 得 到 你 的 排序 结果 的 .。 
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1 void clearl(point *p, int n) 

2 { 

3 int i, J; 
1 #define N 1000 4 
5 5 for (i = 0; i< n; i++) { 
3 typedef struct { 6 for (j = 0; J < 3; j++) 
4 int vel[3]; / plil vel[j] = 0 
5 int acc[3]; 3 for (J = 0; J < 3; j++) 
5 } point; 3 p[li].acc{j] = 0; 
7 10 } 
8 point PIN]:; ll } 

(a) structs 数组 (b) clearl AX 
| , . , 

1 void clear2(point *p, int n) 1 void clear3 (point *p, int n) 

2 { 
A 3 + + 
3 int i, j int l, J 
A 4 
D for (1 = 0; 1 < n; i++) { 2 for S 一 0; 5. 3 J++) | 
6 for (j = 0; j < 3; j++) { i or (1 = a n rae 
7 plil.vellj]l = 0; pia} .vel[] = 0; 

. 8 for (i = 0; i < n; i++) 
8 p[i].acc[j] = 0; ， | 
9 9 plij.acc[j] = 0; 
10 10 } 
11 o) ill } 
(c) clear2 函数 (d) clear3 rÁ% 


图 6.20 ”练习 题 6.3 的 代码 示例 


6.3 ”存储 器 层次 结构 


6.1 石和 6.2 市 描述 了 存储 技术 和 计算 机 软件 的 一 些 基本 的 和 持久 的 属性 : 
。 不 同和 存储 设备 的 访问 时 间 差 异 很 大 。 速度 较 快 的 设备 每 字 节 的 成 本 要 比 速度 较 慢 的 设备 高 ， 
而 且 容 量 较 小 。CPU 和 主 存 之 间 的 速度 差距 在 增 大 。 

。 一 个 编 与 民 好 的 程序 倾 辐 于 展示 出 良好 的 局 部 性 。 

计算 技术 中 一 个 喜人 的 巧合 是 ， 硬 件 和 软件 的 这 些 基本 属性 互相 补充 得 很 完美 。 它 们 这 种 相互 
人 朴 充 的 性 质 使 人 想到 一 种 组 织 存储 器 系统 的 方法 ， 称 为 存储 器 层次 结构 《memory hierarchy), MÄ 
的 现代 计算 机 系统 中 都 使 用 了 这 种 方法 ， 图 6.21 展示 了 一 个 典型 的 存储 器 层次 结构 。 

一 般 而 言 ， 从 高 层 往 底 层 走 ， 存 储 设 备 变 得 更 慢 ， 更 便宜 和 更 大 。 在 最 高 层 (LO)， 是 少量 的 
快速 CPU WA AS. CPU 可 以 在 一 个 时 钟 周期 内 访问 它们 。 接 下 来 是 一 个 或 多 个 小 型 或 中 型 的 基于 
SRAM Wim fad, AILS CPU 时 钟 周期 内 访问 它们 。 然 后 是 一 个 大 的 基于 DRAM 
的 主人 存 ， 可 以 在 几 十 或 几 百 个 时 钟 周期 内 访问 它们 。 接 下 来 是 慢 速 但 是 容量 很 大 的 本 地 磁盘 。 最 
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后 ， 有 些 系 统 甚 全 包括 了 一 层 附 加 的 远程 服务 器 土 的 磁盘 ， 要 通过 网 络 来 访问 它们 。 例 如 ， 像 安 
德 鲁 文件 系统 CAFS) 或 者 网 络 文件 系统 (NFS) 这 样 的 分 布 式 文件 系统 ， 人 允许 程序 访问 存储 在 


远程 的 网 络 服务 器 上 的 文件 。 类 似 地 ， 万 维 网 允许 程序 访问 存储 在 世界 上 任何 地 方 的 Web 服务 器 
土 的 远程 文件 。 


更 小 、 
更 快 和 CPU 寄存 器 保存 着 从 高 速 缓存 
(每 字 节 ) /x 存储 器 取出 的 字 
成 本 更 高 的 fà LI 高 速 缓存 保存 着 从 L2 
ee 
商 速 缓存 (SRAM) L2 高 速 缓存 保存 着 从 主 存 取出 
的 缓存 行 
aa +# (DRAM) 
EK. 主 存 保存 着 从 本 地 磁盘 取出 
EIRA 的 磁盘 块 
(每 字 节 ) 
差别 更 低 的 本 地 一 级 存储 (本 地 磁盘 ) 
存储 设备 本 地 磁盘 保存 着 从 远程 网 络 服务 
器 磁盘 上 取出 的 文件 
L5: 远程 二 级 存储 


(分 布 式 文件 系统 、Web 服务 器 ) 


图 6.21 存储 器 层次 结构 


劳 注 ， 其 他 的 存储 器 层次 结构 

我 们 向 你 展示 了 一 个 存储 器 层次 结构 的 示例 ， 但 是 其 他 的 组 合 也 是 可 能 的 ， 而 且 确 实 也 很 常见 。 例 
如 ， 许 多 地 方 糙 本 地 磁盘 备份 到 存档 的 磁带 上 。 其 中 有 些 地 方 ， 在 需要 时 是 由 人 来 手工 地 某 好 磁带 的 ， 
而 其 中 还 有 些 地 方 是 由 磁带 机 器 人 自动 地 完成 这 项 任务 的 。 无 论 在 哪 种 情况 中 ， 磁 带 都 是 存储 器 层次 结 
构 中 的 一 层 ， 在 本 地 磁盘 那 一 层 下 面 ， 那 些 一 般 的 原则 也 同样 运用 于 它 。 磁 带 每 字 节 比 磁盘 更 便宜 ， 它 
允许 人 们 兰 本 地 磁盘 的 多 个 快照 存档 ， 但 是 磁带 的 访问 时 间 和 要 比 磁盘 的 更 长 。 


6.3.1 在 存储 器 层次 结构 中 的 缓存 

一 般 而 言 ， 高 速 缓存 (cache， 读 作 “cash”) 是 一 个 小 而 快速 的 存储 设备 ， 它 作为 存储 在 更 大 、 
也 更 慢 的 设备 中 的 数据 对 象 的 缓冲 区 域 。 使 用 高 速 缓存 的 过 程 被 称 为 缓存 (caching, 读 作 “cashing”)。 

存储 器 层次 结构 的 中 心思 想 是 ， 对 于 每 个 k， 位 于 k 层 的 更 快 更 小 的 存储 设备 作为 位 于 k+l E 
的 更 大 更 鳃 的 存储 设备 的 缓存 。 换 句 话 说， 层次 结构 中 的 每 一 层 都 缓存 来 自 较 低 一 层 的 数据 对 象 。 
例如 ， 本 地 磁盘 作为 通过 网 络 从 远程 磁盘 取出 的 文件 (例如 Web 页面) 的 缓存 ， 主 存 作 为 本 地 磁盘 
土 数 据 的 缓存 ， 依 此 类 推 ， 直 到 最 小 的 缓存 一 一 CPU 寄存 器 集合 . 

图 6.22 展示 了 存储 器 层次 结构 中 缓存 的 一 般 性 概念 。 第 k+l 层 的 存储 器 被 划分 成 连续 的 数据 对 
象 组 块 (chunks)， 称 为 块 (blocks)。 每 个 块 都 有 一 个 惟一 的 地 址 或 名 字 ， 使 之 区 别 于 其 他 的 块 。 块 
可 以 是 固定 大 小 的 (通常 是 这 样 的 ), 也 可 以 是 可 变 大 小 的 (例如 , 存储 在 Web 服务 器 上 的 远程 HTML 
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文件 )。 例 如 ， 图 6.22 中 第 k+l 层 存 储 器 被 划分 成 16 个 大 小 固定 的 块 ， 编 写 为 0 一 15。 

AHH, Bk 层 的 存储 器 被 划分 成 较 小 的 块 的 集合 ， 每 个 块 的 大 小 与 k+1 层 的 块 的 大 小 一 样 。 
在 任何 时 刻 ， 第 kk 层 的 缓存 包含 第 k+1 层 块 的 一 个 子 集 的 拷贝 。 例如， 在 图 6.22 中 ,第 k 层 的 缓存 
有 4 个 块 的 空间 ， 当 前 包含 块 4、9、14 和 3 的 拷贝 。 

数据 总 是 以 块 大 小 为 传送 单元 (transfer unit) EF k BAF k+l AZRIEL). ROR 
次 结构 中 任何 一 对 相 邻 的 层次 之 间 块 大 小 是 固定 的 ， 但 是 其 他 的 层次 对 之 间 可 以 有 不 同 的 块 大 小 。 
例如 ， 在 图 6.21 中 ，L1 和 LO 之 间 的 传送 通常 使 用 的 是 1 个 字 的 块 。L2 和 Ll 之 间 (CUR L3 M L2 
之 间 ) 的 传送 通常 使 用 的 是 4 一 8 个 字 的 块 。 而 L4 和 L3 之 间 的 传送 用 的 是 大 小 为 几 百 或 几 于 字 世 
的 块 。 一般 而 言 ， 层 次 结构 中 较 低层 ( 离 CPU Rit) 的 设备 的 访问 时 间 较 长 ， 因 此 为 了 补偿 这 些 较 
长 的 访问 时 间 ， 倾 疝 于 使 用 较 大 的 块 。 


第 k 层 更 小 、 更 快 、 更 昂贵 的 设备 
:| L4]L9 ILS La3 j | 缓存 着 第 krl 层 块 的 - .个 子 集 


数据 以 块 大 小 为 传输 
单元 在 层 与 层 之 间 拷 由 


[e ILe] Lh 


kel B. [6| 第 k+l 层 更 大 、 更 慢 、 更 便 
| CC 家 的 设备 被 划分 成 世 


图 6.22 存储 器 层次 结构 中 一 个 基本 的 缓存 原理 


缓存 命中 

当 程 序 需要 第 kl 层 的 某 个 数据 对 象 4 时 ， 它 首先 在 当前 存储 在 第 k 层 的 一 个 块 中 碍 找 d。 如 
果 d 刚好 缓存 在 第 k 层 中 ,那么 就 是 我 们 所 说 的 缓存 命中 (cache hit)。 该 程序 直接 从 第 k REM d, 
根据 存储 器 层次 结构 的 性 质 ， 这 要 比 从 第 kl 层 读 取 d 更 快 。 例 如 ， 一 个 有 良好 时 间 局 部 性 的 程序 
可 以 从 块 14 中 读 出 一 个 数据 对 象 ， 得 到 一 个 对 第 层 的 缓存 命中 。 


缓存 不 命中 

男 一 方面 ， 如 果 第 k 层 中 没有 缓存 数据 对 象 4， 那 么 就 是 我 们 所 说 的 缓存 不 命中 〈cache miss). 
当 发 生 缓存 不 命中 时 ， 第 k 层 的 缓存 从 第 k 层 缓存 中 取出 包含 4 的 那个 块 ， 如 果 第 k 层 的 缓存 已 
经 满 了 了 的话， 可 能 就 会 覆盖 现存 的 一 个 块 。 

覆盖 一 个 现存 的 块 的 过 程 被 称 为 替换 (replacing) 或 驱逐 Cevicting) 这 个 块 。 被 驱逐 的 这 个 块 
有 时 也 被 称 为 牺牲 块 〈victim block)。 决 定 该 替换 哪个 块 是 由 缓存 的 奉 换 策略 来 控制 的 ， 例 如 ， 一 
个 具有 随机 替换 策略 的 缓存 会 随机 选择 一 个 笨 牲 块 。 一 个 具有 最 近 最 少 被 使 用 LRU) 替换 策略 的 
缓存 会 选择 那个 最 后 被 访问 的 时 间距 现在 最 远 的 块 。 

在 第 k CREME k+l 层 取 出 那个 决 之 后 ,程序 就 能 像 前 和 面 一 样 从 第 k 层 读 出 d 了 。 例 如 ， 在 
图 6.22 中 ， 在 第 k 层 中 读 块 12 中 的 一 个 数据 对 象 ， 会 导致 一 个 缓存 不 命中 ， 因 为 块 12 当前 不 在 第 
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k 层 缓存 中 。 一 旦 把 块 12 从 第 kH 层 找 贝 到 第 k 层 之 后 ， 它 就 会 保持 在 那里 ， 等 待 稍 后 的 访问 。 


缓存 不 命中 的 种 类 

区 分 不 同 种 类 的 缓存 不 命中 有 时 候 是 很 有 帮助 的 。 如 果 第 k 层 的 缓存 是 空 的 ， 那 么 对 任何 数据 对 
象 的 访问 都 会 不 命中 。 一 个 空 的 缓存 有 时 被 称 为 冷 缓 存 〈cold cache)， 此 类 不 命中 被 称 为 强制 性 不 命 
中 (compulsory miss) 或 冷 不 命中 (cold miss )。 冷 不 命中 很 重要 ， 因 为 它们 通常 是 短暂 的 事件 ， 不 会 
在 稳定 状态 中 出 现 ， 稳 定 状 态 指 的 就 是 在 反复 的 存储 器 访问 已 经 将 缓存 变 暖 Cwarmed up) 了 之 后 。 

只 要 发 生 了 不 命中 ， 第 k 层 的 缓存 就 必须 执行 某 个 替换 策略 ， 确 定 把 它 从 第 k+1 层 中 取出 的 块 
放 在 哪里 。 最 灵活 的 替换 策略 是 允许 来 自 第 kl 层 的 任何 块 放 在 第 k 层 的 任何 块 中 。 对 于 存储 器 层 
次 结构 中 高 层 的 缓存 (靠近 CPU)， 它 们 是 用 硬件 来 实现 的 ， 而 且 速 度 是 最 优 的 ， 这 个 策略 实现 起 
来 通常 很 昂 贯 ， 因 为 随机 地 放置 块 ， 定 位 起 来 代价 很 高 。 

因此 ， 硬 件 缓存 通常 使 用 的 是 更 严格 的 放置 策略 ， 这 个 策略 将 第 k+1 层 的 某 个 块 限制 放置 在 第 
k 层 块 的 一 个 小 的 子 集中 (有 时 只 是 一 个 块 )。 例 如 ， 在 图 6.22 中 ， 我 们 可 以 确定 第 k+l 层 的 块 i 
必须 放置 在 第 k 层 的 块 (i mod 4) 中 。 例 如 ， 第 k+l1 层 的 块 0、4、8 和 12 会 映射 到 第 k 层 的 块 0， 
块 1、5、9 和 13 会 映射 到 块 1， 依 此 类 推 。 注 意 ， 图 6.22 中 我 们 的 示例 缓存 使 用 的 就 是 这 个 策略 。 

这 种 限制 性 的 放置 策略 会 引起 一 种 不 命中 ， 称 为 冲突 不 命中 (conflict miss)， 在 这 种 情况 中 ， 
缓存 足够 大 ， 能 够 保存 被 引用 的 数据 对 象 ， 但 是 因为 这 些 对 象 会 映射 到 同一 个 缓存 块 ， 组 存 会 一 直 
不 命中 。 例 如 ， 在 图 6.22 中 ， 如 果 程 序 请 求 块 0， 然 后 块 8， 然 后 块 0， 然 后 块 8， 依 此 类 推 ， 在 第 
k 层 的 缓存 中 ， 对 这 两 个 块 的 每 次 引用 都 会 不 命中 ， 即 使 是 这 个 缓存 总 共 可 以 容纳 4 个 块 。 

程序 通常 是 按照 一 系列 阶段 〈 例 如 ， 循 环 ) 来 运行 的 ， 每 个 阶段 访问 缓存 块 的 某 个 相对 稳定 不 
变 的 集合 。 例 如 ， 一 个 杉 套 的 循环 可 能 会 反复 地 访问 同一 个 数组 的 元 素 。 这 个 块 的 集合 被 称 为 这 个 
阶段 的 工作 集 (working set)。 当 工作 集 的 大 小 超过 缓存 的 大 小 时 ， 缓 存 会 经 历 容 量 不 命中 (capacity 
miss)。 换 名 话说， 缓存 就 是 太 小 了 ， 不 能 处 理 这 个 工作 集 。 


高 速 缓存 管理 

正如 我 们 提 到 过 的 ， 存 储 器 层次 结构 的 本 质 是 ， 每 一 层 存 储 设备 都 是 较 低 一 层 的 缓存 。 在 每 一 
层 上 ， 东 种 形式 的 逻辑 必须 管理 缓存 。 这 里 ， 我 们 的 意思 是 指 某 个 东西 要 将 缓存 划分 成 块 ， 在 不 同 
的 层 之 则 传送 块 ， 判 定 是 命中 还 是 不 命中 ， 并 处 理 它们 。 管 理 缓存 的 逻辑 可 以 是 硬件 、 软 件 ， 或 是 
两 者 的 结合 。 

例如 ,， 编 详 器 管理 寄存 器 文件 ,缓存 层次 结构 的 最 高 层 。 它 决定 当 发 生 不 命中 时 何 时 发 射 加 载 ， 
以 及 确定 哪个 寄存 器 来 存放 数据 。L1 和 L2 层 的 缓存 完全 是 由 内 置 在 缓存 中 的 硬件 逻辑 来 管理 的 。 
在 一 个 有 虚拟 存储 器 的 系统 中 ，DRAM 主 存 作为 存储 在 磁盘 上 的 数据 块 的 缓存 ， 是 由 操作 系统 软件 
和 CPU 上 的 地 址 翻译 硬件 共同 管理 的 。 对 于 一 个 具有 像 AFS 这 样 的 分 布 式 文件 系统 的 机 器 来 说 ， 
本 地 磁盘 作为 缓存 ， 它 是 由 运行 在 本 地 机 器 上 的 AFS 客户 端 进程 管理 的 。 在 大 多 数 时 候 ， 组 存 都 是 
目 动 运行 的 ， 不 需要 程序 采取 特殊 的 或 显 式 的 行动 。 


6.3.2 存储 器 层次 结构 概念 小 结 


概括 来 说 ， 存 储 器 层次 结构 行 之 有 效 ， 是 因为 较 慢 的 存储 设备 比较 快 的 存储 设备 更 便宜 ， 还 因 
为 程序 倾向 于 展示 局 部 性 : 
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。 利用 时 间 局 部 性 : 根据 时 间 局 部 性 ， 同 一 数据 对 象 可 能 会 被 多 次 使 用 。 一 旦 一 个 数据 对 象 
在 第 一 次 不 命中 时 被 拷贝 到 缓存 中 ， 我 们 就 会 期 望 后 面 对 该 目标 有 一 系列 的 访问 命中 。 因 
为 缓 仔 比 低 一 层 的 存储 设备 更 快 ， 对 后 面 的 命中 的 服务 会 比 最 开始 的 不 命中 快 很 多 。 
。 刊 用 空间 局 部 性 : 块 通常 包含 有 多 个 数据 对 象 。 根 据 空 间 局 部 性 ， 我 们 会 期 望 后 面 对 该 块 
中 其 他 对 象 的 访问 能 够 补偿 不 命中 后 找 贝 该 块 的 伦 费 。 
现代 系统 中 到 处 都 使 用 了 缓存 。 正 如 从 图 6.23 中 能 够 看 到 的 那样 ，CPU 忆 片 、 操 作 系 统 、 分 布 
式 文件 系统 中 和 万 维 网 上 都 使 用 了 缓存 。 各 种 各 样 硬件 和 软件 的 组 合 构成 和 管理 着 缓存 。 注 意 ， 图 
6.23 中 有 大 量 我 们 还 未 涉及 到 的 术语 和 缩写 。 在 此 我 们 包括 这 些 术 语 和 缩写 是 为 了 说 明 常 见 的 缓存 
是 什么 样子 的 。 


ET 


CPU 寄存 器 4 字 节 字 芯片 上 的 CPU 寄存 器 编 评 器 

TLB 地 址 翻译 芯片 上 的 TLB 硬件 MMU 
LI 高 速 缓存 32 字 节 块 芯片 上 的 LI 高 速 缓存 硬件 

高 速 缓存 32 字 节 块 芯片 外 的 L2 高 速 缓存 硬件 

虚拟 存储 器 4-KB 页 主 存 硬件 + DS 
缓冲 区 高 速 缓存 | 部 分 文件 主 存 OS 

网 络 续 剖 区 部 分 文件 本 地 磁盘 AFSINES 客 户 
浏览 器 商 速 缓存 | Webi 本 地 磁盘 Web? W a8 


Web 高 速 缓存 Web 页 远程 服务 器 磁盘 


图 6.23 缓存 在 现代 计算 机 系统 中 无 处 不 在 
TLB: 翻译 后 备 组 神器 (Translation Lookaside Buffer); MMU: 存储 器 管理 单元 (Memory Management Unit): OS: 操作 系统 
(Operating System): AFS: ZAS LIFRE (Andrew File System): NFS: 网 络 文件 系统 (Network File System). 


6.4 ”高 速 缓 存 存储 器 


早期 计算 机 系统 的 存储 器 层次 结构 只 有 三 层 :， CPU 寄存 器 、 主 DRAM 存储 器 和 磁盘 存储 设备 。 
不 过 ， 由 于 CPU 和 主 存 之 间 逐 渐 增 大 的 差距 ， 系 统 设计 者 被 迫 在 CPU 寄存 器 文件 和 主 存 之 间 插 入 
了 一 个 小 的 SRAM 存储器， 称 为 Ll 高 速 缓存 (一 级 缓存 )。 在 现代 系统 中 ，L1 高 速 缓存 位 于 CPU 
必 片 上 《也 就 是 ， 它 是 芯片 上 的 高 速 缓存 )， 如 图 6.24 所 示 。L1 高 速 缓存 的 访问 速度 几乎 和 寄存 器 
一 样 快 ， 典 型 地 是 1 个 或 2 个 时 钟 周 期 。 

Bax CPU 和 主 存 之 间 的 性 能 差距 不 断 增 大 ， 系 统 设计 者 在 Ll 高 速 缓存 和 主 存 之 间 又 插入 了 一 个 
IRA, PRA L2 高 速 缓存 ， 可 以 在 几 个 时 钟 周期 内 访问 到 它 。 可 以 将 L2 高 速 缓 存 连 接 到 存储 器 总 
线 ， 或 者 连接 到 它 自 己 的 高 速 缓存 总 线 (cache bus), WA 6.24 所 示 。 有 些 高 性 能 系统 ， 例 如 那些 基 
于 Alpha 21164 的 系统 ， 甚 至 于 在 存储 器 总 线 上 还 有 一 层 高 速 缓 存 ， 称 为 L3 高 速 缓存 ， 在 层次 结构 中 
位 于 L2 高 速 缓存 和 主 存 之 间 。 里 然 在 安排 上 有 相当 多 的 种 类 ， 但 是 一 般 的 原则 都 是 一 样 的 。 


6.4.1 通用 的 高 速 缓 存 存 储 器 结构 
考虑 一 个 计算 机 系统 ， 其 中 每 个 存储 器 地 址 有 m 位 ， 形 成 M = 2" 个 不 同 的 地 址 。 如 图 6.25 Ca) 
所 示 ， 这 样 一 个 机 器 的 高 速 缓存 被 组 织 成 一 个 S=2 个 高 速 缓存 组 〈cache set) 的 数组 。 每 个 组 包含 


Web 代理 服务 器 
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E 个 高 速 缓存 行 (cache line)。 每 个 行 是 由 一 个 B = 2* 字 节 的 数据 块 block) 组 成 的 ， 一 个 有 效 位 
(valid bit》 指 明 这 个 行 包含 的 数据 是 否 有 意义 ， 还 有 t=m- (b+s) 个 标记 位 (tag bit) (是 当前 块 的 
存储 器 地 址 的 位 子 集 )， 它 们 惟一 地 标识 存储 在 这 个 高 速 缓存 行 中 的 块 。 

CPU ÈH 


高 速 缓 存 总 线 


系统 总 线 


I/O 
桥接 器 


存储 器 总 线 


L2 | 
高 速 缓存 


ACON a 


6.24 基于 LI 和 12 高 速 缓存 的 典型 总 线 结构 
每 行 1 个 每 行 1 个 B= 每 高 速 
有 效 位 ”有 效 位 缓存 块 2 字 节 
节 


一 全 一 一 人 一 一 一 


0T1T Ba 
CO 1 [et 
royt |. ea 


FITH E 位 


组 1 ; 
=! f [ax] [of1|-:- (Bsn 
Ce: 
i ofi | [e-1 
S-41: 


0[1[… [6-1 
高 速 缓存 大 小 C= Bx Ex S 数据 字 节 
(a) 数据 字 节 


组 索引 块 偏 移 
(b) 块 偏 移 


图 6. 如 ”高 速 缓存 (S.EB.m) 的 通用 结构 


(a) 高 速 缓存 是 一 个 关于 组 的 数组 。 每 个 组 包含 一 个 或 多 个 行 。 每 个 行 包含 一 个 有 效 位 ， 一 些 标记 位 ， 以 及 一 个 数据 块 ，(b) 高 
RRT RERIK m 个 地 址 位 划分 成 了 1 个 标记 位 、s 个 组 索引 位 和 bb 个 块 偏 移 位 。 
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一 般 而 言 ， 高 速 缓存 的 结构 可 以 用 元 组 (S,E,Bym) 来 描述 。 高 速 缓存 的 大 小 (或 容量 ) CHR 
是 所 有 块 的 大 小 的 和 。 标 记 位 和 有 效 位 不 包括 在 内 。 因 此 , C=SXEXB. 

当 一 条 加 载 指 令 指示 CPU 从 主 存 地 址 4 中 读 一 个 字 时 ， 它 将 地 址 A AA BIRR. WR 
速 缓存 正 保存 着 地 址 A 处 那个 字 的 拷贝 ， 它 就 立即 将 那个 字 发 回 给 CPU。 那 么 高 速 缓存 如 何 知道 它 
是 否 包 含 地 址 A 处 那个 字 的 拷贝 的 呢 ? 高速 缓 存 的 结构 使 得 它 能 通过 简单 地 检查 地 址 位 ， 发 现 所 请 
求 的 字 ， 类 似 于 使 用 极其 简单 的 哈 希 函数 的 哈 希 表 。 下 面 就 是 它 是 如 何 工作 的 : 

BBS AM BR m 个 地 址 位 分 为 了 三 个 字段 ， 如 图 6.25 (b) 所 示 。A 中 ss 个 组 索引 位 是 一 个 到 5 
个 组 的 数组 索引 。 第 一 个 组 是 组 0， 第 二 个 组 是 组 1， 依 此 类 推 。 当 作为 一 个 无 符号 整数 解释 时 ， 组 
索引 位 告诉 我 们 这 个 字 必 须 存 储 在 哪个 组 中 。 一 旦 我 们 知道 了 这 个 字 必 须 放 在 哪个 组 中 , 4 中 的 
个 怀 记 位 了 豆 告诉 我 们 这 个 组 中 的 哪 一 行 〈《 如 果 有 的 话 ) 包含 这 个 字 。 当 且 仅 当 设 置 了 有 效 位 并 且 该 
行 的 标记 位 与 地 址 A 中 的 标记 位 由 匹配 时 ， 组 中 的 这 一 行 包含 这 个 字 。 一 旦 我 们 在 由 组 索引 标识 的 
组 中 定位 了 由 标号 所 标识 的 行 ， 那 么 b 个 块 偏 移 位 给 出 了 在 B 个 字 节 的 数据 块 中 的 季 偏 移 。 

你 可 能 已 经 注意 到 了 ， 对 高 速 缓存 的 描述 使 用 了 很 多 符号 。 图 6.26 对 这 些 符号 做 了 个 小 结 ， 供 
你 参考 。 


组 数 


每 个 组 的 行 数 
B=2 BRR CF) 
m = log2(M) CEA) 物理 地 址 位 数 


M = 27 存储 器 地 址 的 最 大 数量 
5 = Joga(S) 组 索引 位 数 

b = log2(B) 块 偏 移 位 数 
标记 位 数 
不 包括 像 有 效 位 和 标记 位 这 样 开销 的 高 速 缓存 大 小 ( 字 节 ) 


f=m-(s +b) 


C-~BxExs 


图 6.26 BARPO Ra 


练习 题 6.6 


下 表 给 出 了 几 个 不 同 高 速 缓存 的 参数 。 确 定 每 个 高 速 缓存 的 高 速 缓存 组 数 (8)、 标 记 位 数 (i), 
组 索引 位 数 (s) 以 及 块 偏 移 位 数 (bh. 
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6.4.2 ”直接 映射 高 速 缓存 

根据 E (每 个 组 的 高 速 缓存 行 数 )， 高 速 缓存 被 分 为 不 同 的 类 。 每 个 组 只 有 一 行 (E = 1) 的 高 
速 缓存 被 称 为 直接 映射 高 速 缓存 〈direct-mapped cache) (参见 图 6.27)。 直 接 映射 高 速 绥 存 是 最 容易 
实现 和 理解 的 ， 所 以 我 们 会 以 它 为 例 来 说 明 一 些 关 于 高 速 缓存 是 如 何 工作 的 一 般 概念 。 


组 0 mame || } E- 每 组 1 行 


组 1: | | 有 效 高 速 缓存 块 


组 S-1: | [4%] 高 速 缓存 块 


图 6.27 BPR RRA (£= 1) 

每 个 组 只 有 一 行 。 

假设 我 们 有 这 样 一 个 系统 ， 它 有 一 个 CPU、 一 个 寄存 器 文件 、 一 个 Ll 高 速 缓存 和 一 个 主 存 。 
当 CPU 执行 一 条 读 存 储 器 字 w 的 指令 ， 它 向 L1 高 速 缓存 请 求 这 个 字 。 如 果 Ll 高 速 缓 存 有 w 的 一 
个 缓存 的 拷贝 ， 那 么 就 得 到 L1 高 速 缓存 命 中 ， 高 速 缓存 会 很 快 抽取 出 w， 并 将 它 返 回 给 CPU. A 
则 就 是 高 速 缓存 不 命中 ， 当 L1 高 速 缓存 向 主 存 请 求 包 含 w 的 块 的 一 个 拷贝 时 ，CPU 必须 等 待 。 当 
被 请 求 的 块 最 终 从 存储 器 到 达 时 ,LI1 高 速 缓存 将 这 个 块 存 放 在 它 的 一 个 高 速 缓存 行 里 ， 从 被 存 储 的 
块 中 抽取 出 字 w， 然 后 将 它 返 回 给 CPU。 高 速 缓存 确定 一 个 请 求 是 否 命中 ， 然 后 抽取 出 被 请 求 的 字 
的 过 程 ， 分 为 三 步 : CAZAR: @ 行 下 配 ; OFAR. 

直接 映射 高 速 绥 存 中 的 组 选 拌 

在 这 一 步 中 ， 高 速 缓存 从 w 的 地 址 中 间 抽 取出 s 个 组 索引 位 。 这 些 位 被 解释 成 一 个 对 应 于 一 个 
组 号 的 无 符号 整数 。 换 句 话 来 说 ， 如 果 我 们 把 高 速 缓存 看 成 是 一 个 关于 组 的 一 维 数组 ， 那 么 这 些 组 
索引 位 就 是 一 个 到 这 个 数组 的 索引 。 图 6.28 展示 了 直接 映射 高 速 缓存 的 组 选择 是 如 何 工 作 的 。 在 这 
个 例子 中 ， 组 索引 位 00001: 被 解释 为 一 个 选择 组 1 的 整数 索引 。 


ao 


选择 的 组 


组 t: 


ere a ca meee 
0 
标记 组 索引 ER {ha 


图 6.28 直接 映射 高 速 缓存 中 的 组 选择 
直接 映射 高 速 缓 存 中 的 行 匹 配 
既然 在 上 一 步 中 我 们 已 经 选择 了 某 个 组 i1， 接 下 来 的 一 步 就 要 确定 是 否 有 字 w 的 一 个 拷贝 存储 
在 组 i 包含 的 一 个 高 速 缓存 行 中 。 在 直接 映射 高 速 缓 存 中 ， 这 很 容易 ， 而 且 很 快 ， 这 是 因为 每 个 组 
只 有 一 行 。 当 且 仅 当 设 置 了 有 效 位 ， 而 且 高 速 缓存 行 中 的 标记 与 w 的 地 址 中 的 标记 相 匹 配 时 ， 这 一 
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行 中 包含 w 的 一 个 拷贝 。 

”图 6.29 展示 了 直接 映射 高 速 缓存 中 行 丐 配 是 如 何 工作 的 。 这 个 行 的 有 效 位 设置 了 ， 所 以 我 们 知 
道 标 记 中 的 位 和 块 是 有 意义 的 。 因 为 这 个 高 速 缓存 行 中 的 标记 位 与 地 址 中 的 标记 位 相 匹 配 ， 所 以 我 
们 知道 我 们 想 要 的 那个 字 的 一 个 拷贝 确实 存储 在 这 个 行 中 。 换 名 话说， 我 们 得 到 一 个 缓存 命中 。 男 
一 方面 ， 如 果 有 效 位 没有 设置 ， 或 者 标记 不 相 匹 配 ， 那 么 我 们 就 得 到 一 个 缓存 不 命中 。 

= 1? (1) 必须 置 有 效 位 。 


0 
O Cero TT Fr | 


(3) 如 果 (1) Al (2) 满足 ， 
那么 高 速 缓存 命中 , 块 


选择 的 组 (i): 


(2} 高 速 缓 存 行 中 的 标 


记 位 必须 与 地 址 中 偏 移 就 选择 出 了 起 始 
的 标记 位 相 匹 配 。 字 节 。 
s 位 b 位 
| oid | i | i100 


- 0 
标记 HRI RaR 


图 6.29 ”直接 映射 高 速 缓存 中 的 行 匹 配 和 字 选 择 
在 高 速 缓存 块 中 ，wo 表示 字 w 的 低位 字 节 ，w 是 下 一 个 字 节 ， 依 此 类 推 。 


直接 喘 射 高 速 缓存 中 的 字 选 择 

一 旦 命中 ,我 们 知道 w 就 在 这 个 块 中 的 某 个 地 方 。 最 后 一 步 确定 所 需要 的 字 在 块 中 是 从 哪里 开始 
的 。 如 图 6.29 所 示 ， 块 偏 移 位 疝 我 们 提供 了 所 需要 的 字 的 第 一 个 字 节 的 偏 移 。 就 像 我 们 把 高 速 缓存 看 
成 一 个 行 的 数组 一 样 ， 我 们 把 块 看 成 一 个 字 节 的 数组 ， 而 字 节 偏 移 是 到 这 个 数组 的 一 个 索引 。 在 这 个 
WAF, RREME 100,， 它 表明 w 的 拷贝 是 从 块 中 的 字 节 4 开始 的 我们 假设 字 长 为 4 字 节 )。 


直接 映射 高 速 缓存 中 不 命中 时 的 行 替换 

如 果 高 速 缓存 不 命中 ， 那 么 它 需 要 从 存储 器 层次 结构 中 的 下 一 层 取 出 被 请 求 的 块 ， 然 后 将 新 的 
块 存储 在 组 索引 位 指示 的 组 中 的 一 个 高 速 缓存 行 中 。 一 般 而 言 ， 如 果 组 中 都 是 有 效 高 速 缓存 行 了 ， 
那么 必须 要 驱逐 出 一 个 现存 的 行 。 对 于 直接 映射 高 速 缓存 来 说 ， 每 个 组 只 包含 有 一 行 ， 替 换 策略 非 
第 简单 : 用 新 取出 的 行 替 换 当 前 的 行 。 


Sr: 运行 中 的 直接 映射 高 速 缓存 

高 速 缓存 用 来 选择 组 和 标识 行 的 机 制 极 其 简单 。 必 须要 这 样 ， 因 为 硬件 必须 在 几 个 纳 秒 的 时 间 
内 完成 这 些 工 作 。 不 过 ， 用 这 种 方式 来 处 理 位 对 我 们 人 来 说 是 很 令 人 困惑 的 。 一 个 具体 的 例子 能 帮 
助 解释 清楚 这 个 过 程 。 假 设 我 们 有 一 个 直接 映射 高 速 缓 存 ， 描 述 如 下 

(S,E,B,m) =(4, 1,2,4) 

Raya, MIRE AMA, BAIT, FARAR, MME 4. RINE 
每 个 字 都 是 单字 节 的 。 当 然 这 样 一 些 假设 完全 是 不 现实 的 ， 但 是 它们 能 使 示例 保持 简单 。 

如 果 你 初学 高 速 缓存 ， 列 举 出 整个 地 址 空间 并 划分 好 位 ， 是 很 有 帮助 的 ， 就 像 我 们 在 图 6.30 对 
我 们 4 位 的 示人 列 所 做 的 那样 。 关 于 这 个 列举 出 的 空间 ， 有 一 些 有 趣 的 事情 值得 注意 : 

。 标记 位 和 索引 位 连 起 来 惟一 地 标识 了 存储 器 中 的 每 个 块 。 例 如 ， 块 0 是 由 地 址 0 和 1 组 成 
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的 ， 块 1 是 由 地 址 2 和 3 组 成 的 ， 块 2 是 由 地 址 4 和 5 组 成 的 ， 依 此 类 推 。 
。 因为 有 8 个 存储 器 块 ， 但 是 只 有 4 个 高 速 缓存 组 ， 多 个 块 映射 到 同一 个 局 速 组 存 组 (也 就 
是 ， 它 们 有 相同 的 组 索引 )。 例 如 ， 块 0 和 4 都 映射 到 组 0， 块 1 和 5 都 映射 到 组 1， 等 等 。 
。 映射 到 同一 个 高 速 缓 存 组 的 块 由 标识 位 惟一 地 标识 。 例如, RO 的 标识 位 为 0, 而 块 4 的 标 


识 位 为 1， 块 1 的 标识 位 为 0， 而 块 5 的 标识 位 为 1 
(十 进 制 》 
0 


地 址 位 
(十 进 制 》 (1) (s=2) (b=1) 
0 0 00 


WO co -~ A ra A WH NWN =e 
emma eat O O SO ee OC 


J QA KD wv wr & A W WY 一 一 O 


6.30 ”示例 直接 映射 高 速 缓存 的 4 位 地 址 空间 


让 我 们 来 模拟 一 下 当 CPU 执行 一 系列 读 的 时 候 ， 高速 缓存 的 执行 情况 。 记 住 对 于 这 个 示例 ,我 
们 假设 CPU 读 1 字 节 的 字 。 虽然 这 种 手工 的 模拟 很 乏味 , 你 可 能 想 要 跳 过 它 , 但 是 根据 我 们 的 经 验 ， 
在 学 生 们 经 历 过 高 速 缓存 是 如 何 工 作 的 之 前 ， 他 们 是 不 能 真正 理解 的 。 

初始 时 ， 缓 存 是 空 的 〈 也 就 是 ， 每 个 有 效 位 都 是 0): 


表 中 的 每 一 行 都 代表 一 个 高 速 缓存 行 。 第 一 列表 明 该 行 所 属 的 组 ， 但 是 请 记 住 提 供 这 个 位 只 是 
为 了 方便 ， 实 际 上 它 并 不 真是 缓存 的 一 部 分 。 后 面 四 列 代表 每 个 高 速 缓存 行 的 实际 的 位 。 现 在 ， 让 
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我 们 来 看 看 当 CPU 执行 一 系列 读 时 ， 都 发 生 了 什么 : 

1. 地 址 0 的 字 。 因 为 组 0 的 有 效 位 是 0， 是 缓存 不 命中 。 高 速 缓存 从 存储 器 (或 低 一 层 的 高 速 
缓存 ) 取出 块 0, 并 把 这 个 块 存储 在 组 0 中 。 然 后, 高 速 缓存 返回 新 取出 的 高 速 缓存 行 的 块 [0] 的 m[0] 
(存储 器 位 置 0 的 内 容 )。 


a [am [eee [aa | an 


0 
| 
2 
3 


2. 读 地 址 1 的 字 。 这 次 会 缓存 命中 。 高 速 缓存 立即 从 高 速 缓存 行 的 块 [ 上 中 返回 ml]. HRB 
存 的 状态 没有 变化 。 

3. 读 地 址 13 的 字 。 由 于 组 2 中 的 高 速 组 存 行 不 是 有 效 的 ， 所 以 有 缓存 不 命中 。 启 速 缓存 把 块 
6 加 载 到 组 2 中 ， 然 后 从 新 的 高 速 缓存 行 的 块 [中 返回 m{13}. 


a | wwe [wee [ao [an 


0 m[0} m{1} | 
I 

2 m[12] m[13] 

3 | 

4. 读 地 址 8 的 字 。 这 会 发 生 缓存 不 命中 。 组 0 中 的 高 速 缓存 行 确实 是 有 效 的 , 但 是 标记 不 匹配 ， 


mR RIA 4 加 载 到 组 0 中 (替换 读 地 址 0 时 读 入 的 那 一 行 )， 然 后 从 新 的 高 速 缓存 行 的 块 [01 中 
返回 mf8]。 


a [ane [wee [ao [an 


0 l l m[8] m[9] 
l 0 
2 l l m[12] m[13] 
3 0 
5. 读 地 址 0 的 字 。 又 会 发 生 缓 存 不 命中 ， 因 为 在 前 面 引 用 地 址 8 时 ， 我 们 刚好 替换 了 块 0。 这 


器 是 冲突 不 命中 的 一 个 例子 ， 也 就 是 我 们 有 足够 的 高 速 缓存 空间 ， 但 是 交替 地 引用 映射 到 同一 个 组 
的 块 。 


a Jam [wee [oo | a 


0 m[0] mfi] 
l 
2 m[ 12] m[13] 
3 


直接 映射 高 速 缓存 中 的 冲突 不 命中 
冲突 不 命中 在 真实 的 程序 中 很 常见 ， 会 导致 令 人 困惑 的 性 能 问题 。 当 程序 访问 大 小 为 2 ROE 
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数组 时 ， 直 接 映射 高 速 丝 存 中 通常 会 发 生 冲 突 不 命中 。 例 如 ， 考 虑 一 个 计算 两 个 向 量 点 积 的 函数 : 


sum += x[i] * y[1]; 
return sum; 


1 float dotprod(float x[8], float y[8]}) 
2 { 

3 float sum = 0.0; 

4 int i; 

5 

6 for (i = 0; i < 8; i++) 

7 

8 

9 


} 


对 于 x 和 yy 来 说 ， 这 个 函数 有 良好 的 局 部 性 ， 因 此 我 们 期 望 它 的 命中 率 会 比较 高 。 不 幸 的 是 ， 
并 不 总 是 如 此 。 

假设 浮 点 数 是 4 个 字 节 ,x 被 加 载 到 从 地 址 0 开始 的 32 字 节 连续 存储 器 中 , My 紧 跟 在 x 之 后 ， 
从 地 址 32 开始 。 为 了 简便 ， 假 设 一 个 块 是 16 TFE (足够 容纳 4 个 浮 点 数 )， 高 速 缓存 由 两 个 组 组 
成 ， 高 速 绥 存 的 整个 大 小 为 32 字 节 。 我 们 会 假设 变量 sum 实际 上 存放 在 一 个 CPU 寄存 器 中 ， 因 此 
不 需要 存储 器 引用 。 根 据 这 些 假设 每 个 [A y 乓 会 映射 到 相同 的 高 速 缓存 组 : 


在 运行 时 ， 循 环 的 第 一 次 迭代 引用 x[0], 缓存 不 命中 会 导致 包含 xl0] ~ 一 xf3] 的 块 被 加 载 到 组 0。 
接 下 来 是 对 y[0] 的 引用 ， 又 一 次 缓存 不 命中 ， 导 致 包含 y[0] 一 y[3] 的 块 被 拷贝 到 组 0， 覆 盖 前 一 次 引 
用 拷贝 进来 的 x 的 值 。 在 下 一 次 迭代 中 ， 对 x[11 的 引用 不 命中 ， 导 致 x[0] 一 x[3] 的 块 被 加 载 回 组 0， 
mF yI[0]~y[3] 的 块 。 因 而 现在 我 们 就 有 了 一 个 冲突 不 命中 ， 而 实际 上 后 面 每 次 对 x 和 y 的 引用 
都 会 导致 冲突 不 命中 ， 我 们 就 在 x Ay MAZES (thrash)。 术 语 “ 拌 动 ”描述 的 是 这 样 一 种 情 
况 ， 其 中 高 速 缓存 反复 地 加 载 和 驱逐 高 速 缓存 块 相 同 的 组 。 

简要 来 说 就 是 , 即使 程序 有 良好 的 空间 局 部 性 , 而 我 们 的 高 速 缓存 中 也 有 足够 的 空间 来 存放 xli] 
和 y[i 的 块 ， 每 次 引用 还 是 会 导致 冲突 不 命中 ， 这 是 因为 这 些 块 被 映射 到 了 同一 个 高 速 缓存 组 。 这 
种 抖动 导致 速度 下 降 2 或 3 倍 并 不 稀奇 。 另 外 ,还 要 注意 虽然 我 们 的 示例 极其 简单 ,但 是 对 于 更 大 、 
更 现实 的 直接 映射 高 速 缓 存 来 说 ， 这 个 问题 也 是 很 真实 的 。 

位 运 的 是 ， 一 旦 程序 员 意识 到 了 正在 发 生 什 么 ， 就 很 容易 修正 抖动 问题 。 一 个 很 简单 的 方法 是 
在 每 个 数组 的 结尾 放 B 字 节 的 填充 。 例 如 ， 不 是 将 x 定义 为 float x[8]， 而 是 定义 成 float x[12]。 假 
设 在 存储 器 中 y 紧 跟 在 x 后面， 我 们 有 下 面 这 样 的 从 数组 元 素 到 组 的 映射 : 
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在 x 结尾 如 了 填充 ，x[] 和 y[i] 现 在 就 映射 到 了 不 同 的 组 ， 消 除了 抖动 冲突 不 命中 。 


练习 题 6.7 
在 前 面 dotprod 的 例子 中 , 在 我 们 对 数组 x 做 了 填充 之 后 , 所 有 对 x 和 vy 的 引用 的 命中 率 是 多 少 ? 


Sit: 为 什么 用 中 间 的 位 来 做 索引 ? 

你 也 许 会 奇怪 ， 为 什么 高 速 缓存 用 中 间 的 位 来 作为 组 索引 ， 而 不 是 用 高 位 。 为 什么 用 中 间 的 位 更 好 ， 
是 有 很 好 的 原因 的 .图 6.31 说 明了 为 什么 。 如 果 高 位 用 做 索引 ， 那 么 一 些 连续 的 存储 器 块 就 会 映射 到 相 
同 的 高 速 缓存 块 。 例 如 ， 在 图 中 ， 头 四 个 块 映射 到 第 一 个 高 速 缓存 组 ， 第 二 个 四 个 块 映射 到 第 二 个 组 ， 
依 此 类 推 。 如 果 一 个 程序 有 良好 的 空间 局 部 性 ， 顺 序 扫描 一 个 数组 的 元 素 ， 那 么 在 任何 时 歼 ， 高 速 缓存 
都 只 保存 着 一 个 块 大 小 的 数组 内 容 。 这 样 对 高 速 缓存 的 使 用 效率 很 低 。 与 以 中 间 位 作为 索引 相 比 ， 相 邻 
的 块 总 是 映射 到 不 同 的 高 束缚 存 行 。 在 这 里 的 示例 情况 中 ， 高 速 缓存 能 够 存放 整个 C 大 小 的 数组 内 容 ， 
这 里 C 有 是 高 速 缓存 的 大 小 。 


高 位 索引 中 间 位 索引 


图 6.31 为 什么 用 中 间 位 来 作为 高 速 组 存 的 索引 
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练习 题 6.8 
一 般 而 言 ， 如 果 一 个 地 址 的 高 s 位 被 用 做 组 索引 ， 那 么 连续 的 存储 器 块 被 映射 到 同一 个 高 速 组 
FA. 
A. 每 个 这 样 的 连续 的 数组 组 块 (chunks ) 中 有 多 少 个 块 ? 
B. 考虑 下 面 的 代码 ， 它 运行 在 一 个 高 速 缓存 形式 为 〈(S,E,B,m ) = (512,1,32,32) 的 系统 上 : 
int array [4096]; 


for (i = 0; i < 4096: i++) 
sum += array [i]; 


在 任意 时 刻 ， 存 储 在 高 速 缓存 中 的 数组 块 的 最 大 数量 为 多 少 ? 


6.4.3 组 相 联 高 速 缓存 

直接 映射 高 速 绥 存 中 神 突 不 命中 造成 的 问题 是 源 于 每 个 组 只 有 一 行 〈 或 者 ， 按 照 我 们 的 本 语 来 
描述 就 是 EE = 1) 这 个 限制 。 组 相 联 高 速 缓存 (set associative cache) 放松 了 这 条 限制 ， 所 以 每 个 组 
都 保存 有 多 于 一 个 的 高 速 缓存 行 。 一 个 1 <E< CIB 的 高 速 缓存 通常 被 称 为 E RAR REA. 在 
下 一 节 中 ， 我 们 会 讨论 已 = CRB 这 种 特殊 情况 。 图 6.23 展示 了 一 个 2 路 组 相 联 商 速 缓存 的 结构 。 


高 速 缓存 块 
组 0: = E= 每 组 2 行 
HERFRA 


we 高 速 缓存 块 
高 速 缓存 块 


高 速 缓存 块 
Gea 高 速 缓存 块 


图 6.32 组 相 联 高 速 缓存 (1 < F< C/B) 
在 一 个 组 相 联 高 速 缓存 中 ， 每 个 组 包含 多 于 一 个 的 行 。 这 里 的 这 个 示例 是 一 个 2 路 组 相 联 高 速 缓 存 。 


组 S-1: 


组 相 联 襄 速 缓存 中 的 组 选择 
它 的 组 选择 与 直接 映射 高 速 缓存 的 组 选择 一 样 ， 组 索引 位 标识 组 。 图 6.33 总 结 了 这 个 原理 。 
组 相 联 总 速 缓存 中 的 行 匹配 和 字 选 撞 


组 相 联 高 速 缓存 中 的 行 匹 配 比 直接 映射 高 速 缓存 中 的 更 复杂 ， 因 为 它 必须 检查 多 个 行 的 标记 位 
和 有 效 位 ， 以 确定 所 请 求 的 字 是 否 在 集合 中 。 一 个 传统 的 存储 器 是 一 个 值 的 数组 ， 以 地 址 作为 输入 ， 
并 返回 存储 在 那个 地 址 的 值 。 另 一 方面 ， 一 个 相 联 的 存储 器 是 一 个 (key,value〉 对 的 数组 ， 以 key 
为 输入 ， 返 回 与 输入 的 key 相 匹 配 的 (key,value》 对 中 的 value (A. Alt. 我 们 可 以 把 组 相 联 高 速 组 
存 中 的 每 个 组 都 看 成 一 个 小 的 组 相 联 存储 器 ，key 是 标记 和 有 效 位 ， 而 vau 就 是 块 的 内 容 。 

图 6.34 展示 了 组 相 联 高 速 缓存 中 行 匹 配 的 基本 思想 .。 这 里 的 一 个 重要 思想 就 是 组 中 的 任何 一 行 
都 可 以 包含 任何 映射 到 这 个 组 的 存储 器 块 。 所 以 高 速 缓存 必须 搜索 组 中 的 每 一 行 ， 寻 找 一 个 有 效 的 
行 ， 其 标记 与 地 址 中 的 标记 相 匹 配 。 如 果 高 速 缓存 找到 了 这 样 一 行 ， 那 么 我 们 就 命中 ， 块 偏 移 从 这 
个 块 中 选择 一 个 字 ， 和 前 面 一 样 。 
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选择 的 组 
t 位 sty 


m 


b 位 
-t Q 
标记 组 索引 RS 
6.33 ”组 相 联 高 速 缓 存 中 的 组 选择 


二 1701) 必须 设置 有 效 位 。 


Ery 
Be ouo ji ai l d jwolwlwalwa 


(3) 如 果 C1) 和 (2) WH, 
AGA GK eh. RIG 


selected set (i): 


(2) 高 速 缓存 行 中 的 一 个 ， =? 
EC hp ia Br) ZC A Sy hak 


中 的 标记 位 。 块 偏 移 选 择 起 始 字 节 。 
t {fy Ss 位 bAt 
m-i 0 


标记 组 索引 块 偏 移 
图 6.34 ”组 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 


组 相 联 高 速 缓存 中 不 命中 时 的 行 替换 

WR CPU 请 求 的 字 不 在 组 的 任何 一 行 中 , 那么 就 是 不 命中 , 高 速 缓存 必须 从 存储 器 中 取出 包含 
这 个 字 的 块 。 不 过 ， 一旦 高 速 缓存 取出 了 这 个 块 ， 该 替换 哪个 行 呢 ”当然 ， 如 果 有 一 个 空 行 ， 那 它 
就 是 个 很 好 的 候选 。 但 是 如 果 该 组 中 没有 空 行 ， 那 么 我 们 必须 从 中 选择 一 个 ,希望 CPU 不 会 很 快 引 
用 这 个 被 奉 换 的 行 。 

程序 员 很 难 在 他 们 代码 中 利用 高 速 缓存 替换 策略 ， 所 以 在 此 我 们 不 会 过 多 地 讲述 其 细节 。 最 简单 
的 蔡 换 策略 是 随机 选择 要 替换 的 行 。 其 他 更 复杂 的 策略 利用 了 局 部 性 原理 ， 以 使 在 比较 近 的 将 来 引用 
被 人 矢 换 的 行 的 概率 最 小 。 例 如 ， 最 不 常 使 用 (least-frequentiy-used，LFU) 策略 会 替换 在 过 去 某 个 时 间 
窗口 内 引用 次 数 最 少 的 那 一 行 。 最 近 最 少 使 用 Cleast-recently-used, LRU) 策略 会 替换 最 后 一 次 访问 
时 间 最 久远 的 那 一 行 。 所 有 这 些 策略 都 需要 额外 的 时 间 和 硬件 。 但 是 ， 越 往 存 储 器 层次 结构 下 面 走 ， 
远离 CPU， 一 次 不 命中 的 开销 就 会 更 加 昂贵 ， 用 更 好 的 替换 策略 使 得 不 命中 最 少 也 变 得 更 加 值得 了 ，。 
64.4 全 相 联 高 速 缓 存 


~~ AA HK URE FF (fully associative cache) 是 由 一 个 包含 所 有 高 速 组 存 行 的 组 (也 就 是 , E= 
C/B) 组 成 的 。 图 6.35 给 出 了 基本 结构 。 
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da] [标记 ] [ arar | 


图 6.35 全 组 相 联 高 速 缓存 (E= C/B) 
在 一 个 全 相 联 高 速 缓存 中 ， 一 个 组 包含 所 有 的 行 。 


全 相 联 商 速 缓存 中 的 组 选 拌 

全 相 联 高 速 缓存 中 的 组 选择 非常 简单 ， 因 为 只 有 一 个 组 ， 图 6.36 做 了 个 小 结 。 注 意 地 址 中 没有 
组 索引 位 ， 地 址 只 被 划分 成 了 一 个 标记 和 一 个 块 偏 移 。 

全 机 联 高 速 缓存 中 的 行 匹 配 和 字 选 拌 


全 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 与 一 个 相 联 高 速 缓存 中 的 是 一 样 的 ， 如 图 6.37 所 示 。 它 们 
之 间 的 区 别 主要 是 个 规模 大 小 的 问题 。 


E = 惟一 的 -- 组 中 有 CIB iT 


[有 效 ] | 标记 | 


整个 丙 速 缓存 只 有 一 个 组 ， 


所 以 默认 总 是 选择 组 0。 组 0: 
Se iat bees 
” pi 岂 偏 移 


图 6.36 全 相 联 高 速 缓存 中 的 组 选择 


注意 没有 组 索引 位 。 
=1? (1) 必须 设置 有 效 位 。 
全 | [ioot | a EM 
P Ki Lono wla | ell 


(3) 如 果 (1》 和 (2), RLA 
速 缓存 命中 ， 然 后 块 偏 移 
选择 出 起 始 字 市。 


其 标记 位 必须 匹配 地 址 = ? 
中 的 标记 位 。 


图 6.37 “全 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 
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因为 高 速 缓存 电路 必须 并 行 地 搜索 许多 相 匹配 的 标记 ， 构 造 一 个 又 大 又 快 的 相 联 高 速 缓存 很 困 
难 ， 而 且 很 昂贵 。 因 此 ， 全 相 联 高 速 缓存 只 


只 适合 做 小 的 高 速 缓存 ， 例 如 虚拟 存储 器 系统 中 的 翻译 备 
用 缓冲 器 (TLB )， 它 缓存 页 表 项 (10.6.2 节 )。 


练习 题 6.9 
下 面 的 问题 能 帮助 你 加 强 理 解 高 速 缓存 是 如 何 工作 的 。 有 如 下 假设 : 
。 存储 器 是 宇 节 寻 址 的 。 


。 存储 器 访问 的 是 1 字 节 宽 的 字 (不 是 4 字 节 宽 的 字 )。 
。 地 址 的 宽度 为 13 位 。 


高 速 缓存 是 2 路 组 相 联 的 〔 瓦 =2)， 块 大 小 为 4 字 节 (B=4)， 有 8 个 组 (S=8) 
高 速 缓存 的 内 容 如 下 ， 所 有 的 数字 都 是 以 十 六 进 制 来 表示 的 : 


2 路 组 相 联 南 速 缓存 


下 面 的 方 框 展示 的 是 地 址 格式 【每 个 小 方 框 一 个 位 )。 指 出 (在 图 中 标 出 ) 用 来 确定 下 列 内 容 的 


CO 高 速 缓存 块 偏 移 
CI “高速 缓存 组 索引 
CT 高 速 缓存 标记 


练习 是 6.10 


假设 一 个 程序 运行 在 图 6.9 中 的 机 器 上 , 它 引 用 地 址 0x0E34 处 的 1 字 节 字 。 指 出 访问 的 高 速 缓 


存 项 目 和 十 六 进 制 表示 的 返回 的 高 速 缓存 字 节 值 。 指 出 是 否 会 发 生 缓 存 不 命中 。 如 果 会 出 现 缓存 不 
命中 ， 用 “-” 来 表示 “返回 的 高 速 缓存 字 节 
A. 地 址 格式 (每 个 小 方 框 一 个 位 小 


存储 器 层次 结构 


B. 存储 器 引 用 : 


EC 
高 速 缓 存 块 偏 移 (CO) ox 
高 速 缓存 组 索引 〈CD) 


高 速 缓存 标记 〈CT) 
高 速 缓存 命中 ? (Y/N) | CU 
返回 的 高 速 缓存 字 节 — 


练习 题 6.11 
对 于 存储 器 地 址 0x0DD5, MA —iè 2 3) H 6.10. 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ): 


| 
0 | o 
| o 
| 


练习 题 6.12 
对 于 存储 器 地 址 0x1FE4， 再 做 一 遍 练 习题 6.10。. 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ): 


B. 存储 器 引用 : 


高 速 缓存 块 偏 移 〈CO) 


a 
TT 
a | 

| 


eke oP? CYN) 
返回 的 高 速 缓存 字 节 


练习 题 6.13 
对 于 练习 题 6.9 中 的 高 速 缓存 ， 列 出 所 有 的 在 组 3 中 会 命中 的 十 六 进 制 存储 器 地 址 。 


427 
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645 有关 写 的 问题 

正如 我 们 看 到 的 , 高 速 缓存 关于 读 的 操作 非常 简单 。 首先 , ERR PAR Se w 的 拷贝 。 
如 果 命 中 ， 立 即 返 回 字 w 给 CPU。 如 果 不 命中 ， 从 存储 器 中 取出 包含 学 w 的 块 ， 将 这 个 块 存储 到 
某 个 高 速 缓存 行 中 可 能 会 驱逐 一 个 有 效 的 行 )， 然 后 将 字 w 返回 给 CPU. 

写 的 情况 就 要 复杂 一 些 了 。 假 设 CPU 写 一 个 已 经 缓存 了 的 字 w 【[ 写 命中 (write hit) |。 在 高 速 
缓存 更 新 了 它 的 w 的 拷贝 之 后 ， 怎 么 更 新 w 在 存储 器 中 的 拷贝 呢 ? 最 简单 的 方法 ， 称 为 直 写 
(write-through)， 就 是 立即 将 w 的 高 速 缓存 块 写 回 到 存储 器 中 。 虽 然 简单 ， 但 是 直 写 的 缺点 是 每 条 
存储 指令 都 会 引起 总 线 上 的 一 个 写 事 务 。 男 一 种 方法 ， 称 为 写 回 (write-back)， 尽 可 能 地 推迟 存储 
器 更 新 ， 只 有 当 符 换算 法 要 驱逐 已 更 新 的 块 时 ， 才 把 它 写 到 存储 器 。 由 于 局 部 性 ， 写 回 能 显著 地 减 
少 总 线 事 务 的 数量 ， 但 是 它 的 缺点 是 增加 了 复杂 性 。 高 速 缓存 必须 为 每 个 高 速 组 存 行 维护 一 个 额外 
的 修改 位 (dirty bit)， 表 明 这 个 高 速 缓存 块 是 否 被 修改 过 。 

男 一 个 回 题 是 如 何 处 理 写 不 命中 。 一 种 方法 ， 称 为 号 分 配 〈wiite-allocate )， 加 载 相应 的 存储 器 
块 到 总 速 缓存 中 ， 然 后 更 新 这 个 高 速 缓存 块 。 写 分 配 试 图 利用 写 的 空间 局 部 性 ， 但 是 缺点 是 每 次 不 
命中 都 会 导致 一 个 块 从 存储 器 传送 到 高 速 缓存 。 另 一 种 方法 ， 称 为 非 写 分 配 Cnot-write-allocate ), 
避 开 高 速 缓存 ， 直 接 把 这 个 字 写 到 存储 器 中 。 直 写 高 速 缓存 通常 是 非 写 分 配 的 。 写 回 高 速 缓存 通常 
是 号 分 配 的 。 

为 写 操 作 优 化 高 速 缓 存 是 一 个 细致 而 困难 的 问题 ， 在 此 我 们 只 上 略 讲 皮 毛 。 细 节 随 系统 的 不 同 而 
不 同 , 而且 通 弟 是 私有 的 , 文档 记录 不 详细 。 对 于 试图 编写 高 速 缓 存 比 较 友好 的 程序 的 程序 员 来 说 ， 
我 们 建议 在 心里 采用 一 个 使 用 写 回 和 写 分 配 的 高 速 缓存 的 模型 这样 建议 有 几 个 原因 。 

通常 ， 由 于 较 长 的 传送 时 间 ， 存 储 器 层次 结构 中 较 低 层 的 缓存 更 可 能 使 用 写 回 ， 而 不 是 直 写 ， 
例如 ， 吕 拟 人 存储 器 系统 〈 用 主 存 作为 存储 在 磁盘 上 的 块 的 缓存 ) 只 使 用 写 回 。 但 是 由 于 逻辑 电路 密 
度 的 提高 ， 写 回 的 高 复杂 性 也 越 来 越 不 成 为 阻碍 了 ， 我 们 在 现代 系统 的 所 有 层次 上 都 能 看 到 写 回 高 
速 缓存 。 所 以 这 种 假设 符合 当前 的 趋势 。 假 设 使 用 写 回 写 分 配方 法 的 另 一 个 原因 是 ， 它 与 处 理 读 的 
方式 相对 称 ， 内 为 写 回 写 分 配 试图 利用 局 部 性 。 因 此 ， 我 们 可 以 在 高 层次 上 开发 我 们 的 程序 ， 展 示 
良好 的 空间 和 时 间 局 部 性 ， 而 不 是 试图 为 某 一 个 存储 器 系统 进行 优化 。 


6.4.6 ”指令 高 速 缓存 和 统一 的 高 速 缓存 

到 目前 为 止 ， 我 们 一 直 假 设 高 速 缓存 只 保存 程序 数据 。 不 过 ， 实 际 上 ， 高 速 缓存 既 保 存 数 据 ， 
也 保存 指令 。 只 保存 指令 的 高 速 缓存 称 为 i-cache。 只 保存 程序 数据 的 高 速 缓存 称 为 d-cache, WIR 
存 指令 义 包括 数据 的 高 速 缓存 称 为 统一 的 高 速 缓存 (unified cache)。 一 个 典型 的 桌面 系统 CPU 芯片 
本 喘 就 包括 一 个 Ll i-cache 和 一 个 LI d-cache。 图 6.38 总 结 了 基本 的 结构 。 


CPU 


6.38 一 个 典型 的 多 层 高 速 缓存 结构 


FG BK SE HY 429 


FA a ARSC, BREEF Alpha 21164 的 系统 ,将 LI 和 L2 高速 组 存放 在 CPU 芯片 上 , 还 
有 一 个 附加 的 、 不 在 芯片 上 的 13 高 速 缓存 .为 了 提高 性 能 ,现代 处 理 器 包括 分 离 的 在 芯片 土 的 i-cache 
和 d-cache。 有 两 个 独立 的 高 速 缓存 ， 处 理 器 能 够 在 同一 个 时 钟 周 期 中 读 一 个 指令 字 和 一 个 数据 字 。 
束 我 们 所 知 ， 没 有 系统 使 用 了 L4 高 速 缓存 ， 虽 然 处 理 器 和 存储 器 的 速度 差异 在 持续 变 大 ， 也 好 像 
不 太 可 能 出 现 这 样 的 情况 。 


Sit: ARABS RAGE? 
Intel Pentium 系统 使 用 的 高 速 缓存 结构 如 图 6.38 所 示 ， 有 一 个 在 芯片 上 的 L1 i-cache， 一 个 在 芯片 上 
的 LI d-cache， 还 有 一 个 不 在 芯片 上 的 L2 HRA. B 6.39 总 结 了 这 些 高 速 缓存 的 基本 参数 . 


TET ERARA O 


在 必 片 上 的 LI i-cache 32 B 128 16KB 
32 B 128 16KB 
32 B 1024~ 16384 128KB~2MB 


在 心 片 上 的 Ll d-cache 
不 在 芯片 上 的 L2 统一 高 速 缓存 
6.39 Intel Pentium 高 速 缓存 结构 
6.4.7 高速 组 存 参数 的 性 能 影响 
有 许多 指标 来 衡量 高 速 缓存 的 性 能 : 
e 不 命中 率 (miss rate)。 在 一 个 程序 执行 或 程序 的 一 部 分 执行 期 间 ， 存 储 器 引用 不 命中 的 比 
率 。 它 是 这 样 计 算 的 ， 不 命中 数量 /引用 数量 。 
e PPE (hitrate)。 命 中 的 存储 器 引用 比率 。 它 等 于 1 一 一 不 命中 率 。 
e 命中 时 间 Chit time)。 从 高 速 缓存 传送 一 个 字 到 CPU 所 需 的 时 间 ， 包 括 组 选择 、 行 确认 和 
字 选 择 的 时 间 。 对 于 L1 高 速 缓存 来 说 ， 命 中 时 间 上 典型 的 是 12 个 时 钟 周期 。 
e 不 命中 处 罚 (miss penalty)。 由 于 不 命中 所 需要 的 额外 的 时 间 。L1 不 命中 需要 从 L2 得 到 服 
务 的 处 罚 ， 典 型 是 5~10 个 周期 。L1 不 命中 需要 从 主 存 得 到 服务 的 处 罚 ， 典 型 是 25~100 
个 周期 。 
优化 高 速 缓存 的 成 本 和 性 能 的 折 中 是 一 项 很 精细 的 工作 ， 它 需要 在 现实 的 基准 程序 代码 上 进行 
大 量 的 模拟 ， 因 此 超出 了 我 们 讨论 的 范围 。 不 过 ， 还 是 可 以 认识 一 些 定性 的 折 中 。 
eh ER EK ol ity BG 
一 方面 ， 较 大 的 高 速 缓存 可 能 会 提高 命中 率 ;， 另 一 方面 ， 使 得 大 存储 器 运行 得 更 快 总 是 要 难 一 
TSW. GR. BOK RRR a RE ne Pa. MISH EN L1 高 速 缓存 来 说 这 一 点 尤为 重 
要 ， 因 为 它 的 命中 时 间 必 须 为 一 个 时 钟 周 期 。 


块 大 小 的 影 啊 

大 的 块 有 利 有 弊 。 一 方面 ， 较 大 的 块 能 利用 程序 中 可 能 存在 的 空间 周 部 性 ， 帮 助 提 高 命中 率 。 
个 过 ， 对 于 给 定 的 高 速 缓存 大 小 ， 块 越 大 就 意味 着 高 速 缓存 行 数 越 少 ， 这 会 损害 时 间 局 部 性 比 空间 
局 部 性 更 好 的 程序 中 的 命中 率 。 较 大 的 块 对 不 命中 处 罚 也 有 负面 影响 ， 因 为 块 越 大 ， 传 送 时 间 就 越 
长 。 现 代 系统 通常 会 折 中 ， 使 高 速 缓存 块 包含 4~8 个 字 。 
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相 联 度 的 影 啊 

这 里 的 问题 是 参数 EE 每 个 组 中 高 速 缓存 行 数 ) 的 选择 的 影响 。 较 高 的 相 联 度 〈 也 就 是 EE 的 全 
BAK) 的 优点 是 降低 了 高 速 缓 存 由 于 冲突 不 命中 出 现 拌 动 的 可 能 性 。 不 过 ， 较 高 的 相 联 度 会 造成 较 
高 的 成 本 。 较 高 的 相 联 度 实 现 起 来 很 昂贵 ， 而 且 很 难 使 之 速度 变 快 。 每 一 行 需 要 更 多 的 标记 位 ， 每 
一 行 需要 额外 的 LRU 状态 位 和 额外 的 控制 逻辑 , 较 高 的 相 联 度 会 增加 命中 时 则 ,因为 复杂 性 增加 了 ， 
另外 ， 还 会 增加 不 命中 处 罚 ， 因 为 选择 牺牲 行 (victim line) 的 复杂 性 也 增加 了 了。 

相 联 度 的 选择 最 终 变 成 了 命中 时 间 和 不 命中 处 昼 之 间 的 折 中 。 传 统 上 ， 努 力争 取 时 钟 频率 的 局 
性 能 系统 会 选择 直接 映射 LI 高 速 缓存 〈 这 里 的 不 命中 处 到 只 是 几 个 周期 )， 而 在 较 低 层 上 使 用 比较 
小 的 相 联 度 〈 比 如 说 2 一 4)， 但 是 没有 固定 的 规则 。Intel Pentium KAF, LI 和 L2 AARTE 4 
路 组 相 联 的 。Alpha 21164 系统 中 ，L1 指令 和 数据 高 速 缓存 是 直接 映射 的 ，L2 高 速 缓存 是 3 路 组 相 
RAY, 0 L3 高 速 缓存 是 直接 映射 的 。 


写 策略 的 影 啊 

让 写 高 速 缓存 比较 容易 实现 ， 而 且 能 使 用 写 缓冲 区 (write buffer)， 它 独立 于 高 速 缓存 ， 用 来 更 
新 存储 器 。 此 外 ， 读 不 命中 开销 没 这 么 大 ， 因 为 它们 不 会 触发 存储 器 写 。 另 一 方面 ， 写 加 高速 缀 存 
引起 的 传送 比较 少 ， 它 允许 更 多 的 到 存储 器 的 带宽 用 于 执行 DMA 的 VO 设备 。 此 外 ， 越 往 层 次 结构 
下 面 走 ， 传 送 时 间 增 加 ， 减 少 传送 的 数量 就 变 得 更 加 重要 。 一 般 而 言 ， 高 速 缓 存 越 往 下 层 ， 越 可 能 
使 用 写 回 而 不 是 直 写 。 


劳 注 ， 高 速 缓存 行 、 组 和 块 有 什么 区 别 ? 

很 容易 混淆 高 速 缓存 行 、 组 和 块 之 间 的 区 别 。 让 我 们 来 回顾 一 下 这 些 概念 ， 确 保 概念 清 晰 : 

© 块 是 一 个 固定 大 小 的 信息 包 ， 在 高 速 缓存 和 主 存 (或 下 一 层 毅 速 缓存 ) 之 疗 来 回 传送 ， 

© 行 是 高 速 缓存 中 存储 块 以 及 其 他 信息 〈 例 如 有 效 位 和 标记 位 ) HES. 

© 组 是 一 个 或 多 个 行 的 集合. 直接 映射 高 速 缓存 中 的 组 只 由 一 行 组 成 。 组 相 联 和 全 相 联 高 速 线 存 中 

的 组 是 由 多 个 行 组 成 的 . 

在 直接 映射 高 速 缓存 中 ， 组 和 行 确实 是 等 价 的 。 不过， 在 相 联 高 速 狂 存 中 ， 组 和 行 是 很 不 一 样 的 ， 
这 两 个 词 不 能 互 换 使 用 。 

因为 一 行 总 是 存储 一 个 块 ， 术 语 “ 行 ”和 “ 块 ” 通 常 互 换 使 用 。 例 如 ， 系 统 专 家 总 是 说 高 速 缓 存 的 
“ 行 大 小 ”， 实 际 上 他 们 指 得 是 块 大 小 、 这 样 的 用 法 十 分 首 遍 ， 只 要 你 理解 块 和 行 之 闻 的 区 别 ， 它 不 会 
TERTRE. 


6.5 编 瑟 高 速 缓存 友 好 的 代码 


© 6.2 市 中 ， 我 们 介绍 了 局 部 性 的 思想 ， 而 且 大 概 地 谈 了 一 下 什么 会 具有 展 好 的 局 部 性 。 既 然 
我 们 已 经 明白 了 高 速 缓存 存储 器 是 如 何 工作 的 了 ， 我 们 就 能 更 加 精确 一 些 了 。 局 部 性 比较 好 的 程序 
更 容易 有 较 低 的 不 命中 率 , 而 不 命中 率 较 低 的 程序 倾向 于 比 不 命中 率 较 高 的 程序 运行 得 更 快 。 因此 ， 
从 具有 恨 好 局 部 性 的 意义 上 来 说 ， 好 的 程序 员 总 是 应 该 试 着 去 编写 高 速 缓存 友好 (cache friendly) 
的 代码 。 下 和 面 就 是 我 们 用 来 确保 我 们 的 代码 高 速 缓存 友好 的 基本 方法 : 

1. 让 最 常见 的 情况 运行 得 快 。 程 序 通 常 把 大 部 分 时 间 都 花 在 少量 的 核心 函数 上 , 而 这 些 函数 通 
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第 把 大 部 分 时 间 都 全 在 了 少量 循环 上 。 所 以 要 把 注意 力 集中 在 核心 函数 里 的 循环 上 ， 而 忽略 其 他 部 
分 。 
2. 在 每 个 循环 内 部 使 缓存 不 命中 数量 最 小 。 在 其 他 条 件 , 例如 加 载 和 存储 的 总 次 数 ， 相 同 的 情 
部 下 ， 不 命中 率 较 低 的 程序 运行 得 更 快 。 

为 了 看 看 实际 上 这 是 怎么 工作 的 ， 考 虑 6.2 节 中 的 函数 sumvec: 


] int sumvec(int v[N]) 

2 { 

3 int i, sum = 0; 

4 

5 for (1 = 0; 1 < N; i++) 
6 Sum += vlij; 

fi return sum: 

8 } 


1X “SR RR RS? 首先 ， 注 意 对 于 局 部 变量 i 和 sum， 人 循环 体 有 和 良好 的 时 间 局 部 性 。 
实际 上 ， 因 为 它们 都 是 局 部 变量 ， 任 何 合理 的 优化 编译 器 都 会 把 它们 缓存 在 寄存 器 文件 中 ， 也 就 是 
存储 器 层次 结构 的 最 高 层 中 。 现 在 考虑 一 下 对 向 量 v 的 步 长 为 1 的 引用 。 一 般 而 言 ， 如 果 一 个 高 速 
缓存 的 块 大 小 为 B 字 节 ， 那 么 一 个 步 长 为 k 的 引用 模式 OAE k 是 以 字 为 单位 的 ) 平均 每 次 循环 迭 
代 会 有 min(1，(wordsize Xk)/B) 次 缓存 不 命中 。 当 k=1 时 ， 它 取 最 小 值 ， 所 以 对 v 的 步 长 为 1 的 引 
用 确实 是 饥 速 绥 存 友好 的 。 例 如 ， 假 设 v 是 块 对 齐 的 ， 字 为 4 个 字 节 ， 高 速 缓存 块 为 4 个 字 ， 而 高 
RAGGA ARR). 然后， 无论 是 什么 样 的 高 速 缓存 结构 ， 对 v 的 引用 都 会 得 到 下 面 的 
命中 和 不 命中 模式 ， 


wo oa pa no [ee [es [ee Pe 
wa my [um [2m [om [em [sim [ew [rm [am 


在 这 个 例子 中 ， 对 v[0] 的 引用 会 不 命中 ， 而 相应 的 包含 vf[0]~~v[3] 的 块 会 被 从 存储 器 加 载 到 高 
速 缓存 中 。 因 此 ， 接 下 来 三 个 引用 都 会 命中 。 对 v[4] 的 引用 会 导致 不 命中 ， 而 一 个 新 的 块 被 加 载 到 
高 速 缓存 中 ， 接 下 来 的 三 个 引用 都 命中 ， 依 此 类 推 。 一 般 而 言 ， 四 个 引用 中 的 三 个 会 命中 ， 在 这 种 
冷 缓存 的 情况 下 ， 这 是 我 们 所 能 做 到 的 最 好 的 情况 了 ， 

总 之 ， 我 们 简单 的 sumvec 示例 说 明了 两 个 关于 编写 高 速 缓存 友好 的 代码 的 重要 问题 : 

。 对 局 部 变量 的 反复 引用 是 好 的 , 因为 编译 器 能 够 将 它们 缓存 在 寄存 器 文件 中 (时 间 局 部 性 )。 

e 步 长 为 1 的 引用 模式 是 好 的 ， 因 为 存储 器 层次 结构 中 所 有 层次 上 的 缓存 都 是 将 数据 存储 为 

连续 的 块 〈 空 间 局 部 性 )。 

在 对 多 维 数组 进行 操作 的 程序 中 ， 空 间 局 部 性 尤其 重要 。 例 如 ， 考 虑 6.2 节 中 的 sumarrayrows 
函数 ， 它 按照 行 优先 顺序 对 一 个 二 维 数组 的 元 素 求 和 : 

1 int sumarrayrows({int a[M] [N]) 


{ 


int 1, J, sum = 0; 


in om w Bo 


for {1 = 0; i <M; i++) 
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for (j = 0; j < N; j++) 
sum += alilf[j}; 
return sun; 


D ~ NH 


} 


由 于 C 以 行 优 先 顺序 存储 数组 ， 所 以 这 个 通 数 中 的 循环 有 与 sumvec 一 样 好 的 步 长 为 1 的 访问 
模式 。 例 如 ， 假 设 我 们 对 这 个 高 速 缓存 做 与 对 sumvec 一 样 的 假设 。 那 么 对 数组 a 的 引用 会 得 到 下 面 
的 命中 和 不 命中 模式 ， 


但 十 如 和 二 我 们 做 一 个 看 似 无 伤 大 雅 的 改变 一 一 交换 循环 的 次 序 ， 看 看 会 发 生 什 么 ， 


1 int sumarraycols{int a[M][N]) 

2 { 

3 int i, J, sum = 0; 

4 

5 for (J = 0; j < N; j++) 

6 for (i = 0; 1 < M; i++) 
7 sum += a[il[jl; 

8 return sum; 

9 } 


在 这 种 情况 中 ， 我 们 是 一 列 一 列 而 不 是 一 行 一 行 地 扫描 数组 的 。 如 果 我 们 够 幸运 ， 整 个 数组 都 
在 高 速 缓存 中 ， 那 么 我 们 也 会 有 相同 的 不 命中 率 1/4。 不 过 ， 如 果 数 组 比 高 速 缓存 要 大 (更 可 能 出 
现 这 种 情况 )， 那 么 每 次 对 afi] AID lel BS A ae ! 


锐 高 的 命中 率 对 运行 时 间 可 以 有 显著 的 影响 。 例 如 ， 在 我 们 的 桌面 机 器 上 ，sumarraycols 每 次 
IK Nits SIS AT AA 20 个 时 钟 周期 ， 而 sumarrayrows 每 次 迭代 需要 运行 大 约 10 个 周期 。 总 之 ， 程 序 
员 应 该 注意 他 们 程序 中 的 局 部 性 ， 试 着 编写 利用 局 部 性 的 程序 。 


练习 题 6.14 
在 信号 处 理 和 科学 计算 的 应 用 中 ， 转 置 和 矩阵 的 行 和 列 是 一 个 很 重要 的 问题 。 从 局 部 性 的 角度 来 
看 ， 它 也 很 有 趣 ， 因 为 它 的 引用 模式 既是 以 行为 主 (rTOw-wise ) 的 ， 也 是 以 列 为 主 (column-wise ) 
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约 。 例 如， 考虑 下 面 的 转 置 函数 : 
1 typedef int array[2][{2]; 


2 

3 void transposel(array dst, array src) 
4 { 

5 int i, j; 

6 

7 for {i = 0; 1 < 2; i++) { 

8 for (J = 0; J < 2; j++) f 

9 dst[j][il = sreflil[j]; 
10 } 

11 } 


12 } 


假设 在 一 台 具 有 如 下 属性 的 机 器 上 运行 这 段 代 码 ; 

e sizeof(int) = 4. 

e src 数组 从 地 址 0 开始 ，dst 数组 从 地 址 16 开始 (十进制 ). 

© 只 有 一 个 Ll1 数据 高 速 缓存 ， 它 是 直接 映射 的 、 直 写 、 写 分 配 ， 块 大 小 为 8 个 字 节 。 

© 这 个 高 速 缓存 总 的 大 小 为 16 个 数据 字 节 ， 一 开始 是 空 的 。 

。 对 src 和 dst 数 组 的 访问 分 别 是 读 和 写 不 命中 的 惧 一 原因 

A. 对 每 个 row 和 col， 指 明 对 srcfrow][col]# dstfrow][col] 的 访问 是 命中 (h) 还 是 不 命中 (m), 
例如 ， 读 srcf0][0] 会 不 命中 ， 写 dst[0][O] 也 不 命中 。 


B. 对 于 一 个 大 小 为 32 数据 字 节 的 高 速 缓存 重复 这 个 练习 题 ， 
最 近 一 个 很 成 功 的 游戏 SimAquarium 的 核心 就 是 一 个 紧密 循环 (tight loop), EHE 256 个 海 


® (algae) 的 平均 位 置 。 在 一 台 具 有 块 大 小 为 16 字 节 (B=16 )、 整 个 大 小 为 1024 字 节 的 直接 映射 
数据 线 存 的 机 器 上 测量 它 的 高 速 缓存 性 能 。 定 义 如 下 : 


1 struct alga@_position { 

2 int X; 

3 int y; 

4 }; 

5 

6 Struct algae position grid[16][16]; 
7 int total_x = 0, total_y = 0; 

8 int i, j; 


还 有 如 下 假设 ， 


434 第 6 章 


e sizeof{int) = 4, 

e grid 从 存储 器 地 址 0 开始 。 

© ”这 个 高 速 缓存 开始 时 是 空 的 。 

。 惟一 的 存储 器 访问 是 对 数组 grid 的 元 素 的 访问 。 变 量 1、j、total x 和 totaly 存放 在 寄存 器 
P, 


确定 下 面 代码 的 高 速 缓存 性 能 : 

1 for (1 = 0; 1 < 16; i++) { 

2 for (j = 0; J < 16; j++) { 

3 total_x += grid[1i1] [jl].x; 
4 } 

5 } 

6 

7 for (1 = 0; 1 < 16; i++) { 

8 for (j = 0; j < 16; j++) { 

9 total_y += grid[i][j].y; 
10 } 

11 } 


A. 读 总 数 是 多 少 ? 
B， 高 速 缓存 不 命 申 的 读 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 


练习 题 6.16 
给 定 练习 题 6.15 的 假设 ， 确 定 下 列 代 码 的 高 速 缓存 性 能 : 


1 for (1 = 0; i < 16; i++4){ 

2 for (j = 0; j < 16; j++) { 

3 total_x += grid[j]}[i]}.x; 
4 total_y += grid[jl[il.y; 
5 } 

6 } 


A, 读 总 数 是 多 少 ? 

B. 高 速 缓行 不 命中 的 读 总 数 是 多 少 ? 

C. 不 命中 率 是 多 少 ? 

D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 


练习 题 6.17 
给 定 练习 题 6.15 的 假设 ， 确 定 下 列 代 码 的 高 速 缓存 性 能 ; 


1 for (1 = 0; i < 16; i+4){ 

2 for (J = 0; j < 16; j++) { 

3 total x += gridfi]l[3j].x; 
4 total_y += grid@[illjl.y; 
5 } 
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6 } 

A. RAKES? 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 和 ? 

C. 不 命中 率 是 多 ?| 

D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 


6.6 FA: 高 速 缓存 对 程序 性 能 的 影响 


本 节 通 过 研究 高 速 缓存 对 运行 在 实际 机 器 上 的 程序 的 性 能 影响 ， 综 合 了 我 们 对 存储 器 层次 结构 
的 讨论 ， 


6.6.1 存储 器 山 (memory mountain) 

一 个 程序 从 存储 系统 中 读数 据 的 速率 被 称 为 读 吞 吐 率 (read throughput), BRA AN RA tt T 
(read bandwidth)。 如 果 一 个 程序 在 s 秘 的 时 间 段 内 读 n CFD, ARAB IB) AY se A RS 
于 ms， 典 型 地 是 以 兆 字 市 每 秒 (MB/s) 为 单位 的 。 

如 来 我 们 要 编写 一 个 程序 ， 它 从 一 个 紧密 程序 循环 (tight program loop) 中 发 出 一 系列 读 请 求 ， 
那么 测量 出 的 读 吞 吐 率 能 让 我 们 看 到 对 于 这 个 读 序 列 来 说 的 存储 系统 的 性 能 。 图 6.40 给 出 了 一 对 测 
BaP EP Ah AY RAK 


code/mem/mountain/mountain.c 


1 void test(int elems, int stride) /* The test function */ 

2 ( 

3 int 1, result = 0; 

4 volatile int sink; 

5 

6 for (1 = 0; i < elems; i += stride) 

7 result += data[il]; 

8 sink = result; /* So compiler doesn’t optimize away the loop */ 
9 } 

10 


11 /* Run test(elems, stride) and return read throughput (MB/s) */ 
12 double run(int size, int stride, double Mhz) 


13 { 

14 double cycles; 

15 int elems = size / sizeof (int); 

16 

17 test (elems, stride); /* warm up the cache */ 
18 cycles = fcyc2(test, elems, stride, 0); /* call test(elems,stride) */ 
19 return (size / stride) / (cycles / Mhz); /* convert cycles to MB/s */ 
20 } 


code/mem/mountain/meuntain.c 


46.40 测量 和 计算 读 吞吐 率 的 函数 
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test 函数 通过 以 步 长 stride 扫描 整数 数组 的 头 elems 个 元 素来 产生 读 序 列 。run 函数 是 一 个 包装 
函数 (wrapper), ‘CUA test 孙 数 ， 并 返回 测量 出 的 读 吞 吐 率 。 第 18 行 的 fcyc2 BRM CAA ERE 
来 ) 估计 了 test 函数 的 运行 时 间 ， 以 CPU 周期 为 单位 ,使 用 的 是 第 9 章 中 讲述 的 K 次 最 优 (K-best) 
测量 方法 。 注意 ，run 函数 的 参数 size 是 以 字 节 为 单位 的 ， 而 test 函数 对 应 的 参数 elems 是 以 字 为 单 
位 的 。 另 外 ， 注 意 第 19 行将 MBs 计算 为 10" 字 节 / 秒 ， 而 不 是 2” 字 节 / 秒 。 

run 函数 的 参数 size 和 stride 允许 我 们 控制 产生 出 的 读 序 列 的 局 部 性 程度 。size 的 值 越 小 ， 得 
到 的 工作 集 越 小 ， 因 此 时 间 局 部 性 越 好 。stride 的 值 越 小 ， 得 到 的 空间 局 部 性 越 好 。 如 果 我 们 反复 
以 不 同 的 size 和 stride 值 调用 run 也 数 ， 那 么 我 们 就 能 履 盖 读 带 宽 的 一 个 时 间 和 空间 局 部 性 的 二 
HE RAN, PRA AEBS LL (memory mountain)。 图 6.41 展示 了 一 个 称 为 mountain 的 程序 ， 它 生成 存 
{iar Uy 


code/mem/mountain/mountain.c 


1 #include <stdio.h> 

2 #include "fcyc2.h" /* K-best measurement timing routines */ 

3 #include "clock.h" /* routines to access the cycle counter */ 

4 

5 #define MINBYTES (1 << 10) /* Working set size ranges from 1 KB */ 

6 #Gdefine MAXBYTES (1 «<< 23) /*...upto8 MB */ 

7 #define MAXSTRIDE 16 /* Strides range from 1 to 16 */ 

8 #define MAXELEMS MAXBYTES /sizeof (int) 

9 

10 int data[MAXELEMS'; /* The array we'll be traversing */ 

11 

12 int main() 

13 { 

14 int size; /* Working set size (in bytes) */ 

15 int stride; /* Stride (in array elements) */ 

16 double Mhz; /* Clock frequency */ 

17 

18 init_data(data, MAXELEMS) ) ， /* Initialize each element in data to 1 */ 
19 Mhz = mhz(0Q); /* Estimate the clock frequency */ 
20 for (size = MAXBYTES; size >= MINBYTES; size >>= 1) 1{ 
21 for (stride = 1; stride <= MAXSTRIDE; stride++) { 
22 printf("$.1f\t", run(size, stride, Mhz)); 

23 } 

24 printf£("\n"); 

25 } 

26 exit (0); 

27 } 


code/mem/mountain/mountain.c 


图 6.41 mountain: 一 个 生成 存储 器 山 的 程序 
mountain 程序 以 不 同 的 工作 集 大 小 和 步 长 调用 run 函数 。 工 作 集 大 小 从 1KB 开始 ， 每 次 增加 一 
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倍 ， 最 大 值 到 8MB 。 步 长 范围 为 1 一 16。 对 于 每 个 工作 集 大 小 和 步 长 的 组 合 ，mountain 打印 出 读 知 
吐 率 ， 单 位 为 MB/s。 第 19 行 的 mhz 函数 〈 没 有 显示 出 来 ) 是 一 个 依赖 于 系统 的 函数 ， 它 使 用 第 9 
章 中 讲述 的 技术 ， 估 计 CPU 时 钟 频率 。 
全 计算机 都 有 惟一 的 存储 器 山 ， 存 储 器 山 刻画 了 计算 机 的 存储 系统 的 能 力 。 例如 ， 图 6.42 R 
不 了 一 个 Intel Pentium Ill Xeon 系统 的 存储 器 山 |。 


1200 Pentium III Xeon 

550 MHz 

16 KB tA EEI LI d-cache 
16 KB 心 片上 的 L2 i-cache 
512 KB 心 片 外 的 L2 统一 - 
ARET 
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图 6.42 存储 器 山 


这 座 Keon 山 的 地 形 地 势 展现 了 一 个 很 丰富 的 结构 。 HAF LRA) RN R= KW, OR 
应 于 工作 集 完 全 在 L1 高 速 缓存 、L2 高 速 缓存 和 主 存 内 的 时 间 局 部 性 区 域 。 注 意 , L1 山 疹 的 最 高 点 ( 屠 
主 CPU 读 速 率 为 1GB/s) 与 主 存 山脊 的 最 低 点 (那里 CPU 读 速 率 为 80MB/s) 之 间 的 差别 有 一 个 数量 
级 。 

LI 山 湖 有 两 点 特性 应 该 指出 来 。 首先 ， 对 于 一 个 常数 步 长 ， 注意 读 吞 吐 率 如 何 随 着 工作 集 大 小 
从 16KB 降 到 IKB 骤然 下 降 的 〈 在 山 硝 的 背面 下 降 的 )。 其 次 ， 对 于 工作 集 大 小 16KB, LI URA 
的 峰 顶 随 着 步 长 的 增加 而 降低 。 因 为 LI 高 速 缓存 保存 着 整个 工作 集 ， 所 以 这 些 特 性 不 能 反映 L1 高 
速 缓存 的 真实 性 能 。 它 们 是 调用 test 多数 和 准备 执行 循环 的 开销 的 结果 。 沿 着 LI 山脊 ， 对 于 小 的 
工作 集 来 说 ， 这 些 开销 没有 像 使 用 较 大 工作 集 时 那样 得 到 补偿 。 

在 L2 和 主 存 山 辱 上 ， 随 着 步 长 的 增加 ， 有 一 个 空间 局 部 性 的 斜坡 ， 沿 看 山下 降 。L2 上 的 斜坡 
最 陡 ， 这 是 因为 当 12 癌 速 缓存 不 得 不 从 主 存 传送 块 时 遭受 的 绝对 不 命中 处 罚 很 大 。 注 意 ， 即使 是 
当 工 作 集 太 大 ， 不 能 全 都 装 进 LI E L 高 速 缓存 时 ， 主 存 山 珍 的 最 高 点 也 比 它 的 最 低 点 高 两 倍 。 因 
此 ， 即 使 是 当 程 序 的 时 间 局 部 性 很 差 时 ， 空 间 局 部 性 仍然 能 补救 ， 并 且 是 非常 重要 的 。 
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如 果 我 们 从 这 座 山 中 取出 一 个 片段 ， 保 持 步 长 为 常数 ， 如 图 6.43， 我 们 就 能 很 清楚 地 看 到 高 速 
缓存 的 大 小 和 时 间 局 部 性 对 性 能 的 影响 了 。 对 于 大 小 最 大 为 16KB 并 包括 16KB， 工 作 集 完全 能 放 
#E L1 d-cache 中 ， 因 此 ， 在 吞吐 率 峰 值 1 GB/s 处 ， 读 都 是 由 L1 来 服务 的 。 


1200 q~ = = -- o 
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图 6.43 Fiaa PATS) AREAS UE 
ZARE T A 6.42 中 stride=1 时 的 一 个 片段 。 


对 于 大 小 最 大 为 256KB 并 包括 256KB， 工 作 集 完全 能 放 进 L2 统一 高 速 缓存 中 。 上 再 大 的 工作 集 
主要 就 由 主 存 来 服务 了 。256KB ~512KB 之 间 读 吞吐 率 的 下 降 很 有 趣 。 因 为 L2 高 速 缓存 是 512KB， 
我 们 可 能 会 预测 下 降 出 现在 512KB 处 ， 而 不 是 256KB 处 。 要 确认 的 惟一 方法 就 是 进行 一 次 详细 的 
高 速 毕 存 模拟 ， 不 过 我 们 怀疑 原因 在 于 Pentium M 的 L2 高 速 缓存 是 一 个 统一 的 高 速 缓存 ， 既 保存 

目 令 又 保存 数据 。 我 们 可 能 会 看 到 的 是 L2 中 指令 和 数据 之 间 的 冲突 不 命中 的 结果 ， 它 使 得 不 能 将 
整个 数组 都 放 到 L2 高 速 缓存 中 。 

以 相反 的 方向 横 切 这 座 山 ， 保 持 工 作 和 集 大 小 不 变 ， 我 们 从 中 能 看 到 空间 局 部 性 对 读 吞 吐 率 的 影 
W. BION, 6.44 展示 了 工作 和 集 大 小 固定 为 256KB 时 的 片段 。 这 个 片段 是 沿 着 图 6.42 中 的 L2 ly 
切 的 ， 这 里 ， 工 作 集 完全 能 够 放 到 L2 高 速 缓存 中 ， 但 是 对 LI 高 速 缓存 来 说 太 大 了 。 

注意 随 独 步 长 从 1 个 字 增 长 到 8 个 字 ， 读 吞吐 率 是 如 何平 稳 地 下 降 的 。 在 山 的 这 个 区 域 中 ，L.1 
中 的 读 不 命中 会 导致 一 个 块 从 L2 传送 到 L1。 取 决 于 步 长 ， 后 面 在 LI 中 这 个 块 上 会 有 一 定数 量 的 
命中 。 随 着 步 长 的 增加 ，L1 不 命中 与 Ll 命中 的 比值 也 增加 了 。 因 为 不 命中 服务 起 来 要 比 命中 慢 一 
些 ， 所 以 读 吞 吐 率 也 下 降 了 。 一 旦 步 长 达到 了 8 个 字 ， 在 这 个 系统 上 8 个 字 就 等 于 块 的 大 小 了 ， 每 
个 读 请 求 在 LI 中 都 会 不 命中 ， 必 须 从 L2 服务 。 因 此 ， 对 于 步 长 至 少 为 8 个 字 的 读 吞 吐 率 是 一 个 常 
数 速 率 ， 是 由 从 L2 传送 高 速 缓存 块 到 LL1 的 速率 决定 的 。 

总 结 一 下 我 们 对 存储 器 山 的 讨论 ， 存 储 器 系统 的 性 能 不 是 一 个 数字 就 能 描述 的 。 相 反 ， 它 是 一 
座 时 间 和 空间 局 部 性 的 山 ， 这 座 山 的 上 升 高 度 差别 可 以 超过 一 个 数量 级 。 明 智 的 程序 员 会 试图 构造 
他 们 的 程序 ， 使 得 程序 运行 在 山峰 而 不 是 低谷 。 目 标 就 是 利用 时 间 局 部 性 ， 使 得 频繁 使 用 的 字 从 L1 
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中 取出 ， 还 要 利用 空间 局 部 性 ， 使 得 尽 可 能 多 的 字 从 一 个 工 ] 高 速 缓存 行 中 访问 到 。 


W AIM (MB/s) 


s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 $11 512 513 s14 s15 s16 
PE CF) 
图 6.44 一 个 空间 局 部 性 的 和 斜坡 (或 斜率 ) 
这 幅 图 展示 了 图 6.42 中 size=256 KB 时 的 一 个 片段 。 


练习 题 6.18 
图 6.42 中 的 存储 器 山 有 两 个 轴 : 步 长 和 工作 集 大 小 。 哪个 轴 对 应 于 空间 局 部 性 ? 哪个 轴 对 应 于 
时 间 局 部 性 ? 


练习 题 6.19 

作为 关心 性 能 的 程序 员 ， 知 道 对 存储 器 层次 结构 各 个 部 分 访问 时 间 的 粗略 估计 值 是 很 重要 的 。 
使 用 图 6.42 中 的 存储 器 山 ， 估 计 从 下 列 这 些 位 置 读 出 一 个 4 字 节 的 字 所 需 的 时 间 ， 以 CPU 周期 为 
单位 : 

A. 在 芯片 上 的 LI d-cache. 

B. 不 在 芯片 上 的 L2 高 速 缓存 . 

Cle 

假设 在 (工作 集 大 小 =16M， 步 长 =16 ) 时 ， 读 吞吐 率 为 SOMB/s. 


6.6.2 是 新 排列 循环 以 提高 空间 局 部 性 
考虑 一 对 nxn 矩阵 相 乘 的 问题 : C = AB。 例 如 ， 如 果 n=2, WA 


fe ial -| ed es s 
C21 Cx a21 an ||bn by 


CI = Gubn + Apdo, 


这 里 


C2 = 411012 + Ayrb>> 


440 第 6 章 


C21 Q21D11 + G22D21 


Q21D12 + abn 


FE ME Fe: R BO FS EAZ SPREE RA, FARISEA k 来 标识 。 如 果 我 
们 改变 循环 的 次 序 ， 对 代码 进行 一 些 其 他 的 小 改动 ， 我 们 就 能 得 到 和 矩阵 乘法 的 六 个 在 功能 上 等 价 的 
版 本 ， 如 图 6.45 所 示 。 每 个 版 本 都 以 它 循环 的 顺序 来 惟一 地 标识 。 ! 


C2? 


code/mem/matmu! t/mm.c 


1 for (1 = 0; 1 < n; i++) 

2 for (j = 0; jJ < n; j++) { 

3 sum = 0.0;. 

4 for (k = 0; k < n; K++) 

5 sum += Afi] [k] *B[k] [3]; 
6 Cfil(j] += sum; 

7 } 


code/mem/matmult/mm.c 


(a) ijk RA 


code/mem/matmult/mm.c 


1 for (j = 0; j < n; j++) 
2 for (i = 0; i < n; i++) { 
3 Sum = 0.0; 
4 for (k = 0; k < n; k++) 
> sum += A[i][k]*B[k] [j]; 
6 CfiJ [3] += sum; 
7 } 
code/mem/matmult/mm.c 
(b) jik RA 
code/mem/matmult/mm.c 
1 for (j = 0; j < n; j++) 
2 for (k = 0; k< n; k++) { 
3 r = B(k] [Jj]; 
4 for (1 = 0; 1 < n; i++) 
> C[i] [jJ] += Afi} (k]*r; 
6 } | 
code/mem/matmult/mm.c 
(c) jki 版 本 
code/mem/matmult/mm.c 
1 for (k = 0; k< n; k++) 
2 for (j = 0; jJ < n; j++) ({ 
3 r= Bik] [3]; 
4 for (i = 0; 1 < n; i++) 


Nm oe O N e 


AM e WN e 


存储 器 层次 结构 


C[i][j] += Afi] [k] *r; 


code/mem/matmult/mm.c 
(d) ki 版 本 
code/mem/matmult/mm.c 
for (k = 0; k < n; k++) 
for (i = 0; i < n; i++) { 
r = A[i] [kl]; 


for (j = 0; j < n; j++) 
C[i] [J] += r*B(k] [j]; 


code/mem/matmult/mm.c 
(e) kij hE 
code/mem/matmult/mm.c 
for (i = 0; i < n; i++) 
for (k= 0; k< n; k++) { 
r = A[i][k]; 

for (J = 0; j < n; j++) 

C[i] [J] += r* Blk] [3]; 


code/mem/matmult/mm.c 
(f) 大 版 本 


6.45 ” 息 阵 乘法 的 六 个 版 本 


44] 


在 高 层 来 看 ， 这 六 个 版 本 是 非常 相似 的 。 如 果 加 法 是 可 结合 的 ， 那 么 每 个 版 本 计算 出 的 结果 完 
全 一 样 “。 每 个 版 本 总 共 都 执行 O(n ) 个 操作 ， 而 加 法 和 乘法 的 数量 相同 。A 和 B 的 个 元 素 中 的 每 
一 个 都 要 读 n 次 。 计算 C 的 个 元 素 中 的 每 一 个 都 要 对 mn MERA. 不过， 如 果 我 们 分 析 最 里 层 循 
环 秋 代 的 行为 ， 我 们 发 现在 访问 数量 和 局 部 性 上 还 是 有 区 别 的 。 为 了 这 次 分 析 的 目的 ， 我 们 做 了 如 


下 假设 : 


每 个 数组 都 是 一 个 double 类 型 的 nxn 的 数组 ，sizeof(double) = 8. 
只 有 一 个 高 速 缓存， 其 块 大 小 为 32 字 节 〈B = 32)。 

数组 大 小 n 很 大 ， 以 至 于 和 矩阵 的 一 行 都 不 能 完全 装 进 L 高 速 缓存 中 。 

编 详 器 将 局 部 变量 存储 到 寄存 器 中 ， 因 此 循环 内 对 局 部 变量 的 引用 不 需要 任何 加 载 或 存储 


图 6.46 忆 结 了 我 们 对 循环 的 分 析 结 果 。 注 意 六 个 版 本 成 对 地 形成 了 三 个 等 价 类 ， 用 最 内 层 循环 
中 访问 的 和 抢 阵 对 来 表示 每 个 类 。 例 如 ， 版 本 ijk A jik 是 类 AB 的 成 员 ， 因 为 它们 在 最 内 层 的 循环 中 
TTA A 和 B〔 而 不 是 C)。 对 于 每 个 类 ， 我 们 统计 了 每 个 内 层 循 环 选 代 中 加 载 〈 读 ) 和 存 


2 正如 我 们 在 第 2 章 中 学 到 的 ， 浮 点 加 法 是 可 交换 的 ， 但 是 通常 不 是 可 结合 的 。. 实际 上 ， 如 果 和 矩阵 不 把 极 大 的 数 和 极 小 的 数 


混在 一 起 一 一 存储 物理 属性 的 矩阵 常常 这 样 ， 那 么 假设 浮 点 加 法 是 可 结合 的 也 是 合理 的 。 
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A C) 的 数量 ， 每 次 循环 欠 代 中 对 A、B 和 C 的 引用 在 高 速 缓存 中 不 命中 的 数量 ， 以 及 每 次 迭代 
局 速 缓存 不 命中 的 总 数 。 

类 AB 例 程 的 里 层 循环 {图 6.45 (a) 和 Cb) ] 以 步 长 1 扫描 数组 A 的 一 行 。 因 为 每 个 高 速 缓存 块 
保存 四 个 双 字 ，A 的 不 命中 率 是 每 次 迭代 不 命中 0.25 次 。 另 一 方面 ， 里 层 循环 以 步 长 n 扫描 数组 B 
的 一 列 。 因 为 n 很 大 ， 每 次 对 数组 B 的 访问 都 会 不 命中 ， 所 以 每 次 迭代 总 共 会 有 1.25 次 不 命中 。 


Ke BE FREAK 加 载 每 次 存储 每 次 A 不 命中 每 次 | B 不 命中 每 次 | C 不 命中 每 次 | 总 不 命中 每 次 
本 (SR) 和 迭代 使 用 的 | 迭代 使 用 的 和 迭代 使 用 的 迭代 使 用 的 和 迭代 使 用 的 迭代 使 用 的 


ijk & jik (AB) 2 0 0.25 1.00 0.00 1.25 
2 l 1.00 0.00 1.00 2.00 
2 l 0.00 0.25 0.25 0.50 


jki & kji (AC) 
kij & ikj (BC) 

图 6.46 ” 垂 阵 乘法 里 层 循环 的 分 析 
六 个 版 本 分 为 三 个 等 价 类 ， 以 里 层 循 环 中 访问 的 数组 对 来 表示 。 


类 AC 例 程 的 里 层 循 环 [图 645 (c) 和 (d) ] 有 一 些 问 题 。 每 次 迭代 执行 两 个 加 载 和 一 个 存储 
(相对 于 类 AB 例 程 ， 它 们 执行 2 个 加 载 而 没有 存储 )。 第 二 ， 里 层 循环 以 步 长 n 扫描 A AIC 的 列 。 
结 末 是 每 次 加 载 都 会 不 命中 ， 所 以 每 次 迭代 总 共有 两 个 不 命中 。 注 意 ， 与 类 AB 例 程 棚 比 ， 交 换 循 
环 降 低 了 空间 局 部 性 。 

BC 例 程 [图 6.45 (e) A (CD ] 展 示 了 一 个 很 有 趣 的 折 中 :， 使 用 了 两 个 加 载 和 一 个 存储 ， 它 们 比 
AB 例 程 多 需要 一 个 存储 器 操作 。 另 一 方面 ， 因 为 里 层 循 环 以 步 长 1 访问 模式 扫描 B 和 C 的 列 ， 每 
次 迭代 每 个 数组 上 的 不 命中 率 只 有 0.25 次 不 命中 ， 所 以 每 次 迭代 总 共有 0.50 个 不 命中 。 

图 6.47 小 结 了 一 个 Pentium III Xeon 系统 上 算 阵 乘法 各 个 版 本 的 性 能 。 这 个 图 画 出 了 每 次 里 层 
循环 友 代 所 需 的 测量 出 的 CPU 周期 数 作为 数组 大 小 Cn) 的 函数 。 


60 一 -一 一 一 一 一 = 


周期 /和 迭代 
D 


0 


25 50 75 100 125 150 175 200 225 250 275 300 325 350 375 400 
数组 大 小 Cn) 


图 6.47 Pentium Ill Xeon 和 矩阵 乘法 性 能 
图 例 ，kji 和 jki: 类 AC; kij Mikj: ABC: ijk M jik: 38 AB. 


存储 器 层次 结构 443 


对 于 这 幅 图 有 很 多 有 意思 的 地 方 值得 注意 : 

。 对 于 大 的 n 值 ， 即 使 每 个 版 本 都 执行 相同 数量 的 浮 点 算术 操作 ， 最 快 的 版 本 比 最 慢 的 版 本 
运行 得 快 三 僧 。 

。 仓储 器 访问 数量 和 局 部 性 都 相同 的 版 本 ， 有 大 致 相同 的 测量 性 能 。 

。 存储 性 能 最 糖 糕 的 两 个 版 本 ， 就 每 次 和 欠 代 的 访问 数量 和 不 命中 数量 而 言 ， 明 显 地 比 其 他 四 
个 版 本 运行 得 慢 ， 其 他 四 个 版 本 有 较 少 的 不 命中 次 数 或 者 较 少 的 访问 次 数 ， 或 者 兼 而 有 之 。 

。 类 AB 例 程 一 一 每 次 迭代 有 2 个 存储 器 访问 和 1.25 次 不 命中 一 一 在 这 种 机 器 上 运行 得 比 类 
BC 例 程 一 一 每 次 选 代 3 个 存储 器 访问 和 0.5 次 不 命中 一 一 要 好 一 点 ， 后 者 用 一 个 额外 的 存 
储 器 访问 来 换取 较 低 的 不 命中 率 。 要 点 就 是 对 于 性 能 来 说 ， 高 速 缓存 不 命中 率 并 不 是 问题 
的 全 部 。 存 储 器 访问 的 数量 也 很 重要 ， 而 且 在 许多 情况 中 ， 找 到 最 好 的 性 能 就 是 要 在 这 两 
者 之 间 做 出 权衡 。 练 习题 6.32 和 6.33 更 深入 地 论述 了 这 个 问题 。 


6.6.3 ”使 用 分 块 来 提高 时 间 局 部 性 

在 上 一 贡 中 ， 我 们 看 到 一 些 很 简单 的 循环 重新 排列 是 如 何 能 够 提高 空间 局 部 性 的 。 但 是 我 们 也 
看 到 ， 即 使 使 用 很 好 的 循环 媒 套 ， 每 次 循环 迭代 的 时 间 都 随 着 数组 大 小 的 增长 而 增长 。 发 生 的 事情 
是 这 样 的 ， 当 数组 大 小 增加 时 ， 时 间 局 部 性 降低 了 ， 而 高 速 缓存 中 容量 不 命中 的 数目 增加 了 。 为 了 
改正 这 个 问题 ， 我 们 使 用 了 一 种 普通 的 称 为 分 块 〈blocking) 的 技术 。 不 过 我 们 必须 指出 ， 与 那些 
为 了 提高 空间 局 部 性 的 简单 循环 变换 不 同 ， 分 块 使 得 代码 更 难 阅 读 和 理解 。 因 此 ， 它 最 适合 于 优化 
编译 器 或 者 频繁 执行 的 库 例 程 。 不 过 学 习 和 理解 这 项 技术 仍然 是 很 有 趣 的 ， 因 为 它 是 一 个 能 够 产生 
巨大 性 能 收益 的 很 普通 的 概念 。 

分 块 的 大 致 思想 是 将 一 个 程序 中 的 数据 结构 组 织 成 称 为 块 (block) 的 组 块 (chunks)。( 在 这 个 
上 下 文中 ,“ 块 ” 指 得 是 一 个 应 用 级 的 数据 组 块 ， 而 不 是 高 速 缓存 块 。) 这 样 构造 程序 ， 使 得 能 够 将 
一 个 央 加 载 到 L1 高 速 缓 存 中 ， 并 在 这 个 块 中 进行 所 需 的 所 有 的 读 和 写 ， 然 后 丢掉 这 个 块 ， 加 载 下 
一 个 块 ， 依 此 类 推 。 

分 块 一 个 矩阵 乘法 函数 是 这 样 进 行 的 ， 将 矩阵 划分 成 子 和 矩阵 ， 然 后 利用 可 以 像 标量 一 样 处 理子 
志 阵 这 个 数学 依据 。 例 如 ， 如 果 a=8， 那 么 我 们 可 以 将 每 个 矩阵 划分 成 四 个 4x4 的 子 矩 阵 : 


e a a ral ha 
Cy, C22 Ay, Ag. | |B, Ba 


这 里 
Cy = AyBuy + ApBy 
C2 = AnBy + ABa 
Cy = AnByy + A22Ba, 


Cy = AxyBi2+ AB,, 
图 6.48 eas TERREUR, BZA bijik 版 本 。 这 段 代 码 背 后 的 基本 思想 是 将 
A AIC 划分 成 1 x bsize 的 行 条 Crow slivers)， 将 B 划分 成 bsize x bsize 的 块 。 最 内 层 的 G, k) ti 
坏 对 用 B 的 一 个 块 去 乘 以 A 的 一 个 行 条 ， 将 结果 放 到 C 的 一 个 行 条 中 。 用 B 中 同一 个 块 ，i TERRI 
代 通 过 A AC 的 n 个 行 条 。 
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code/mem/matmult/bmm.c 
1 vold bijk(array A, array B, array C, int n, int bsize) 
2 { 
3 int i, j, k, kk, 99; 
4 double sum; 
5 int en = bsize * (n/bsize); /* Amount that fits evenly into blocks */ 
6 
7 for (1 = 0; i < n; i++) 
8 for (j = 0; j < n; j++) 
9 C[i}][J] = 0.0; 
10 
11 for (kk = 0; kk < en; kk += bsize) { 
12 for (jj = 0; jj < en; jj += bsize) { 
13 for (i = 0; i < n; i++) { 
14 for (J = Jj; J < JJ + bsize; j++) { 
15 Sum = C[i] [jJ]; 
16 for (k = kk; k < kk + bsize; k++) { 
17 sum += Afi] [k] *B[k] [7]; 
18 } 
19 C[i] [j] = sum; 
20 } 
21 } 
22 } 
23 } 
24 } 


code/mem/matmult/bmm.c 


图 6.48 ”分 块 的 矩阵 乘法 
这 个 简单 的 版 本 假设 数组 大 小 Cn) 是 块 大 小 〈bsize) 的 整数 倍 。 


图 6.49 给 出 了 图 6.48 中 分 块 代 码 的 一 个 图 形 化 的 说 明 。 关 键 思想 是 它 加 载 B 的 一 个 块 到 高 速 
缓存 中 ， 使 用 它 ， 然 后 丢弃 它 。 对 A 的 引用 有 很 好 的 空间 局 部 性 ， 因 为 是 以 步 长 1 来 访问 每 个 行 条 
的 。 它 也 有 很 好 的 空间 局 部 性 ， 因 为 是 连续 bsize 次 引用 整个 行 条 的 。 对 B 的 引用 有 好 的 时 间 局 部 
性 ， 因 为 是 连续 n 次 访问 整个 bsize x bsize 块 的 。 最 后 ， 对 C 的 引用 有 好 的 空间 局 部 性 ， 因 为 行 条 
的 每 个 元 素 是 连续 写 的 。 注 意 对 C 的 引用 没有 好 的 时 间 局 部 性 ， 因 为 每 个 行 条 都 只 被 访问 一 次 。 


kk j} 
T= 
kk bsize 
B 
bsize KEH 1 x bsize 行 条 连续 次 使 用 更 新 1 Xbsize 
bsize X bsize 的 块 行 条 的 连续 的 元 素 


6.49 分 块 的 矩阵 乘法 的 图 形 化 说 明 
最 内 层 的 GO 循环 对 用 B 的 一 个 bsize X bsize HRERL A 的 一 个 1 x bsize 的 行 条 ， 将 结果 放 到 CC 的 一 个 1 x bsize 的 行 条 中 。 
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分 块 可 能 使 代码 更 难 阅 读 ， 但 是 它 也 能 带 来 巨大 的 性 能 收益 。 图 6.50 展示 了 Pentium IN Xeon 
系统 上 两 个 分 块 的 矩阵 乘法 版 本 的 性 能 (bsize = 25)。 注 意 ， 分 块 使 得 运行 时 间 比 最 好 的 非 分 块 版 
本 提高 了 1 倍 ， 从 每 次 迭代 大 约 20 个 周期 改进 到 每 次 迭代 大 约 10 个 周期 。 另 一 件 关于 分 块 的 有 趣 
事情 是 随 着 数组 大 小 的 增长 ， 每 次 迭代 的 时 间 几 乎 保持 不 变 。 对 于 小 的 数组 大 小 ， 分 块 版 本 中 的 额 
外 开销 使 得 它 比 非 分 块 版 本 运行 得 还 要 慢 。 在 大 约 n=100 处 有 一 个 交叉 点 ， 在 此 之 后 分 块 版 本 就 运 
行 得 更 快 了 。 


Sit: 高 速 缓存 和 流 煤 体 工作 负载 

实时 处 理 网 络 视频 和 音频 数据 的 应 用 变 得 起 来 赵 重 要 . 在 这 些 应 用 中 ,数据 以 来 自 某 个 输入 设备 ( 例 
如 麦克 凤 、 照 相机 或 者 网 络 连接 一 一 参加 第 12 章 ) 的 稳定 的 流 的 方式 到 达 机 器 。 当 数据 到 达 时 ， 处 理 它 
们 ， 然 后 发 送 到 一 个 输出 设备 ， 并 且 最 终 丢 弃 撞 ， 从 而 为 新 到 达 的 数据 腾 出 位 置 . 

存储 器 层次 结构 有 多 适合 这 些 流 媒体 ( streaming media) 工作 负载 呢 ? 因 为 数据 是 在 它们 到 达 时 顺序 
处 理 的 ， 我 们 能 够 从 空间 局 部 性 上 获得 些 好 处 ， 就 像 我 们 6.6 节 中 给 阵 乘法 的 例子 那样 。 不 过 ， 因 为 数据 
只 被 处 理 一 次 ， 然 后 就 丢弃 ， 所 以 时 间 局 部 性 的 数量 也 很 有 限 。 

为 了 说 明 这 个 问题 ， 系 统 设计 者 和 编译 器 编写 者 一 直 在 寻求 一 种 种 为 预 取 (prefetching ) HRB. KS 
想 是 通过 预计 在 最 近 的 将 来 要 访问 哪些 块 ， 然 后 使 用 特殊 的 机 器 指令 事先 取出 这 些 块 ， 放 到 高 速 缓存 中 ， 
从 而 隐藏 高 速 缓存 不 命中 的 等 待 时 间 . 如 果 预 取 能 做 得 很 完美 ， 那 么 每 个 块 都 会 在 程序 想 要 引用 它 之 前 被 
拷贝 到 高 速 缓存 中 ， 因 此 每 个 加 载 指令 都 会 命中 。 不 过 预 取 也 有 贸 险 性 。 因 为 预 取 流量 与 从 IO 设备 到 主 存 
的 DMA 流量 共用 总 线 ， 过 多 的 预 取 会 干扰 DMA 流量 ， 减 慢 整 个 系统 的 性 能 。 另 一 个 潜在 的 问题 是 每 个 预 
取 的 高 速 色 存 块 都 会 驱逐 一 个 现存 的 块 。 如 果 我 们 进行 太 多 的 预 取 ,我 们 就 要 留 污染 高 速 缓存 (polluting the 
cache) 的 风险 ， 有 可 能 驱逐 出 前 一 次 预 取 的 、 而 程序 还 没有 引用 、 不 久 的 将 来 会 引用 的 那个 块 。 


60 


50 


—#- kji 
~ kij 


周期 /迭代 


~*~- jik 
-æ ijk 
-©- bijk (bsize = 25) 
©- bikj (bsize = 25) 


25 50 75 100 125 150 175 200 225 250 275 300 325 350 375 400 
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图 6.50 Pentium ii Xeon 上 分 块 的 矩阵 乘法 性 能 
图 例 : bijk 和 bikj: 分 抉 的 矩阵 乘法 的 两 个 不 同 版 本 。 同 时 也 给 出 了 图 6.47 中 的 非 分 块 版 本 的 性 能 ， 以 供 参 考 。 
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6.7 &ea: 利用 程序 中 的 局 部 性 


正如 我 们 看 到 的 ， 存 储 系 统 被 组 织 成 一 个 存储 设备 的 层次 结构 ， 较 小 、 较 快 的 设备 靠近 顶部 ， 
较 大 、 较 慢 的 设备 靠近 底部 。 由 于 这 种 层次 结构 ， 程 序 访 问 存 储 位 置 的 有 效 速 率 不 是 一 个 数字 能 的 
述 的 。 相反 ,， 它 是 一 个 变化 很 大 的 程序 局 部 性 的 函数 (我 们 称 之 为 存储 器 山 )， 变 化 可 以 有 几 个 数量 
级 。 有 良好 局 部 性 的 程序 从 快速 Ll 和 1L2 高 速 缓存 存储 器 中 访问 它 的 大 部 分 数据 。 局 部 性 差 的 程序 
从 相对 慢 速 的 DRAM 主 存 中 访问 它 的 大 部 分 数据 。 
理解 存储 器 层次 结构 本 质 的 程序 员 能 够 利用 这 些 知 识 ， 编 写 出 更 有 效 的 程序 ， 无 论 具 体 的 存储 
系统 结构 是 怎样 的 。 特 别 地 ， 我 们 推荐 下 列 技术 : 
© 将 你 的 注意 力 集中 在 内 部 循环 上 ， 大 部 分 计算 和 存储 器 访问 都 发 生 在 这 里 。 
© 通过 按照 数据 对 象 存储 在 存储 器 中 的 顺序 来 读数 据 ， 从 而 使 得 你 程序 中 的 空间 局 部 性 最 大 。 
© 一 旦 从 存储 器 中 读 入 了 一 个 数据 对 象 ， 就 尽 可 能 多 地 使 用 它 ， 从 而 使 得 你 程序 中 的 时 间 局 
部 性 最 大 。 
© 记 住 ， 不 命中 率 只 是 确定 你 代码 性 能 的 一 个 因素 (虽然 是 重要 的 )。 存储 器 访问 数量 也 扮演 
者 重要 角色 ， 有 时 需要 在 两 者 之 间 做 一 下 折 中 。 


6.8 /hżů 


基本 存储 技术 包括 RAM (将 机 存储 器 )、ROM ( 非 易 失 性 存储 器 ) ABA. RAM 有 两 种 基本 
类 型 。SRAM (静态 RAM) 快 一 些 ， 但 是 也 贵 一 些 ， 它 既 可 以 用 做 CPU 芯片 上 的 高 速 缓存 ， 也 可 
以 用 做 心 片 外 的 高 速 缓存 。 动 态 RAM (DRAM) 慢 一 点 ， 也 便宜 一 些 ， 用 做 主 存 和 图 形 帧 缓冲 区 。 
非 易 失 性 人 存储器， 也 称 为 只 读 存 储 器 (ROM)， 即 使 是 在 关 电 的 时 候 ， 也 能 保持 它们 的 信息 ， 它 们 
用 来 存储 固件 (firmware )。 磁 盘 是 非 易 失 性 存储 设备 ， 以 每 个 位 很 低 的 成 本 保存 大 量 的 数据 。 代 价 
是 较 长 的 访问 时 间 。 

一 般 而 言 ， 较 快 的 存储 技术 每 个 位 会 更 贵 ， 而 且 容 量 较 小 。 这 些 技术 的 价格 和 性 能 属性 正在 动 
态 地 以 不 同 的 速度 变化 着 。 特 别 地 ，DRAM 和 磁盘 访问 时 间 淆 后 于 CPU 周期 时 间 。 系 统 通 过 将 存 
储 右 组 织 成 存储 设备 的 层次 结构 来 弥补 这 些 差 异 ， 在 这 个 层次 结构 中 ， 较 小 、 较 快 的 设备 在 顶部 ， 
较 大 、 较 慢 的 设备 在 底部 。 因 为 编写 良好 的 程序 有 好 的 局 部 性 ， 大 多 数 数据 都 可 以 从 较 高 层 ”得 到 
服务 ， 结 果 就 是 存储 系统 能 以 较 高 层 的 速度 运行 ， 但 却 有 较 低 层 的 成 本 和 容量 。 

程序 员 可 以 通过 编写 有 良好 空间 和 时 间 周 部 性 的 程序 来 动态 地 改进 程序 的 运行 时 间 。 利 用 基于 
SRAM 的 高 速 缓存 存储 器 特别 重要 ， 主 要 从 L 高 速 缓存 取 数 据 的 程序 能 比 主要 从 存储 器 取 数 据 的 
程序 运行 得 快 过 一 个 数量 级 。 


参考 文献 说 阴 

存储 器 和 位 氢 拉 术 变 化 得 很 快 。 根据 我 们 的 经 验 ， 最 好 的 技术 信息 来 源 是 制造 商 维护 的 Web 页 
面 。 像 Micron, Toshiba. Hyundai, Samsung, Hitachi 和 Kingston Technology 这 样 的 公司 ， 提 供 了 
丰富 的 当前 有 关 存 储 设 备 的 技术 信息 。 卫 M、Maxtor 和 Seagate 的 页 面 也 提供 了 类 似 的 有 关 磁 盘 的 


3 指 存 储 器 山中 的 层次 。 一 一 译 者 


存储 器 层次 结构 447 


有 用 信息 。 

关于 电路 和 逻辑 设计 的 教科 书 提 供 了 关于 存储 技术 的 详细 信息 [39，62]。IEEE Spectrum 出 版 了 
一 系列 对 DRAM 的 概述 文章 [36]。 计 算 机 体系 结构 国际 会 议 (ISCA) 是 一 个 关于 DRAM 存储 性 能 
特性 的 公共 论坛 [2?22，23]。 

Wilkes 写 了 第 一 篇 关于 高 速 缓存 存储 器 的 论文 [87]。Smith 写 了 一 篇 经 典 的 综述 [72]。Przybylski 
编 瑟 了 一 本 关于 高 速 缓 存 设 计 的 权威 著作 [59]。Hennessy 和 Patterson 提供 了 对 高 速 缓存 设计 问题 的 
全 面 讨论 [33]。 

Stricker 在 [82] 中 介绍 了 存储 器 山 的 思想 ， 作 为 对 存储 器 系统 的 全 面 描述 ， 并 且 在 后 来 的 工作 描 
述 中 提出 了 术语 “存储 器 山 ”。 编译 器 研究 者 通过 自动 执行 我 们 在 6.6 节 中 讨论 过 的 那些 手工 代码 转 
换 ， 来 增加 局 部 性 [14，25，45，48，54，60，89]。Carter 和 同事 们 提出 了 一 个 可 知晓 高 速 缓存 的 存 
储 控制 器 〈a cache-aware memory controller) [11]. Seward 开发 了 一 个 开放 源 代 码 的 高 速 缓 存 宅 析 程 
序 ， 称 为 cacheprof， 它 描述 了 C 程序 在 任意 模拟 的 高 速 缓存 上 的 不 命中 行为 《www.cacheprof. org). 

关于 构造 和 使 用 磁盘 存储 设备 也 有 大 量 的 论著 。 许 多 存储 技术 研究 者 找寻 方法 ， 将 单个 的 磁盘 
集合 成 更 大 、 更 健壮 和 更 安全 的 存储 池 [12，28，29，57，901。 其 他 研究 者 找寻 使 用 高 速 缓存 和 局 
部 性 来 改进 磁盘 访问 性 能 的 方法 [6，131。 像 Exokernel 这 样 的 系统 提供 了 更 多 的 对 磁盘 和 存储 器 资 
源 的 用 户 级 控制 [381。 像 安德鲁 文件 系统 [$S3] 和 Coda[67] 这 样 的 系统 ,将 存储 器 层次 结构 扩展 到 了 计 
算 机 网 络 和 移动 笔记 本 电脑 。Schindler 和 Ganger 开发 了 一 个 有 趣 的 工具 ， 它 能 自动 描述 SCSI 磁盘 
驱动 器 的 构造 和 性 能 [68]。 

Be he EM 

5.20 Oo 

假设 要 求 你 设计 一 个 每 个 磁道 位 数 固定 的 磁盘 。 你 知道 每 个 磁道 的 位 数 是 由 最 里 层 磁道 的 周 长 
确定 的 ， 你 可 以 假设 它 就 是 中 间 那 个 圆润 的 周 长 。 因 此 ， 如 果 你 把 磁盘 中 间 的 洞 做 得 大 一 点 ， 每 个 
位 下 的 位 数 就 会 增 大 ， 但 是 总 的 磁道 数 会 减少 。 如 果 用 r 来 表示 盘面 的 半径 ，x.r 表示 圆 洞 的 半径 ， 
ABA x 取 什 么 值 能 使 这 个 磁盘 的 容量 最 大 ? 

6.21 ¢ 


下 和 面 的 表 给 出 了 一 些 不 同 的 高 速 缓存 的 参数 。 确 定 每 个 高 速 缓存 的 高 速 缓存 组 数量 ($S)、 标 记 
位 数 (+)、 组 索引 位 数 《s》 以 及 块 偏 移 位 数 Cd). 


6.22 多 
这 个 问题 是 关于 练习 题 6.9 中 的 高 速 缓存 的 : 
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A. 列 出 所 有 会 在 组 1 中 命中 的 十 六 进 制 存储 器 地 址 ; 
B. 列 出 所 有 会 在 组 6 中 命中 的 十 六 进 制 存储 器 地 址 。 


6.23 De 

考虑 下 面 的 矩阵 转 置 函数 : 

1 typedef int array [4] [4]; 

2 

3 void transpose? (array dst, array src) 
4 { 

5 int i, j; 

6 

7 for (i = 0; i < 4; 14+) { 

8 for (j = 0; 3 < 4; j++) { 
9 dst{j] [i] = sreli] [j}; 
10 } 

11 } 

12 } 


假设 这 段 代 码 运 行 在 一 从 具有 如 下 属性 的 机 右上: 

e sizeof(int) = 4. 

。 数组 src 从 地 址 0 开始 ， 而 数组 dst 从 地 址 64 开始 十 进 制 )。 

。 只 有 一 个 L1 数据 高 速 缓存 ， 它 是 直接 映射 、 直 写 、 写 分 配 的 ， 块 大 小 为 FR. 

。 这 个 高 速 缓存 总 共有 32 个 数据 字 节 ， 初 始 为 空 。 

o 对 src 和 dst 数 组 的 访问 分 别 是 惟一 的 读 和 写 不 命中 的 来 源 。 

对 于 每 个 row 和 col， 指 明 对 src[row1fcoH 和 dstfrowi[col] 的 访问 是 命中 Ch) 还 是 不 命中 〈my)。 
例如 ， 读 src[0][0] 会 不 命中 ， 而 写 dst[01[0] 也 会 不 命中 。 


dst 数组 
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6.24 o@ 
对 于 一 个 总 大 小 为 128 数据 字 节 的 高 速 缓存， 重复 练习 题 6.23. 


6.25 © 

3M 决定 在 白 纸 上 印 黄 方 格 ， 做 成 小 贴纸 。 这 个 过 程 中 ， 他 们 需要 设置 方 格 中 每 个 点 的 CMYK 
( 蓝 色 ,红色 ， 黄色， 黑色 ) 值 。3M 雇佣 你 判定 下 面 算法 在 一 个 2048 字 节 、 直 接 映射 、 块 大 小 为 
32 字 节 的 数据 高 速 缓存 上 的 有 效 性 。 有 如 下 定义 : 


1 struct point_color { 

2 int c; 

3 int m; 

4 int y? 

5 int k; 

9 }; 

7 

8 struct point_color square[16] [16]; 
9 int i, j; 

有 如 下 假设 : 


® sizeof(int) == 4。 

© square 起 始 于 存储 器 地 址 0。 

。 局 速 缓存 初始 为 空 

。 惟一 的 存储 器 访问 是 对 于 square 数组 中 的 元 素 。 变 量 i1 和 j 被 存放 在 寄存 器 中 。 
确定 下 列 代 码 的 高 速 缓存 性 能 : 

1 for (1 = 0; i < 16; I++){ 

2 for (j = 0; j < 16; j++} { 

3 square[i]l[j].c = 0; 
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4 square[i][j].m = Q; 

D square[i][j}.y = 1; 

6 SGuare[i [J].k = Q; 

7 } 

8 } 

A. 与 总 数 是 多 少 ? 

B. 在 高 速 缓存 中 不 命中 的 号 鼠 数 是 多 少 ? 
C. 不 全 中 率 是 多 少 ? 

626 © 

给 定 练习 题 6.25 PRE, BASE FARERI ce Re FE BE 
1 for {1 = 0; 1 < 16; 1++){ 

2 for (j = 0; j < 16; j++) { 
3 square[j][1i].c = Q; 

4 square[j][i}].m = C; 

5 square[j)][1].y = 1; 

6 square[j] [1]. k = OC; 

7 } 

8 } 


A. 与 总 数 是 多 少 ? 
B. 在 蜗 速 缓存 中 不 命中 的 号 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 


6.27 © 
给 定 练习 题 6.25 中 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 
1 for (1 = 0; 1 < 16; i++) { 
2 for (J = 0; j < 16; j++) { 
3 square[i][j].y = 1; 
4 } 
5 } 
6 for (i = 0; i< 16; i++) { 
7 for (j = 0; j < 16; j++) { 
8 Are = 0; 
9 square[i][}].m = 10; 
10 square[i][j].k = 0; 
11 } 
12 } 
写 总 数 是 多 少 ? 


在 高 速 缓 存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 全 中 率 是 多 少 ? 
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6.28 HD 

你 正在 编写 一 个 新 的 3D 游戏 ， 希 望 能 名 利 双 收 。 你 现在 正在 写 一 个 函数 ， 在 画 下 一 帧 之 前 先 
清空 屏幕 缓冲 区 。 你 现在 工作 的 屏幕 是 640X 480 像素 数组 的 。 你 工作 的 机 器 有 一 个 64KB 直接 映射 
高 速 缓存 ， 每 行 4 个 字 节 。 你 使 用 的 C 数据 结构 为 ; 
struct pixel 

char r; 


|= 


char g; 
char b; 
char a 


}; 


struct pixel buffer[480] [640}; 
int 1, J; 

0 char *cptr; 

1 Int *iptr; 


e e Go ONGA be WwW N 


有 如 下 假设 : 

e sizeof(char)==1 和 sizeof(int)==4. 

。 buffer 起 始 于 存储 器 地 址 。 

。 RAR TE AGG A 

© 惟 - -的 存储 器 存 问 是 对 于 buffer 数组 中 的 元 素 。 变 量 1、j、cptr 和 iptr 被 存放 在 寄存 器 中 。 
下 务 代 码 中 百 分 之 多 少 的 写 会 在 高 速 绥 存 中 不 命中 ? 


1 for (J = 0; j < 640; j++) { 

2 for (1 = 0; i < 480; i++){ 

3 buffer[i][qz].r = 0: 

4 buffer[i][jj.g = 0; 

5 buffer[i][fj].b = 0; 

6 buffer{ilf{j}.a = 0; 

7 } 

8 } 

6.29 HD 

给 定 练习 题 6.28 中 的 假设 ， 下 面 代 码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 
1 char *cptr = (char *) buffer; 

2 for (; cptr < (((char *) buffer) + 640 * 480 * 4); cptr++) 
3 *eptr = Q; 

6.30 HS 

给 定 练习 题 6.28 中 的 假设 ， 下 面 代 码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 
1 int *iptr = (int *)buffer; 

2 for ( iptr < (({int *)buffer + 640*480); iptr++) 

3 *iptr = 0; 

6.31 Ooo 


从 CS:APP 的 网 站 上 下 载 mountain 程序 ， 在 你 最 喜欢 的 PC/Linux 系统 上 运行 它 。 根 据 结 果 估 
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计 你 系统 上 Ll Al L2 高 速 缓存 的 大 小 。 


6.32 C000 

在 这 项 任务 中 ， 你 会 把 你 在 第 5 章 和 第 6 章 中 学 习 到 的 概念 应 用 到 一 个 存储 器 使 用 频繁 的 应 用 
的 代码 优化 问题 上 。 考 虑 一 个 拷贝 并 转 置 一 个 类 型 为 int 的 NXN 矩阵 的 过 程 。 也 就 是 ， 对 于 源 矩 阵 
S 和 目的 矩阵 D， 我 们 要 将 每 个 元 素 $i; 拷贝 到 dd;。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 ; 


1 void transpose(int *dst, int *src, int dim) 
2 { 

3 int i, j; 

4 

5 for (1 = 0; 1 < dim; i++) 

6 for (j = 0; j < dim; j++) 

7 dst [J]*dim + 1} = src[i*dim + j); 
8 } 


这 里 ， 过 程 的 参数 是 指向 目的 矩阵 〈dst》 MIER Cre) 的 指针 ， 以 及 矩阵 的 大 小 N (dim). 
要 想 使 得 这 段 代 码 运行 得 快 ， 需 要 两 种 优化 。 首 先 ， 虽 然 函 数 在 利用 源 和 矩阵 的 空间 局 部 性 上 做 得 很 
好 ， 但 是 它 对 大 的 N 值 的 目的 和 矩阵 却 做 得 很 差 。 其 次 ，GCC 产生 的 代码 不 是 非常 有 效率 。 看 看 汇 
编 代码 ,我们 知道 其 中 的 循环 需要 10 条 指令 ， 其 中 有 5 个 会 引用 存储 器 一 一 个 引用 源 和 矩阵 ， 一 个 
引用 目的 矩阵， 而 三 个 从 栈 中 读 局 部 变量 。 你 的 工作 就 是 解决 这 些 问题 ， 设 计 一 个 运行 得 尽 可 能 快 
的 转 置 函数 。 

6.33 会合 命令 

这 项 作业 是 练习 题 6.32 的 一 个 有 趣 的 变 体 。 考 虑 将 一 个 有 向 图 g 转换 成 它 对 应 的 无 向 图 g'。 图 
g 有 一 条 从 顶点 u 到 顶点 v 的 边 ， 当 且 仅 当 原 图 g 中 有 -- 条 iu 到 v 或 者 v Bu 的 边 。 图 g 是 由 如 下 
的 它 的 邻接 矩阵 (adjacency matrix) G 表示 的 。 如 果 N 是 g 中 顶点 的 数量 ， 那 么 G 是 一 个 NXN 的 
算 阵 ， 它 的 元 素 是 全 0 或 者 全 1. 假设 g 的 顶点 是 这 样 命名 的 : vov yni WAWR -ZA v 
到 vi 的 边 ， 那 么 GD 为 1， 和 否则 为 0。 注意 ， 邻 接 和 矩阵 对 角 线 上 的 元 素 总 是 1， 而 无 向 图 的 领 接 逢 
阵 是 对 称 的 。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 ; 


1 void col_convert(int *G, int dim) { 

2 int i, j; 

3 

4 for (1 = 0; i < dim: i++) 

5 for (J = 0; j < dim; j++) 

6 G[j*dim + i} = G[j*dim + i] || G[i*dim + j]; 
7 } 


你 的 工作 是 设计 一 个 运行 得 尽 可 能 快 的 函数 。 同 前 面 一 样 ， 要 提出 一 个 好 的 解答 ， 你 需要 应 用 
你 在 第 5 章 和 第 6 章 中 所 学 到 的 概念 。 


练习 题 答 案 


练习 题 6.1 答案 
这 里 的 思想 是 通过 使 纵横 比 max(r,c)/min(r,c) 最 小 ， 使 得 地 址 位 数 最 小 。 换 句 话说 ， 数 组 越 接近 
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于 正方 形 ， 地 址 位 数 越 少 。 


练习 题 6.2 答案 
这 个 小 练习 的 主旨 是 确保 你 理解 柱 面 和 磁道 之 间 的 关系 。 一 旦 你 弄 明 白 了 这 个 关系 ， 那 问题 就 
很 简单 了 : 


Disk B §12 bytes 400 sectors 10000 tracks 2 surfaces 2 platters 
capacity “sector 六 track ™“ surface. platter disk 
= 8192000000 bytes 
= 8.192 GB 
练习 题 6.3 答案 
对 这 个 问题 的 解答 是 对 磁盘 访问 时 间 公 式 的 直接 应 用 。 平 均 旋 转 时 间 Ce ms 为 单位 ) 为 
Tovg rotation = 1/2 XT max rotation 
= 1/2 x (60 secs/15 000 RPM )x1000 ms/sec 
= 2 ms 
平均 传送 时 间 为 
Tove transfer = (60secs/15 000 RPM) x1/500 sectors /track x1000 ms/sec 
= 0.008 ms 
总 地 来 说 ， 总 的 预计 访问 时 间 为 
Taccess = T avg seek 十 Tove rotation 十 Tove transfer 
= & ms +2 ms + 0.008 ms 
= 10ms 
练习 题 6.4 答案 


为 了 创建 一 个 步 长 为 1 的 引用 模式 ， 必 须 改 变 循环 的 次 序 ， 使 得 最 右边 的 索引 变化 得 最 快 : 
1 int sumarray3d(int a[N][N][N]) 

< { 

3 int i, j, k, sum = Q; 

4 

5 


for (k = 0; k < N; k++) { 
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6 for (i = 0; 1 < N; i++) { 

7 for (j = 0; j < N; J++) { 
8 sum += a[k][i] [3]; 

9 } 

10 } 

11 } 

12 return sur; 

13 } 


这 是 一 个 很 重要 的 思想 。 要 保证 你 理解 了 为 什么 这 种 循环 次 序 改 变 就 能 得 到 一 个 步 长 为 1 的 访 
lia] #52 TK, o 


练习 题 6.5 答案 

解决 这 个 问题 的 关键 在 于 想像 出 数组 是 如 何在 存储 器 中 排列 的 , 然后 分 析 引 用 模式 。 哨 数 clearl 
以 步 长 为 工 的 引用 模式 访问 数组 ， 因 此 明显 地 具有 最 好 的 空间 局 部 性 。 图 数 clear2 依次 扫描 N TS 
构 中 的 每 一 个 ， 这 是 好 的 ， 但 是 在 每 个 结构 中 ， 它 以 步 长 不 为 1 的 模式 跳 到 下 列 相对 于 结构 起 始 位 
置 的 偏 移 处 : 0、12、4、16、8、20。 所 以 clear2 的 空间 局 部 性 比 clearl WH. PAM clear3 不 仪 在 
每 个 结构 中 跳 来 跳 去 ， 而 且 还 从 结构 跳 到 结构 ， 所 以 clear3 的 空间 局 部 性 比 clear2 和 clearl MBA. 


练习 题 6.6 答案 
这 个 解答 是 对 图 6.26 中 各 种 高 速 缓存 参数 定义 的 直接 应 用 。 不 那么 令 人 兴奋 ， 但 是 在 你 能 真正 
理解 高 速 缓存 是 如 何 工 作 的 之 前 ， 你 需要 理解 高 速 缓存 的 结构 是 如 何 导 致 这 样 划 分 地 址 位 的 。 


练习 题 6.7 答案 
填充 消除 了 冲突 不 命中 。 因 此 ， 四 分 之 三 的 引用 是 命中 的 。 


练习 题 6.8 答案 

有 上 时候， 理解 为 什么 某 种 思想 是 不 好 的 ， 能 够 帮助 你 理解 为 什么 男 一 种 是 好 的 . 这里， 我 们 看 
到 的 坏 的 想法 是 用 高 位 来 索引 高 速 缓存 ， 而 不 是 用 中 间 的 位 。 

A. 用 高 位 做 索引 ， 每 个 连续 的 数组 组 抉 (chunk》 是 由 2 个 块 组 成 的 ， 这 里 t 是 标记 位 数 。 因 
此 ， 数 组 头 2 个 连续 的 块 都 会 映射 到 组 0， 接 下 来 的 2 个 抉 会 映射 到 组 1， 依 此 类 推 。 

B， 对 于 直接 映射 高 速 缓存 (S,E,.B.m) = (512,1,32,32), 高 速 缓 存 容量 是 512 个 32 字 节 的 块 , 每 个 
高 速 缓存 行 中 有 t=18 个 标记 位 。 因 此 ， 数 组 中 头 28 个 块 会 映射 到 组 0， 接 下 来 2 个 块 会 映射 到 组 
1。 因 为 我 们 的 数组 只 由 4096/32=512 个 块 组 成 ， 所 以 数组 中 所 有 的 块 都 被 映射 到 组 0。 因 此 ， 在 任 
何 时 刻 ， 高 速 缓存 至 多 只 能 保存 一 个 数组 块 ， 即 使 数组 足够 小 ， 能 够 完全 放 到 高 速 组 和 存 中 。 很 明显 ， 
用 咒 位 做 索引 不 能 充分 利用 高 速 缓存 。 
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练习 题 6.9 答案 
两 个 低位 是 块 侦 移 ‘CO)， 然 后 是 三 位 的 组 索引 (CI)， 剩 下 的 位 作为 标记 (CT): 
1] 10 


12 9 8 7 6 5 4 3 2 l 0 
练习 题 6.10 SE 

Hoot: Ox0E34 

A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 


12 11 10 9 8 7 6 5 4 3 2 0 
CI CI 


l 
CT CT CT CT CT CT CT CT CI CO CO 


B. 4F 8285/8: 


maagano | w 


练习 题 6.11 答案 
地 址 ，0x0DD5 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 
| 12 l1 10 9 8 7 6 5 4 3 2 1 0 
ofr tr fot rfrtr tot: fofifofil 
CI CI CI CO CO 


CT CT CT CT CI CT CT cf 


B. 存储 器 引用 : 


到 


练习 题 6.12 SE 
地 址 :Ox1FF4 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ); 
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l1 


CT CT CT CT CT CT CI CI 


B. 存储 器 引用 : 


RR o | 00 
Ways | 


练习 题 6.13 答案 

这 个 问题 是 练习 题 6.9~6.12 的 一 种 逆 过 程 ， 要 求 你 反 同 工作 ， 从 高 速 缓存 的 内 容 推 出 会 在 某 
个 组 中 命中 的 地 址 。 在 这 种 情况 中 , 组 3 包含 一 个 有 效 行 ,标记 为 0x32。 因 为 组 中 只 有 一 个 有 效 行 ， 
四 个 地 址 会 命中 。 这 些 地 址 的 二 进 制 形式 为 001100100 11xx。 因 此 , 在 组 3 中 命中 的 四 个 十 六 进 制 
地 址 是 ，0x064C、0x064D、0x064E 和 0x064F。 


练习 题 6.14 答案 

A. 解决 这 个 问题 的 关键 是 想像 出 图 6.51 中 的 图 像 。 注 意 ， 每 个 高 速 缓存 行 只 包含 数组 的 一 个 
行 ， 高 速 缓存 正好 只 够 保存 一 个 数组 ， 而 且 对 于 所 有 的 i、src 和 dst 的 行 映射 到 同一 个 高 速 缓存 行 ， 
因为 高 速 缓存 不 够 大 ， 不 足以 容纳 这 两 个 数组 ， 所 以 对 一 个 数组 的 引用 an 个 数组 的 有 
用 的 行 。 例 如 ， 对 ast[0]1[0] 写 会 驱逐 当 我 们 读 src[0][0] 时 加 载 进 来 的 那 一 行 ，。 所 以 ， 当 我 们 接 下 来 
读 src[0][1] 时 ， 我 们 会 有 一 个 不 命中 。 


主 存 
0 高 速 缓 存 


图 ool 练习 题 6.14 的 图 


cape pe 


B. SRR FA 32 字 节 时 ， 它 足够 大 ， 能 容纳 这 两 个 数组 。 因 此 ， 所 有 的 不 命中 都 是 开始 时 
的 冷 不 命中 。 
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dst 数组 


练习 题 6.15 答案 

每 个 16 字 节 的 高 速 缓存 行 包含 着 两 个 连续 的 algae_position 结构 。 每 个 循环 按照 存储 器 顺序 访 
问 这 些 结构 ， 每 次 读 一 个 整数 元 素 。 所 以 ， 每 个 循环 的 模式 就 是 不 命中 、 命 中 、 不 命中 、 命 中 ， 依 
此 类 推 。 注 意 ， 对 于 这 个 问题 ， 我 们 不 必 实 际 列举 出 读 和 不 命中 的 总 数 ， 就 能 预测 出 不 命中 率 ， 

A. BER BE BD? 512 Pik. 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 

C. 不 命中 率 是 多 少 ?256/512=50%。 


练习 题 6.16 答案 

对 这 个 回 题 的 关键 是 注意 到 这 个 高 速 缓存 只 能 保存 数组 的 112。 所 以 ， 按 照 列 顺序 来 扫描 数组 
的 第 二 部 分 会 驱逐 扫描 第 一 部 分 时 加 载 进来 的 那些 行 。 例 如 ， 读 grid[16][0] 的 第 一 个 元 素 会 驱逐 当 
我 们 读 grid[0][0] 的 元 素 时 加 载 进来 的 那 一 行 。 这 一行 也 包含 grid[0][1]。 所 以 ， 当 我 们 开始 扫描 下 一 
列 时 ， 对 grid[0][1] 第 一 个 元 素 的 引用 会 不 命中 ， 

A. 读 总 数 是 多 少 ? 512 个 读 。 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 256/512=50%. 

D. 如 果 高 速 缓存 有 两 倍 大 , 那么 不 命中 率 会 是 多 少 昵 ?如 果 高 速 缓存 有 现在 的 两 倍 大 ,那么 它 
能 够 保存 整个 gid 数组 。 所 有 的 不 命中 都 会 是 开始 时 的 冷 不 命中 ， 而 不 命中 率 会 是 1/4=25%。 


练习 题 6.17 答案 

这 个 御 环 有 很 好 的 步 长 为 1 的 引用 模式 ， 因 此 所 有 的 不 命中 都 是 最 开始 时 的 冷 不 命中 。 

A. 读 总 数 是 多 少 ? 512 Pik. 

B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 128 个 不 命中 。 

C. 不 命中 率 是 多 少 ? 256/512=50%. 

D. 如 果 高 速 缓存 有 了 两 倍 大 , 那么 不 命中 率 会 是 多 少 呢 ? 无 论 高 速 缓存 的 大 小 增加 多 少 ， 都 不 会 
改变 不 命中 率 ， 因 为 冷 不 命中 是 不 可 避免 的 。 

练习 题 6.18 答案 

这 个 问题 只 是 检查 你 是 否 理解 了 我 们 的 讨论 。 步 长 对 应 于 空间 局 部 性 ， 工 作 集 大 小 对 应 于 时 间 
局 部 性 。 

练习 题 6.19 答案 


A. L1 MEAP KAA 1000 MB/s， 而 时 钟 频率 大 约 为 500 MHz. Ak, Wie} Li 中 的 一 个 
字 大 约 需要 $00/1000X4= 2 个 周期 。 


B. 要 估计 L 的 访问 时 间 ， 我 们 需要 确认 存储 器 山上 的 一 个 区 域 ， 其 中 每 个 引用 都 在 L1 中 不 
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命中 ， 却 在 L2 中 命中 。 特 别 地 ， 我 们 想 要 这 样 一 个 区 域 : OLRM LI 来 说 太 大 了 ， 但 却 在 L2 
的 范围 之 内 《例如 ，25S6 F7) 包 步 长 超过 了 行 的 大 小 《例如 ， 步 长 为 16 个 字 )。 从 存储 器 山 的 图 
中 ， 可 以 观察 到 该 区 域 〔( 工 作 集 大 小 =2$6， 步 长 =16) 中 的 有 效 吞 吐 率 大 约 为 300 MB/s. Alt, £ 
们 估计 从 L2 中 读 一 个 字 需 要 大 约 500/300 X 4=7 个 周期 。 

要 估计 主 存 的 访问 时 间 ， 我 们 看 看 山上 那个 步 长 和 工作 集 都 最 大 的 点 ， 其 中 每 个 引用 都 在 LI 
和 L2 中 不 命中 , 根据 这 幅 图 , 这 个 区 域 (工作 集 大 小 =8M, 步 长 =16) 内 的 读 吞 吐 率 大 约 为 80 MB/s. 
因此 ， 我 们 估计 从 主 存 中 读 出 一 个 字 大 约 需 要 500/80 X 4=25 个 周期 。 


在 系统 上 运行 程序 


接 邵 把 我 们 程序 的 各 个 部 分 联合 成 一 个 单独 的 文件 ,处理 器 可 以 将 这 个 文件 


外 ` / 续 我 们 对 计算 机 系统 的 拧 索 ， 进 一 步 来 看 看 构建 和 运行 程序 的 系统 软件 。 链 
加 载 到 存储 器 (memory )， 并 且 执 行 它 。 现 代 操作 系统 与 硬件 合作 ， 为 每 个 


, -程序 提供 一 种 幻像 ， 好 像 这 个 程序 是 在 独占 地 使 用 处 理 路 和 主 存 ， 而 实际 上 ， 在 任何 


时 刻 ， 系 统 上 都 有 多 个 程序 在 运行 。 因 此 ， 有 要 想 在 这 样 的 系统 上 获得 准确 的 测试 值 ， 
束 需 要 敏锐 的 洞察 力 和 小 心 的 设计 规划 。 

在 本 书 的 第 一 部 分 ， 你 很 好 地 理解 了 程序 和 硬件 之 间 的 交互 关系 。 本 书 的 第 二 部 
分 将 拓宽 你 对 系统 的 了 解 ， 使 你 牢固 地 掌握 程序 和 操作 系统 之 间 的 交互 关系 。 你 将 学 
习 到 如 何 使 用 操作 系统 提供 的 服务 来 构建 系统 级 程序 ， 例 如 Unix shell 和 动态 存储 器 
分 配 包 。 
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链接 (linking) 就 是 将 不 同 部 分 的 代码 和 数据 收集 和 组 合成 为 一 个 单一 文件 的 过 程 ， 这 个 文件 
可 被 加 载 (或 被 拷贝 ) 到 存储 器 并 执行 。 链 接 可 以 执行 于 编译 时 (compile time), HE TEMES 
被 翻译 成 机 器 代码 时 ， 也 可 以 执行 于 加 载 时 (load time )， 也 就 是 在 程序 被 加 载 器 Cloader) MAF 
存储 器 并 执行 时 ， 甚 至 执行 于 运行 时 (run time )， 由 应 用 程序 来 执行 。 在 早期 的 计算 机 系统 中 ， 链 
接 是 手动 执行 的 。 在 现代 系统 中 ， 链 接 是 由 叫做 链接 器 (linker) 的 程序 自动 执行 的 。 
链接 器 在 软件 开发 中 扮演 着 一 个 关键 的 角色 ， 因 为 它们 使 得 分 离 编译 (separate compilation) 成 
为 可 能 。 我 们 不 用 将 一 个 大 型 的 应 用 程序 组 织 为 一 个 巨大 的 源 文 件 ， 而 是 可 以 把 它 分 解 为 更 小 、 更 
好 管理 的 模块 ， 可 以 独立 地 修改 和 编译 这 些 模块 。 当 我 们 改变 这 些 模块 中 的 一 个 时 ， 我 们 只 要 简单 
地 重新 编译 它 ， 并 将 它 重 新 链接 到 应 用 上 ， 而 不 必 重 新 编译 其 他 文件 。 
链接 通常 是 由 链接 器 来 安静 地 处 理 的 ， 对 于 那些 在 编程 入 门 课 党 上 构造 小 程序 的 学 生 而 言 ， 链 
接 不 是 一 个 重要 的 议题 。 那 为 什么 还 要 这 么 麻烦 地 学 习 关 于 链接 的 知识 呢 ? 
© 理解 链接 器 将 帮助 你 构造 大 型 程序 。 构造 大 型 程序 的 程序 员 经 常会 过 到 由 于 缺少 模块 、 缺少 
库 或 者 不 兼容 的 库 版 本 引起 的 链接 器 错误 。 除 非 你 理解 链接 器 是 如 何 解析 引用 、 什 么 是 库 
以 及 链接 器 是 如 何 使 用 库 来 解析 引用 的 ， 否 则 这 类 错误 将 令 你 感到 迷惑 和 挫败 。 
。 理解 链接 器 将 帮助 你 避免 一 些 危 险 的 编程 错误 。Unix 链接 器 解析 符号 引用 时 所 做 的 决定 可 
以 不 动 声色 地 影响 你 程序 的 正确 性 。 在 默认 情况 下 ， 错 误 地 定义 多 个 全 局 变量 的 程序 将 通 
过 链接 器 ， 而 不 产生 任何 警告 信息 。 由 此 得 到 的 程序 会 产生 令 人 迷惑 的 运行 时 行为 ， 而 且 
非常 难以 调试 。 我 们 将 向 你 展示 这 是 如 何 发 生 的 ， 以 及 该 如 何 避 免 它 。 
。 理解 链接 将 帮助 你 理解 语言 的 作用 域 规则 是 如 何 实现 的 。 例 如 , 全 局 和 局 部 变量 之 间 的 区 别 
是 什么 ? 当 你 定义 一 个 具有 静态 属性 的 变量 或 者 函数 时 ， 到 底 实际 意味 着 什么 ? 
© 理解 链接 将 帮助 你 理解 其 他 重要 的 系统 概念 .链接 器 产生 的 可 执行 目标 文件 在 重要 的 系统 功 
能 中 扮 澳 看 关键 角色 ， 比 如 加 载 和 运行 程序 、 虚 拟 存储 器 、 分 页 和 存储 器 映射 。 
。 理解 链接 将 使 你 能 够 开发 共享 库 。 多 年 以 来 , 链接 都 被 认为 是 相当 简单 和 无 趣 的 。 然 而 ， 随 
看 共 至 库 和 动态 链接 在 现代 操作 系统 中 日 益 加 强 的 重要 性 ， 链 接 成 为 了 一 个 复杂 的 过 程 ， 
它 为 知识 丰富 的 程序 员 提供 了 强大 的 能 力 。 比 如 ， 许 多 软件 产品 使 用 共享 库 在 运行 时 来 升 
级 压缩 包装 的 《shrink-wrapped) 二 进 制 程序 。 还 有 ， 大 多 数 Web 服务 器 都 依赖 于 共享 库 的 
动态 链接 来 提供 动态 内 容 。 
这 一 章 提 供 了 关于 链接 各 方面 的 一 个 彻底 的 讨论 ， 从 传统 静态 链接 ， 到 加 载 时 的 共享 库 的 动态 
和 链接， 以 及 到 运行 时 的 共享 库 的 动态 链接 。 我 们 将 使 用 实际 示例 来 描述 基本 的 机 制 ， 而 且 我 们 将 误 
剂 出 链接 问题 在 哪些 情况 中 会 影响 你 程序 的 性 能 和 正确 性 。 为 了 使 描述 具体 和 可 理解 ， 我 们 的 讨论 
十 基于 这 样 风 环境 一 台 IA32 机 器 ， 上 面 运行 着 某 个 版 本 的 Unix， 例 如 Linux 或 者 Solaris， 使 用 
的 是 标准 的 ELF 目标 文件 格式 。 然 而 ， 无 论 是 什么 样 的 操作 系统 、ISA 或 者 是 目标 文件 格式 ， 基 本 
的 链接 概念 是 通用 的 ， 认 识 到 这 一 点 是 很 重要 的 。 细 节 可 能 不 尽 相 同 ， 但 是 概念 是 相同 的 。 


7.1 编译 器 驱动 程序 


考虑 图 7.1 中 的 C 程序 。 它 包含 两 个 源 文件 ，main.c 和 swap.c。 函 数 maino H swap， 它 交换 
外 部 全 局 数组 buf 中 的 两 个 元 素 。 一 般 认 为 ， 这 是 一 种 奇怪 的 交换 两 个 数字 的 方式 ， 但 是 它 将 作为 


贯穿 本 章 的 一 个 小 的 运行 示例 ， 


eae 


下 列 命令 行 来 调用 GCC 驱动 程序 : 


unix > gcc -02 -g -o p main.c swap.c 


1 /* main.c */ 

2 void swap(); 

3 

å int buf[2] = 
5 

6 int main({) 

7 { 

8 Swap {}; 

9 return 0; 
10 } 


Ca) main.c 


对 数 。 


code/link/main.c 


code/link/main.c 


图 7.1 


链接 


O ~ cA um Be WwW N FP 
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汇编 器 和 链接 器 。 比 如 ， 要 用 GNU 编译 系统 构造 示例 程序 ， 我 们 就 要 通过 在 shell 中 输入 


code/link/main.c 
/* swap.c */ 
extern int buf{[]; 


int *bufp0 = &buf (01; 
int *bufpl; 
void swap() 
{ 
int temp; 
bufpl = &buft[1]; 
temp = *bufpo; 
*bufp0 = *bufpl; 
*bufpi = temp; 
} 
(b) swap. code/link/main.c 


示例 程序 1 
这 个 示例 程序 由 两 个 源 文 件 组 成 ，main.c 和 swap.c。main 函数 初始 化 一 个 两 元 素 的 整数 数组 ,然后 调用 swap 函数 来 交换 这 一 


图 7.2 概括 了 驱动 程序 在 将 示例 程序 从 ASCII 码 源 文件 翻译 成 可 执行 目标 文件 时 的 行为 。( 如 果 


你 想 自己 看 看 这 些 步骤 ， 


产程 序 main.c 翻译 成 一 个 ASCH 码 的 中 间 文 件 main.i: 


Cpp 


[other arguments] 


main.c /tmp/main.i 


用 -v 选项 来 运行 GCC.) 驱动 程序 首先 运行 C 预 处 理 器 (cpp)， 它 将 C 的 


接 下 来 ， 驱动 程序 运行 C 编译 器 Cel), EH maini 翻译 成 一 个 ASCH 汇编 语言 文件 为 main.s。 


ccl /tmp/main.i main.c -02 fother arguments] 


-o /tmp/main.s 


然后 ， 驱 动 程 序 运行 汇编 器 (as)， 它 将 main.s 翻译 成 一 个 可 重 定位 目标 文件 (relocatable object 


file) main.o: 


as [other arguments] -o /tmp/main.o /tmp/main.s 
驱动 程序 经 过 相同 的 过 程 生成 swap.o。 最 后 ， 它 运行 链接 器 程序 14， 将 main.o 和 swap.o 以 及 
一 些 必要 的 系统 目标 文件 组 合 起 来 ， 创 建 一 个 可 执行 的 目标 文件 (executable object file) p 


ld -o p 


[system object files and args] 


/tmp/main.o /tmp/swap.o 


要 运行 可 执行 文件 p， 我 们 在 Unix shell 的 命令 行 上 输入 它 的 名 字 ， 


unix> ./p 


464 第 7 章 


main.c Swap.c 源 文 件 
翻 泽 器 翻译 器 
(cpp, cci, as) (cpp, ccl, as) 
main.o Swap.o 可 重 定位 目标 文件 
链接 器 (ld) 
完全 链接 的 
可 执行 目标 文件 
图 7.2 静态 链接 


链接 器 将 可 重 定位 目标 文件 组 合成 一 个 可 执行 目标 文件 pe 


shell 调用 一 个 在 操作 系统 中 叫做 加 载 器 (loader) 的 函数 ， 它 拷贝 可 执行 文件 p 中 的 代码 和 数 
据 到 存储 器， 然后 将 控制 转移 到 这 个 程序 的 开头 。 


7.2 ”静态 链接 


像 Unix ld 程序 这 样 的 静态 链接 器 〈static linker) 以 一 组 可 重 定位 目标 文件 和 命令 行 参 数 作 为 输 
入 ， 生 成 一 个 完全 链接 的 可 以 加 载 和 运行 的 可 执行 目标 文件 作为 输出 。 输 入 的 可 重 定 位 目标 文件 由 
各 种 不 同 的 代码 和 数据 节 (section) 组 成 。 指 令 在 一 个 节 中 ， 初 始 化 的 全 局 变量 在 另 一 个 节 中 ， 而 
未 初始 化 的 变量 又 在 另外 一 个 节 中 。 
为 了 创建 可 执行 文件 ， 链 接 器 必须 完成 两 个 主要 任务 : 
o 符号 解析 (symbol resolution ?。 目 标 文件 定义 和 引用 符号 。 符 号 解析 的 目的 是 将 每 个 符号 引 
用 和 一 个 符号 定义 联系 起 来 。 
e 重 定位 relocation)。 编 译 器 和 汇编 器 生成 从 地 址 零 开始 的 代码 和 数据 节 。 链 接 器 通过 把 每 
个 符号 定义 与 一 个 存储 器 位 置 联系 起 来 ， 然 后 修改 所 有 对 这 些 符 号 的 引用 ， 使 得 它们 指向 
这 个 存储 器 位 置 ， 从 而 重 定 位 这 些 节 。 
接 下 来 的 内 容 将 更 加 详细 地 描述 这 些 任务 。 在 你 阅读 的 时 候 ， 要 记 住 关于 链接 器 的 一 些 基本 事 
实 ， 目标 文件 纯粹 是 字 节 块 的 集合 。 这 些 块 中 ， 有 些 包 含 程序 代码 ， 有 些 则 包含 程序 数据 ， 而 其 他 
的 则 包含 指导 链接 器 和 加 载 器 的 数据 结构 。 链接 器 将 这 些 块 连接 起 来 , 确定 被 链接 块 的 运行 时 位 置 ， 
并 且 修 改 代码 和 数据 块 中 的 各 种 位 置 。 链 接 器 对 目标 机 器 了 解 其 少 ， 产 生 目 标 文件 的 编译 器 和 汇编 
锅 已 经 完成 了 大 部 分 工作 。 


7.3 ”目标 文件 


目标 文件 有 三 种 形式 : 


。 可 重 定 位 目标 文件 。 包含 二 进 制 代码 和 数据 , 其 形式 可 以 在 编译 时 与 其 他 可 重 定位 目标 文件 
合并 起 来 ， 创 建 一 个 可 执行 日 标 文件 。 
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© 可 执行 目标 文件 。 包 含 二 进 制 代码 和 数据 ， 其 形式 可 以 被 直接 拷贝 到 存储 器 并 执行 。 
e。 共享 目标 文件 。 一 种 特殊 类 型 的 可 重 定位 目标 文件 ,可 以 在 加 载 或 者 运行 时 ， 被 动态 地 加 载 
到 存储 器 并 链接 ， 
编译 器 和 汇编 器 生成 可 重 定 位 上 且 标 文件 (包括 共享 目标 文件 )。 链 接 器 生成 可 执行 目标 文件 。 从 
技术 上 来 说 ， 一 个 目标 模块 《object module〉 就 是 一 个 字 节 序列 ， 而 一 个 目标 文件 (object file) M 
是 一 个 存放 在 磁盘 文件 中 的 目标 模块 。 不 过 ， 我 们 还 是 互 换 地 使 用 这 些 术 语 。 
各 个 系统 之 间 ， 目 标 文 件 格式 都 不 相同 。 第 一 个 从 贝尔 实验 军 诞生 的 Unix 系统 使 用 的 是 a.out 
格式 《直到 今天 ， 可 执行 文件 仍然 指 的 是 aout 文件 )。System V Unix 的 早期 版 本 使 用 的 是 COFF 
(Common Object File format， 一 般 目标 文件 格式 )。Windows 使 用 的 是 COFF 的 一 个 变种 ,叫做 PE 
(Portable Executable， 可 移植 可 执行 ) 格式。 现代 Unix 系统 一 一 比如 Linux, WA System V Unix 
后 来 的 版 本 ， 各 种 BSD Unix， 以 及 SUN Solaris 一 一 使 用 的 是 Unix ELF (Executable and Linkable 
Format， 可 执行 和 可 链接 格式 )。 尽 管 我 们 的 讨论 集中 在 ELF 上 ,但 是 不 管 是 哪 种 格式 ， 基 本 的 概 
念 是 相似 的 ， 


7.4 可 重 定 位 目标 文件 


图 7.3 展示 了 一 个 典型 的 ELF 可 重 定位 且 标 文件 。ELEF k (ELF header) 以 一 个 16 字 节 的 序列 
开始 ， 这 个 序列 描述 了 字 的 大 小 和 生成 该 文件 的 系统 的 字 节 顺序 。ELF 头 剩 下 的 部 分 包含 帮助 链接 
器 解析 和 解释 目标 文件 的 信息 。 其 中 包括 ELF 头 的 大 小 、 目 标 文件 的 类 型 (比如 ， 可 重 定位 、 可 执 
行 或 者 是 共享 的 )、 机 器 类 型 〈 比 如 ，]lA32)、 节 头 部 表 (〈section header table) 的 文件 偏 称 ， 以 及 节 
头 部 表 中 的 表 目 大 小 和 数量 。 不 同 节 的 位 置 和 大 小 是 由 节 头 部 表 描 述 的 ， 其 中 目标 文件 中 每 个 节 都 
有 一 个 国定 大 小 的 表 目 〈entry )。 


节 
-rel.data 
.debug 
.line 
ane 
ems {[ SRM 


图 7.3 典型 的 ELF 可 重 定位 目标 文件 


夹 在 ELF 头 和 节 头 部 表 之 间 的 都 是 节 。 一 个 典型 的 ELF 可 重 定位 目标 文件 包含 下 面 几 个 节 : 
.text: 己 编译 程序 的 机 器 代码 。 
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.rodata: 只 读数 据 , 比如 printf 语句 中 的 格式 串 和 开关 (switch ) 语 句 的 跳 转 表 ( 参 见 练习 题 7.14)。 

.data: 已 初始 化 的 全 局 C 变量 。 局 部 C 变量 在 运行 时 被 保存 在 栈 中 ， 既 不 出 现在 .data 节 中 ， 也 
不 出 现在 .bss 节 中 。 

.bss: 未 初始 化 的 全 局 C 变量 。 在 目标 文件 中 这 个 节 不 占据 实际 的 空间 ， 它 仅仅 是 一 个 占 位 符 。 
目标 文件 格式 区 分 初始 化 和 未 初始 化 变量 是 为 了 空间 效率 : 在 目标 文件 中 ， 未 初始 化 变量 不 需要 占 
据 任何 实际 的 磁盘 空间 。 

.Symtab: 一 个 符号 表 (symbol table )， 它 存放 在 程序 中 被 定义 和 引用 的 函数 和 全 局 变量 的 信息 。 
一 些 程序 员 错 误 地 认为 必须 通过 -g 选项 来 编译 一 个 程序 ， 得 到 符号 表 人 信息。 实际 上 ， 每 个 可 午 定 位 
目标 文件 在 .symtab 中 都 有 一 张 符 号 表 。 然 而 ， 和 编译 器 中 的 符号 表 不 同 ，.symtab 符号 表 不 包含 局 
部 变量 的 表 目 。 

Tel.text: 当 链 接 器 把 这 个 目标 文件 和 其 他 文件 结合 时 ，.text 节 中 的 许多 位 置 都 需要 修改 。 一 般 
而 言 ， 任 何 调用 外 部 函数 或 者 引用 全 局 变量 的 指令 都 需要 修改 。 另 一 方面 ， 调 用 本 地 地 数 的 指令 则 
不 需要 修改 。 注 意 ， 可 执行 目标 文件 中 并 不 需要 重 定位 信息 ， 因 此 通常 省 略 ， 除 非 使 用 者 显 式 地 指 
示 链 接 器 包含 这 些 信息 ， 

.rel.data: 被 模块 定义 或 引用 的 任何 全 局 变量 的 信息 。 一 般 而 言 ， 任 何 已 初始 化 全 局 变量 的 初始 
值 是 全 局 变量 或 者 外 部 定义 函数 的 地 址 都 需要 被 修改 。 

.debug: 一 个 调试 符号 表 ， 其 有 些 表 目 是 程序 中 定义 的 局 部 变量 和 类 型 定义 ， 有 些 表 目 是 程序 中 
定义 和 引用 的 全 局 变量 ， 有 些 是 原始 的 C 源 文件 。 只 有 以 -g 选项 调用 编译 驱动 程序 时 ， 才 会 得 到 这 
张 表 。 

dine: Raa C 源 程序 中 的 行 号 和 .text 节 中 机 器 指令 之 间 的 映射 ,只 有 以 -g 选项 调用 编 详 驱 动 程序 
时 ， 才 会 得 到 这 张 表 。 

.strtab: 一 个 字符 串 表 ， 其 内 容 包 括 .symtab 和 和 .debug 节 中 的 符号 表 , 以 及 节 头 部 中 的 节 名 子 。 子 
符 串 表 就 是 以 null 结尾 的 字符 串 序列 。 

Sit: 为 什么 未 初始 化 的 数据 称 为 .bss? 

用 术语 .bss 来 表示 未 初始 化 的 数据 是 很 普遍 的 。 它 起 始 于 BM 704 汇编 语言 (大 约 在 1957 年 ) 
中 “ 块 存储 开始 ( Block Storage Start)” 指令 的 首 字 母 缩写 ， 并 沿用 至 今 。 一 个 记 住 区 分 .data 和 .bss 
节 的 简单 方法 是 把 “bss” 看 成 是 “更 好 地 节省 空间 (Better Save Space)!” 的 缩写 。 


7.5 和 他 号 和 从 号 表 


每 个 可 重 定 位 目标 模块 m 都 有 一 个 符号 表 ， 它 包含 m 所 定义 和 引用 的 符号 的 信息 。 在 链接 器 
的 上 下 文中 ， 有 一 种 不 同 的 符号 ; 

© 由 mm 定义 并 能 被 其 他 模块 引用 的 全 局 符号 。 全 局 链接 器 符号 对 应 于 非 静 态 的 C MRR 
定义 为 不 带 C 的 static 属性 的 全 局 变量 。 

s 由 其 他 模块 定义 并 被 模块 m 引用 的 全 局 符号 。 这些 符 号 称 为 外 部 符号 (external)， 对 应 于 定 
义 在 其 他 模块 中 的 C 函数 和 变量 。 

© 只 被 模块 m 定义 和 引用 的 本 地 符号 。 有 的 本 地 链接 器 符号 对 应 于 带 static 属性 的 C HM 
全 局 变量 。 这 些 符号 在 模块 m 中 的 任何 地 方 都 是 可 见 的 ， 但 是 不 能 被 其 他 模块 引用 。 目 标 
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文件 中 对 应 于 模块 m 的 节 和 相应 的 源 文件 的 名 字 也 能 获得 本 地 符号 。 
认识 到 本 地 链接 器 符号 和 本 地 程序 变量 的 不 同 是 很 重要 的 。.symtab 中 的 符号 表 不 包含 对 应 于 本 
地 非 静 态 程 序 变量 的 任何 符号 。 这 些 符号 在 运行 时 在 栈 中 被 管理 ， 链 接 器 对 此 类 符号 不 感 兴 趣 。 
有 趣 的 是 , 定义 为 带 有 C static 属性 的 本 地 过 程 变 量 是 不 在 栈 中 管理 的 ,取而代之 ,编译 器 在 .data 
Mbs 中 为 每 个 定义 分 配 空间 ， 并 在 符号 表 中 创建 一 个 有 惟一 名 字 的 本 地 链接 器 符号 。 比 如 ， 假 设 
在 同一 模块 中 的 两 个 函数 定义 了 一 个 静态 本 地 变 景 x: 


1 int f() 

2 { 

3 Static int x = Q0; 
4 return x; 

5 } 

6 

7 int g() 

8 { 

9 Static int x = 1; 
10 return x; 

ga } 


在 这 种 情况 中 ， 编 译 器 在 .bss 中 为 两 个 整数 分 配 空间 ， 并 引出 (export) 两 个 惟一 的 本 地 链接 器 
付 与 给 汇编 器 。 比 如 ， 它 可 以 用 x. 表示 函数 f 中 的 定义 ， 而 用 x.2 表示 函数 g 中 的 定义 。 
给 C 语言 初学 者 :利用 static 属性 隐藏 变量 和 函数 名 字 

C 程序 员 使 用 static 属性 在 模块 内 部 隐藏 变量 和 函数 声明 ， 就 像 你 在 Java 和 C++ 中 使 用 public 
和 private 声明 一 样 . C 源 代码 文件 扮演 模块 的 角色 .任何 声明 带 有 static 属性 的 全 局 变量 或 者 函数 
都 是 模块 私有 的 。 类 似 地 ， 任 何 声明 为 不 带 static 属性 的 全 局 变量 和 函数 都 是 公共 的 ， 可 以 被 其 他 
模块 访问 。 尽 可 能 用 static 属性 来 保护 你 的 变量 和 函数 是 很 好 的 编程 习惯 . 


符号 表 是 由 汇编 器 构造 的 使 用 编译 器 输出 到 汇编 语言 .s 文件 中 的 符号 。.symtab 节 中 包含 ELF 
付 号 表 。 这 张 符号 表 包 含 一 个 关于 表 目 的 数组 。 图 7.4 展示 了 每 个 表 目 (entry) 的 格式 。 


code/link/elfstructs.c 


1 typedef struct { 

2 int name; /* string table offset */ 

3 int value; /* section offset, or VM address */ 

4 int size; /* object size in bytes */ 

5 char type:4, /* data. func, section, or src file name (4 bits) */ 
6 binding:4; /* local or global (4 bits) */ 

7 char reserved: /* unused */ 

8 char section; /* section header index, ABS, UNDEF, */ 

9 /* or COMMON */ 

10 } Elf_ Symbol; 


一 m n S 


图 /.4 ELF 符号 表 条 目 


code/link/elfstructs.c 


type 和 binding 都 是 4 位 的 。 
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name 是 字符 串 表 中 的 字 节 偏 移 ， 指 向 符号 的 以 null 结尾 的 字符 串 名 字 。value 是 符号 的 地 址 。 
对 于 可 重 定位 的 模块 来 说 ，value 是 距 定义 目标 的 节 的 起 始 位 置 的 偏 移 。 对 于 可 执行 目标 文件 来 说 ， 
该 值 是 一 个 绝对 运行 时 地 址 。size 是 目标 的 大 小 (以 字 节 计算 )。type 通常 要 么 是 数据 ,要么 是 函数 。 
符号 表 还 可 以 包含 各 个 节 的 表 目 ， 以 及 对 应 原始 源 文 件 的 路 径 名 的 表 目 。 所 以 这 些 目 标的 类 型 也 有 
所 不 同 。Binding 域 表 示 符 号 是 本 地 的 还 是 全 局 的 。 

每 个 符号 都 和 目标 文件 的 某 个 节 相 关联 ， 由 section 域 表 示 ， 该 域 也 是 一 个 到 节 头 表 的 索引 。 有 
三 个 特殊 的 伪 节 (pseudosection )， 它 们 在 节 头 表 中 是 没有 表 目 的 : ABS 代表 不 该 被 重 定位 的 符号 ， 
UNDEF 代表 未 定义 的 从 号 (比如 ， 在 本 目标 模块 中 引用 ,但 是 却 在 其 他 地 方 定义 的 符号 )， 而 
COMMON 表示 还 未 被 分 配 位 置 的 未 初始 化 的 数据 目标 。 对 于 COMMON 符号 ，value 域 给 出 对 齐 请 
求 ， 而 size 给 出 最 小 的 大 小 ， 

比如 ， 下 面 是 maino 的 符号 表 中 的 最 后 三 个 表 目 ， 通 过 GNU READELF 工具 显示 出 来 。 开 始 
的 8 个 表 目 没有 显示 出 来 ， 是 链接 器 内 部 使 用 的 本 地 符号 。 


Num: Value Size Type Bind Ot Ndx Name 
8 : 0 8 OBJECT GLOBAL 0 3 but 
9 : 0 17 FUNC GLOBAL 0 1 main 
10: 0 0 NOTYPE GLOBAL 0 UND swap 


在 这 个 例子 中 ， 我 们 看 到 一 个 关于 全 局 符号 buf 定义 的 表 目 ， 它 是 一 个 位 于 .data 节 中 偏 移 为 零 
(BU value) 处 的 8 字 节 目标 。 其 后 跟随 着 的 是 全 局 符号 main 的 定义 ， 它 是 一 个 位 于 .text t h ee 
为 零 处 的 17 字 节 函数 。 最 后 一 个 表 目 来 自 对 外 部 符号 swap 的 引用 。READELEF 通过 一 个 整数 索引 
来 标识 每 个 节 。Ndx=1 表示 .text 节 ， 而 Ndx=3 表示 .data 节 。 
相似 地 ， 下 面 是 swap.o 的 符号 表 表 目 : 


Num: Value Size Type Bind Ot Ndx Name 
8: 0 4 OBJECT GLOBAL 0 3 bufpo 
9: 0 U NOTYPE GLOBAL 0 UND buf 
10: 0 39 FUNC GLOBAL 0 1 swap 
11: 4 4 OBJECT GLOBAL 0 COM bufpl 


Bt, 我们 看 到 一 个 关于 全 局 符号 bufp0 定义 的 表 目 ， 它 是 从 .data 中 偏 移 为 零 处 开始 的 一 个 4 
字 节 的 已 初始 化 目标 。 下 一 个 符号 来 自 bufp0 的 初始 化 代码 中 的 对 外 部 符号 buf 的 引用 。 后 面 紧 随 
的 是 全 局 符号 swap， 它 是 一 个 位 于 .text 中 偏 移 为 零 处 的 39 字 节 的 函数 。 最 后 一 个 表 目 是 全 局 符号 
bufpl1， 它 是 一 个 未 初始 化 的 4 字 节 数据 目标 〈 要 求 4 字 节 对 齐 )， 最 终 当 这 个 模块 被 链接 时 它 将 作 
为 一 个 .bss 目标 分 配 。 


练习 题 7.1 
这 个 题目 是 关于 图 7.1 (b) 中 的 swap.o 模块 。 对 于 每 个 在 swap.0 中 定义 或 引用 的 符号 ， 请 
指出 它 是 否 在 模块 swap.o 中 的 .symtab 节 中 有 一 个 符号 表 表 目 。 如 果 是 ， 请 指出 定义 该 符号 的 模 


块 (swap.0 或 者 main.o )、 符 号 类 型 ( 本 地 、 全 局 或 者 外 部 ) 和 它 在 模块 中 占据 的 节 ( .text、.data 
或 者 ,bss ). 
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7.6 ”符号 解析 


链接 器 解析 符号 引用 的 方法 是 将 每 个 引用 与 它 输入 的 可 重 定位 目标 文件 的 符号 表 中 的 一 个 确定 
的 符号 定义 联系 起 来 。 对 那些 和 引用 定义 在 相同 模块 中 的 本 地 符号 的 引用 ， 符 号 解析 是 非常 简单 明 
了 的 。 编 译 器 只 允许 每 个 模块 中 的 每 个 本 地 符号 只 有 一 个 定义 。 编 译 器 还 确保 静态 本 地 变量 ， 它 们 
也 会 有 本 地 链接 器 符号 ， 拥 有 惟一 的 名 字 。 

不 过 , 对 全 局 符号 的 引用 解析 就 款 手 得 多 。 当 编 译 器 遇 到 一 个 不 是 在 当前 模块 中 定义 的 符号 〈《 变 
量 或 函数 名 ) 时 ， 它 会 假设 该 符号 是 在 其 他 某 个 模 鼎 中 定义 的 ， 生 成 一 个 链接 器 符号 表 表 目 ， 并 把 
它 交 给 链接 器 处 理 。 如 果 链 接 器 在 它 的 任何 输入 模块 中 都 找 不 到 这 个 被 引用 的 符号 ， 它 就 输出 一 条 
OB Fe REITER) 错误 信息 并 终止 。 比 如 ， 如 时 我 们 试看 在 一 台 Linux 机 器 上 编译 和 链接 下 而 的 源 
Me: 


t void foo (void); 
2 

3 int main() f 

4 foo(}); 

5 return 0; 

6 } 


那么 编 详 器 会 没有 障碍 地 运行 ， 但 是 当 链 接 器 无 法 解析 对 foo 的 引用 时 ， 它 会 终止 : 

unix> gcc -Wall -02 -o linkerror linkerror.c 

/tmp/ccSz5uti.o: In function ‘main': 

/tmp/ccSz5uti.o(.text+0x7): undefined reference to ‘'foo' 

collect2: ld returned 1 exit status 

对 全 局 符号 的 符号 解析 很 球 手 ， 还 因为 相同 的 符号 会 被 多 个 目标 文件 定义 。 在 这 种 情况 中 ， 链 
接 器 必须 要 么 标志 一 个 错误 ， 要 么 以 某 种 方法 选 出 一 个 定义 并 抛弃 其 他 定义 。Unix 系统 采纳 的 方法 
包括 编 详 器 、 汇编 器 和 链接 器 之 间 的 协作 , 这 样 也 可 能 给 不 知情 的 程序 员 带 来 一 些 令 人 类 恼 的 问题 。 
旁 注 ， 对 C++ 和 Java 中 链接 器 符号 的 毁坏 (mangling) 

C++ 和 Java 都 多 许 重 载 方法 ， 这 些 方法 在 源 代 码 中 有 相同 的 名 字 ， 却 有 不 同 的 参数 列表 。 那 么 
链接 路 是 如 何 区 别 这 些 不 同 的 重 载 函 数 之 间 的 差异 呢 ? C++ 和 Java 中 能 使 用 重 载 函 数 ， 是 因为 编译 
路 将 每 个 惟一 的 方法 和 大 数 列表 组 合 编码 成 一 个 对 链接 器 来 说 惟一 的 名 字 。 这 种 编码 过 程 叫 做 毁坏 

( mangling )， 而 相反 的 过 程 叫 做 恢复 (demangling ). 
幸运 的 是 ,C++ 和 Java 使 用 兼容 的 令 坏 策略 。 一 个 已 信 . 环 类 的 名 字 是 由 名 字 中 字符 的 整数 数量 ， 
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后 面 跟 原始 名 字 组 成 的 ， 比 如， 类 Foo 被 编码 成 3Foo, 方法 被 编码 为 原始 方法 名 ， 后 面 加 上 __， 加 
止 已 独 坏 类 的 类 名 ， 再 加 上 每 个 参数 的 一 个 字母 、 比 如 ，Foo::bar(int, long) 被 编码 为 bar__3Fooil. 
裔 坏 全 局 变量 和 模板 名 字 的 策略 是 相似 的 . 


7.6.1 链接 器 如 何 解 析 多 处 定义 的 全 局 符号 

在 编译 时 ， 编 译 器 输出 每 个 全 局 符号 给 汇编 器 ， 或 者 是 强 (strong), MASH Cweak), MIL 
编 器 把 这 个 信息 隐 含 地 编码 在 可 重 定位 目标 文件 的 符号 表 里 。 函 数 和 已 初始 化 的 全 局 变量 是 强人 符 与 ， 
未 初始 化 的 全 局 变量 是 弱 符 号 。 对 于 图 7.1 中 的 示例 程序 , buf、 bufp0、main 和 swap HINTS, bufpl 
是 弱 伯 号 。 

根据 强 弱 符号 的 定义 ，Unix 链接 器 使 用 下 面 的 规则 来 处 理 多 处 定义 的 符号 : 

© 规则 1: 不 允许 有 多 个 强 符 号 。 

。 规则 2: 如 果 有 一 个 强 符号 和 多 个 弱 符 号 ， 那 么 选择 强 和 从 号 。 

。 规则 3: 如 果 有 多 个 弱 符 号 ， 那 么 从 这 些 弱 符 号 中 任意 选择 一 个 。 

比如 ， 假 设 我 们 试图 编译 和 链接 下 面 两 个 C 模块 


1 [* fool.c */ 1 /* bari.c */ 

2 int main() 2 int main() 

3 { 3 { 

4 return Q0; 4 return 9J; 
5 } 5 } 


在 这 个 示例 中 ， 链 接 器 将 生成 一 条 错误 信息 ， 因 为 强 符号 main 被 定义 了 多 次 《规则 1): 
unix> gcc fool.c bari.c 
/tmp/ccaQ15022.0: In function 'main': 


/tmp/cca015022.0(.text+0x0): multiple definition of 'main' 
femp/cca015021.0(.text+0x0): first defined here 


相似 地 , 链接 器 对 于 下 面 的 模块 也 会 生成 一 条 错误 信息 ,因为 强 符号 x 被 定义 了 两 次 (规则 1): 
/* foo2.c */ 
int x = 15213; 


/* bar2.c */ 
int x = 15213; 


void f() 
{ 
} 


{ 


mum Be Ww N Fe 


1 

2 

3 

4 int main(} 
5 

6 return Q: 
7 


} 


然而 ， 如 末 在 一 个 模块 里 x 未 被 初始 化 ， 那 么 链接 器 将 安静 地 选择 定义 在 男 一 个 模块 中 的 强 符 
号 《规则 2): 


1 [* foo3.c */ 1 /* bar3.c */ 
2 #include <stdio.h> 2 int x; 

3 void f(void); 3 

4 4 void f() 
5 int x = 15213; 5 { 
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6 6 x = 15212; 
7 int main() 7 } 

8 { 

9 f(),; 

10 printf ("x = d\n", x); 

11 return 0; 


12 } 


在 运行 时 ,函数 { 将 x 的 值 由 15213 KA 15212, 这 会 给 main 函数 的 作者 带 来 不 受 欢 迎 的 惊奇 ! 
注意 ， 链 接 器 通常 不 会 表明 它 检测 到 多 个 x 的 定义 : 


unix> gcc -o foobar3 foo3.c bar3.c 
unix> ./foobar3 


X = 15212 

WR x AAP SEM, HERE St CREM 3): 

1 I* food.c */ 1 /* bar4.c */ 
2 #include <stdio.h> 2 int x; 

3 void f (void); 3 

4 4 void f({) 
5 int x; 5 { 

6 6 x = 15212; 
7 int main () 7 } 

8 { 

9 x = 15213; 

10 £(); 

11 printf("x = %d\n", x); 

12 return 0; 

13 } 


规则 2 和 规则 3 的 应 用 会 造成 一 些 不 易 察觉 的 运行 时 错误 ， 对 于 不 知情 的 程序 员 来 说 ， 是 很 难 
理解 的 ， 尤 其 是 如 果 重 复 的 符号 定义 还 有 不 同 的 类 型 时 。 考 虑 下 面 这 个 例子 ， 其 中 x 在 一 个 模块 中 
定义 为 int， 而 在 男 一 个 模块 中 定义 为 double。 


1 /* fooo.c */ 1 {* bar5.c */ 
2 #include <stdio.h> 2 double x; 
3 void f(void); 3 

4 4 void f() 
5 int x = 15213; 5 { 

6 int y = 15212; 6 x = -0.0 
7 7 } 

8 int main() 

9 { 

10 fi); 

11 printf ("x = Ox%x y = Ox%x \n", 


12 x, Y); 
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13 return Q; 

14 } 

在 一 台 1A32/Linux 机 器 上 ，double 类 型 是 8 个 字 节 ， 而 int 类 型 是 4 个 字 节 。 因 此 ，barc 的 第 
6 行 中 的 赋值 x=-0.0 将 用 负数 的 双 精 度 浮 点 表示 覆盖 存储 器 中 x 和 yy 的 位 置 〈foo5.c 中 的 第 5 行 和 
第 6 行 )! 

linux> gcc -o foobar5 foo5.c bar5.c 


linux> ./foobar5 
x = 0x0 y = 0x80000000 


XE—-PARMHOAM RAR, RHEAACRRRREN, WERA DRADE mH 
通常 要 在 程序 执行 很 入 以 后 才 表 现 出 来 ， 且 远离 错误 的 发 生地 。 在 一 个 拥有 几 百 个 模块 的 大 型 系统 
中 ， 这 种 类 型 的 错误 相当 难以 修正 ， 尤 其 因为 许多 程序 员 并 不 知道 链接 器 是 如 何 工作 的 。 当 你 怀疑 
有 此 类 错误 时 ， 带 像 GCC-warn-common 这 样 的 选项 调用 链接 器 ， 这 个 选项 告诉 链接 器 ， 在 解析 多 
定义 的 全 局 符号 定义 时 ， 输 出 一 条 警告 信息 。 


练习 题 7.2 

在 此 题 中 ，REF(x.i) 一 DEF(x.K) 表 示 链 接 器 将 把 模块 i 中 对 符号 x 的 任意 引用 与 模块 k 中 xX 的 定 
义 联系 起 来 。 对 于 下 面 的 每 个 示例 ， 用 这 种 表示 法 来 说 明 链 接 器 将 如 何 解析 每 个 模块 中 的 多 个 定义 
的 符号 。 如 果 有 一 个 链接 时 错误 (规则 1), 输出 “ERROR”。 如 果 和 链接 器 从 定义 中 任意 选择 一 个 ( 规 
则 3 )， 则 输出 “UNKNOWN”. 


A. 
/* Module 1 */ /* Module 2 */ 
int main() int main; 
{ int p2() 
} { 
} 
(a) REFi(main.i) --> DEF ( - ) 
(bo) REF (main.2) --> DEF ( . ) 
B. 
/* Module i */ /* Module 2 */ 
void main() int main=l1; 
{ int p2() 
} { 
} 
(a) REF(main.1) --> DEF ( . ) 
(tb) REF(main.2) --> DEF( + ) 
C. 


/* Module 1 */ 
int x: 
void main() 


/* Module 2 */ 
double x=1.C; 
int p2() 
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7.6.2 与 静态 库 链 接 

运 今 为 止 ， 我 们 都 是 假设 链接 器 读 取 一 组 可 重 定位 目标 文件 ， 并 把 它们 链接 起 来 ， 成 为 一 个 输 
出 的 可 执行 文件 。 实 际 上 ， 所 有 的 编译 系统 都 提供 一 种 机 制 ， 将 所 有 相关 的 目标 模块 打包 为 一 个 单 
独 的 文件 ， 称 为 静态 库 (static library )， 它 也 可 以 用 做 链接 器 的 输入 。 当 链接 器 构造 一 个 输出 的 可 
执行 文件 时 ， 它 只 拷贝 静态 库 里 被 应 用 程序 引用 的 目标 模块 。 

为 什么 系统 要 文 持 库 的 概念 呢 ? 以 ANSIC 为 例 ， 它 定义 了 一 组 广泛 的 标准 IO、 串 操作 和 整数 
FARA, PIU atoi, printf, scanf 和 random。 它 们 在 libc.a 库 中 ， 对 每 个 C 程序 来 说 都 是 可 用 的 。 
ANSI C 还 在 libm.a 库 中 定义 了 一 组 广泛 的 浮 点 算术 溺 数 ， 例 如 sin. cos 和 sqrt. 

让 我 们 来 看 看 如 果 不 使 用 静态 库 ， 编 译 器 开发 人 员 会 使 用 什么 方法 来 向 用 尸 提供 这 些 滑 数 。 一 
种 方法 是 让 编译 器 辨认 出 对 标准 晃 数 的 调用 ， 并 直接 生成 相应 的 代码 。Pascal， 只 提供 了 一 小 部 分 
标准 函数 ， 和 采用 的 就 是 这 种 方法 ， 但 是 这 种 方法 对 C 而 言 是 不 合适 的 ， 因 为 C 标准 定义 了 大 量 的 标 
准 函 数 。 这 种 方法 将 给 编译 器 增加 显著 的 复杂 性 ， 而 且 每 次 添加 、 删 除 或 修改 一 个 标准 函数 时 ， 就 
需要 一 个 新 的 编译 器 版 本 。 然 而 ， 对 于 应 用 程序 员 而 言 ， 这 种 方法 会 是 非常 方便 的 ， 因 为 标准 函数 
将 总 是 可 用 的 。 

为 一 种 方法 是 将 所 有 的 标准 C 函数 都 放 在 一 个 单独 的 可 重 定 位 目标 模块 中 一 一 比如 说 libc.o 中 
一 一 应 用 程序 员 可 以 把 这 个 模块 链接 到 他 们 的 可 执行 文件 中 : 

unix> gcc main.c /usr/lib/libc.o 


这 种 方法 的 优点 是 它 将 编译 器 的 实现 与 标准 函数 的 实现 分 离开 来 ， 并 且 仍 然 对 程序 员 保持 适度 
的 便利 。 然 而 ， 一 个 很 大 的 缺点 是 系统 中 每 个 可 执行 文件 现在 都 包含 着 一 份 标准 函数 集合 的 完全 拷 
DL, 这 对 磁盘 宇 间 是 很 大 的 浪费 。( 在 一 个 典型 的 系统 上 , libc.a 大 约 是 SMB, , 而 libm.a 大 约 是 IMB. ) 
更 糖 的 是 ， 每 个 正在 运行 的 程序 都 将 它 自己 的 这 些 函 数 的 拷贝 放 在 存储 器 中 ， 这 又 是 极度 浪费 存储 
钱 的 。 发 一 个 大 的 缺点 是 ， 对 任何 标准 函数 的 任何 改变 ， 无 论 大 小 ， 都 要 求 库 的 开发 人 员 重 新 编译 
整个 源 文 件 ， 这 是 一 个 非常 耗 时 的 操作 ， 使 得 标准 函数 的 开发 和 维护 变 得 很 复杂 。 

我 们 通过 为 每 个 标准 函数 创建 一 个 分 离 的 可 重 定位 文件 ， 把 它们 存放 在 一 个 为 大 家 所 知 的 目录 
中 来 解决 其 中 的 一 些 问题 。 然 而 ， 这 种 方法 要 求 应 用 程序 员 显 式 地 链接 合适 的 目标 模块 到 它们 的 可 
执行 文件 中 ， 这 是 一 个 容易 出 错 而 且 耗 时 的 过 程 : 

unix> gcc main.c /usr/lib/printf.o /usr/lib/scanf.o... 

静态 库 概念 被 提出 来 , 以 解决 这 些 不 同方 法 的 缺点 。 相 关 的 函数 可 以 被 编译 为 独立 的 目标 模块 ， 
从 后 封闭 成 一 个 单独 的 静态 库 文件 。 然 后 ， 应 用 程序 可 以 通过 在 命令 行 上 指定 单独 的 文件 名 字 来 使 
用 这 齿 在 库 中 定义 的 函数 。 比 如 ， 使 用 标准 C 库 和 数学 库 中 函数 的 程序 可 以 用 形式 如 下 的 命令 行 来 
编译 和 链接 : 


unix> gcc main.c /usr/lib/libm.a /usr/lib/libc.a... 

在 链接 时 ， 链 接 器 将 只 拷贝 被 程序 引用 的 目标 模块 ， 这 就 减少 了 可 执行 文件 在 磁盘 和 存储 器 中 
的 大 小 。 为 一 方面 ， 应 用 程序 员 只 需要 包含 较 少 的 库 文件 的 名 字 (实际 上 ，C 编译 器 驱动 程序 总 是 
传送 libc.a 给 链接 器 ， 所 以 前 面 提 到 的 对 libc.a 的 引用 是 不 必要 的 )。 


TE Unix 系统 中 ， 静态 库 以 一 种 称 为 存档 (archive) 的 特殊 文件 格式 存放 在 磁盘 中 。 存 档 文件 是 
一 组 连接 起 来 的 可 重 定位 目标 文件 的 集合 ， 有 一 个 头 部 描述 每 个 成 员 目 标 文 件 的 大 小 和 位 置 。 存 档 
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MES Baia 标识 。 为 了 使 我 们 对 库 的 讨论 更 加 形象 具体 ， 假 设 我 们 想 在 一 个 叫做 libvector.a 的 


静态 库 中 提供 图 7.5 中 的 向 量 例 程 。 


code/link/addvec.c code/link/multvec.c 
1 vold addvec(int *x, int *y, 1 void multvec(int *x, int *y, 
2 int *z, int n) 2 int *z, int n) 
3 { 3 { 
4 int i; 4 int 1; 
5 5 
6 for (1 = 0; 1 < n; i++) 6 for (i = 0; i < n; 1++4) 
7 zi] = x[i] + ylil; 7 z[i] = x[i] * ylail; 
3 } 8 } 

code/link/addvec.c code/link/ multvec.c 

(a) addvec.o (b) multvec.o 
图 7.5 libvector.c 中 的 成 员 目 标 文件 


为 了 创建 该 库 ， 我 们 将 使 用 AR 工具 ， 如 下 : 


unix> gcc -c addvec.c multvec.c 
unix> ar rcs libvector.a addvec.o multvec.o 


Z CRA) 文件 vectorh 定义 了 libvector.a 中 例 程 的 函数 原型 )。 


/* main2.c */ 
#include <stdio.h> 
#include "Vector ,hn 


cow A OB w DDU e 


WO 
į- 
J 

ct 


main() 


addvec(x, y, 
printf("z = 
return OQ; 


Z, 2); 


PP 
Pm WN © 


这 个 程序 调用 了 静态 libvector.a HEP KAR RR, 


($d $dJ\n", 
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ZLOj, z[1l]); 


示例 程序 2 


code/link/main2.c 


ocode/link/main?2.c 


为 了 创建 这 个 可 执行 文件 ， 我 们 将 编译 和 链接 输入 文件 main.o 和 libvector.a: 


unix> gcc -02 -c main2.c 


unix> gcc -static -o p2 main2.o ./libvector.a 


图 7.7 概括 了 链接 器 的 行为 。-static 参数 告诉 编译 器 驱动 程序 , 链接 器 应 该 构建 一 个 完全 链接 的 
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可 执行 是 标 文件 ， 它 可 以 加 载 到 存储 器 并 运行 ,在 加 载 时 无 须 更 进一步 的 链接 了 。 当 链接 器 运行 时 ， 
它 判 定 addvec.o 定义 的 addvec 符号 是 被 main.o 引用 的 ， 所 以 它 拷贝 addvec.o 到 可 执行 文件 。 因 为 
程序 不 引用 任何 由 multvec.o 定义 的 符号 , 所 以 链接 器 就 不 会 拷贝 这 个 模块 到 可 执行 文件 。 链接 器 还 
会 从 libc.a 拷贝 printf.o 模块 ， 以 及 许多 C 运行 时 系统 中 的 模块 。 

源 文 件 main2.c vector.h 


翻译 器 
(cpp, ccl, as) 


可 重 定位 目标 文件 maing-o 


链接 器 (1d) 


M 完全 链接 的 
可 执行 目标 文件 


图 /.” 与 静态 库 链 接 


7.6.3 ”链接 器 如 何 使 用 静态 库 来 解析 引用 
虽然 静态 库 是 很 有 用 而 且 重 要 的 工具 , 但 是 它们 同时 也 是 程序 员 迷 惑 的 源头 ,因为 Unix 链接 
锻 使 用 它们 解析 外 部 引用 的 方式 是 令 人 困惑 的 。 在 符号 解析 的 阶段 ， 链 接 器 从 左 到 右 按 照 它们 在 
编译 器 驱动 程序 命令 行 上 出 现 的 相同 顺序 来 扫描 可 重 定位 目标 文件 和 存档 文件 (驱动 程序 自动 将 
命令 行 中 所 有 的 .c 文件 翻译 为 .o 文件 。) 在 这 次 扫描 中 , 链接 器 维持 一 个 可 重 定 位 目标 文件 的 集合 
E， 这 个 集合 中 的 文件 会 被 合并 起 来 形成 可 执行 文件 ， 和 一 个 未 解析 的 符号 (也 就 是 ， 引 用 了 但 是 
疝 未 定义 的 符号 ) 集合 U， 以 及 一 个 在 前 面 输入 文件 中 已 定义 的 符号 集合 D。 初 始 地 ，E、U 和 D 
都 是 空 的 。 
se。 对 于 命令 行 上 的 每 个 输入 文件 f， 链 接 器 会 判断 f 是 一 个 目标 文件 还 是 一 个 存档 文件 
(carchive)。 如 果 f 是 一 个 目标 文件 ， 那 么 链接 器 把 f 添 加 到 E， 修 改 U 和 DD 来 反映 f 中 的 
从 号 定义 和 引用， 并 继续 下 一 -个 输入 文件 。 
。 WR f 是 一 个 存档 文件 ， 那 么 链接 器 就 尝试 吃 配 U 中 未 解析 的 符号 和 由 存档 文件 成 员 定 义 
的 符号 。 如 果 某 个 存档 文件 成 员 m， 定 义 了 一 个 符号 来 解析 U 中 的 一 个 引用 ， 那 么 就 将 m 
加 到 EE 中 ,并 且 链 接 器 修改 U 和 D 来 反映 m 中 的 符号 定义 和 引用 。 对 存档 文件 中 所 有 的 成 
员 目 标 文件 都 反复 进行 这 个 过 程 ， 直 到 U 和 D 都 不 再 发 生变 化 。 在 此 时 ， 任 何不 包含 在 E 
中 的 成 员 目 标 文件 都 被 丢弃 ， 而 链接 器 将 继续 到 下 一 个 输入 文件 。 
© 如 果 当 链接 器 完成 对 命令 行 上 输入 文件 的 扫 措 后 , U 是 非 空 的 ,， 那么 链接 器 就 会 输出 一 个 错 
误 并 终止 。 否 则 ， 它 会 合并 和 重 定位 E 中 的 目标 文件 ， 从 而 构建 输出 的 可 执行 文件 。 
不 壮 的 是 ， 这 种 算法 会 导致 一 些 令 人 困扰 的 链接 时 错误 ， 因 为 命令 行 上 的 库 和 目标 文件 的 顺序 
非常 重要 。 如 果 在 命令 行 中 ， 定 义 一 个 符号 的 库 出 现在 引用 这 个 符号 的 目标 文件 之 前 ， 那 么 引用 就 
个 能 被 解析 ， 链 接 会 失败 。 比 如 ， 考 虑 下 面 的 命令 行 发 生 了 什么 ? 


unix> gcc -static ./libvector.a main2.c 
/tmp/cc9XH6Rp.o: In function ‘main’: 


libvector.a libc.a 静态 库 


printf.o 


和 其 他 printf.o 调用 的 模块 
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/tmp/cc9XHoRp.o(.text+0x18): undefined reference to ‘addvec' 


在 处 理 libvector.a AY, U 是 空 的 ， 所 以 没有 libvector.a 中 的 成 员 目 标 文 件 会 添加 到 E 中 。 因 此 ， 
对 addvec 的 引用 是 绝 不 会 被 解析 的 ， 所 以 链接 器 会 产生 一 条 错误 信息 并 终止。 

关于 库 的 一 般 准 则 是 将 它们 放 在 命令 行 的 结尾 。 如 果 各 个 库 的 成 员 是 相互 独立 的 一 一 也 就 是 说 
没有 成 员 引 用 男 一 个 成 员 定 义 的 符号 一 一 那么 这 些 库 就 可 以 以 任何 顺序 放置 在 命令 行 的 结尾 处 。 

万 一 方面 ， 如 果 库 不 是 相互 独立 的 ， 那 么 它们 必须 排序 ， 使 得 对 于 每 个 被 存档 文件 的 成 员外 部 
引用 的 符号 s， 在 命令 行 中 至 少 有 一 个 s 的 定义 是 在 对 s 的 引用 之 后 的 。 比 如 ,假设 foo.c 调用 libx.a 
和 libz.a 中 的 函数 ， 而 这 两 个 库 又 调用 liby.a 中 的 函数 ， 那 么 ， 在 命令 行 中 libx.a 和 libz.a 必须 处 在 
liby.a 之 前 : 

unix> gcc foo.c iibx.a libz.a liby.a 


如 宁 需 要 满 是 依赖 宽 求 ， 可 以 在 命令 行 上 重复 库 。 比 如 ， 假 设 foo.c 调用 libx.a PRIMM, BE 
又 而 用 liby.a PH PAR, M liby.a 又 调用 libx.a 中 的 函数 。 那 么 libx.a 必须 在 命令 行 上 重复 出 现 ; 
unix> gcc foo.c libx.a liby.a libx.a 


作为 男 一 种 方法 ， 我 们 可 以 将 libx.a 和 liby.a 合并 成 一 个 单独 的 存档 文件 。 


练习 题 7.3 

a 和 b 表 示 当 前 目录 中 的 目标 模块 或 者 静态 库 ， 而 ab 表示 a 依赖 于 b， 也 就 是 说 bb 定义 了 一 
个 被 a 引用 的 符号 。 对 于 下 面 每 种 场景 ， 请 给 出 最 小 的 命令 行 (也 就 是 一 个 含有 最 少数 量 的 目标 文 
件 和 库 参 数 的 命令 )， 使 得 静态 链接 器 能 解析 所 有 的 符号 引用 ， 

A. p.o > libx.a 


B. p.o > libx.a > liby.a 
C. p.o > libx.a ~ liby.a Hliby.a > libx.a > p.o 


7.7 ŞE 


一 旦 链接 器 完成 了 符号 解析 这 一 步 ， 它 就 把 代码 中 的 每 个 符号 引用 和 确定 的 一 个 符号 定义 〈 也 
跌 是 ， 它 的 一 个 输入 目标 模块 中 的 一 个 符号 表 表 目 〉 联 系 起 来 。 在 此 时 ， 链 接 器 就 知道 它 的 输入 日 
慰 模 块 中 的 代码 节 和 数据 节 的 确切 大 小 。 现 在 就 可 以 开始 重 定位 步 又 了 ， 在 这 个 步骤 中 ， 将 合并 输 
入 模块 ， 并 为 每 个 符号 分 配 运 行 时 地 址 。 重 定位 由 两 步 组 成 : 

。 重 定位 节 和 符号 定义 。 在 这 一 步 中 , 链接 器 将 所 有 相同 类 型 的 节 合并 为 同一 类 型 的 新 的 聚合 

Wo BUM, RA MARR H. data 节 被 全 部 合并 成 一 个 节 ， 这 个 节 成 为 输出 的 可 执行 目标 文 
件 的 .data 节 。 然 后 ， 链 接 器 将 运行 时 存储 器 地 址 赋 给 新 的 聚合 节 ， 赋 给 输入 模块 定义 的 每 
个 节 ， 以 及 赋 给 输入 模块 定义 的 每 个 符号 。 当 这 一 步 完成 时 ， 程 序 中 的 每 个 指令 和 全 局 变 
和 量 都 有 惟一 的 运行 时 存储 器 地 址 了 。 

。 重 定位 节 中 的 符号 引用 。 在 这 一 步 中 , 链接 器 修改 代码 节 和 数据 节 中 对 每 个 符号 的 引用 ,使 

得 它们 指向 正确 的 运行 时 地 址 。 为 了 执行 这 一 步 , 链接 器 依赖 于 称 为 重 定位 表 目 (relocation 
entry) 的 可 重 定位 目标 模块 中 的 数据 结构 ， 我 们 接 下 来 将 会 描述 这 种 数据 结构 。 
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7.71 BEMRE 

当 汇 编 器 生成 一 个 目标 模块 时 ， 它 并 不 知道 数据 和 代码 最 终 将 存放 在 存储 器 中 的 什么 位 置 。 它 
也 不 知道 这 个 模块 引用 的 任何 外 部 定义 的 函数 或 者 全 局 变量 的 位 置 。 所 以 ， 无 论 何 时 汇编 器 遇 到 对 
最 终 位 置 未 知 的 目标 引用 ， 它 就 会 生成 一 个 重 定位 表 目 (relocation entry)， 告 诉 链接 器 在 将 目标 文 
件 合 并 成 可 执行 文件 时 如 何 修改 这 个 引用 。 代 码 的 重 定 位 表 目 放 在 .relo.text 中 。 已 初始 化 数据 的 重 
定位 表 目 放 在 .relo.data 中 。 

图 7.8 展示 了 ELF 重 定 位 表 目 的 格式 。offset EERE HR Tm. symbol 标识 被 修 
改 引 用 应 该 指向 的 符号 。type 告知 链接 器 如 何 修 改 新 的 引用 。 


code/link/elfstructs.c 


1 typedef struct { 

2 int offset; /* offset of the reference to relocate */ 

3 int symbol:24, /* symbol the reference should point to */ 
4 type:8; /* relocation type */ 

5 } Elf32_Rel; 


code/link/elfstructs.c 


78 ELF 重 定位 表 目 
每 个 表 目 表示 一 个 必须 重 定位 的 引用 。 


ELF 定义 了 11 种 不 同 的 重 定 位 类 型 ,有 些 相 当 隐 秘 。 我 们 只 关心 其 中 两 种 最 基本 的 重 定位 类 型 : 

e R_386_PC32: 重 定位 一 个 使 用 32 位 PC 相关 的 地 址 引用 。 回想 一 下 3.6.3 节 ， 一 个 PC 相关 
地 址 就 是 距 程序 计数 器 CPC) 的 当前 运行 时 值 的 偏 移 量 。 当 CPU 执行 使 用 PC 相关 寻 址 的 
指令 时 ， 它 就 将 在 指令 中 编码 的 32 位 值 加 上 PC 的 当前 运行 时 值 ， 得 到 有 效 地 址 (例如 ， 
call 指令 的 目标 )，PC 值 通常 是 存储 器 中 下 一 条 指令 的 地 址 。 

e R_386_32: 重 定位 一 个 使 用 32 位 绝对 地 址 的 引用 。 通 过 绝对 寻 址 ，CPU 直接 使 用 在 指令 中 
编码 的 32 位 值 作 为 有 效 地 址 ， 不 需要 进一步 修改 。 


7.7.2 重 定 位 符号 引用 
图 7.9 展示 了 链接 器 的 重 定位 算法 的 伪 代 码 。 


1 foreach section s { 

2 foreach relocation entry r { 

3 refptr = s + r.offset; /* ptr to reference to be relocated */ 

4 

5 /* relocate a PC-relative reference */ 

6 if (r.type == R 386 PC32) { 

7 refaddr = ADDR(s) + r.offset; /* ref ’s run-time address */ 
8 *refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr); 
9 } 

10 

11 /* relocate an absolute reference */ 

12 if (r.type == R_386_32) 


13 *refptr = (unsigned) (ADDR(r.symbol) + *refptr); 
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15 } 
图 7.9 FEUMA 
第 1 行 和 第 2 行 在 每 个 节 s 以 及 与 每 个 节 相 关联 的 重 定 位 表 目 r 上 迁 代 执行 。 为 了 使 描述 其 体 
化 ， 我 们 假设 每 个 节 s 是 一 个 字 节 数组 ， 每 个 重 定位 表 目 Fr 是 一 个 类 型 为 Elf32_Rel 的 结构 ， 如 图 
7.8 中 的 定义 。 男 外 ， 我 们 还 假设 当 算 法 运行 时 ， 链 接 器 已 经 为 每 个 节 和 符号 都 选择 了 运行 时 地 址 
(分 别 用 ADDR(s) 和 ADDR(r.symbol) 表 示 )。 第 3 行 计算 的 是 需要 重 定位 的 4 凶 节 引用 的 数组 s 中 
的 地 址 。 如 果 这 个 引用 使 用 的 是 PC 相关 寻 址 ， 那 么 它 就 用 第 5~9 行 来 重 定位 。 如 果 访 引用 使 用 的 
是 绝对 寻 址 ， 它 就 通过 第 1 一 13 行 来 重 定位 。 
重 定位 PC 相关 的 引用 
回想 我 们 在 图 7.1 (a) 中 的 运行 示例 ，main.o 的 .text 节 中 的 main 程序 调用 swap 程序 ， 放 程序 
是 在 swap.o Fue MAY. File call 指令 的 反 汇 编列 表 ， 是 由 GNU OBJDUMP 工具 生成 的 : 
65: e8 fc ff ff ff call 7 <main+03x7> swap(); 
7: R_386_PC32 swap relocation entry 
从 这 个 列表 中 ， 我 们 看 到 call 指令 开始 于 节 偏 称 0x6 处 ， 由 1 个 字 节 的 操作 码 0xe8 和 随后 的 
32 位 引用 Oxfffffffe 十进制 -4) 组 成 ， 它 是 以 小 病 法 字 节 顺序 存储 的 。 我 们 还 看 到 下 一 行 显示 的 是 
这 个 引用 的 重 定位 表 目 。( 回 想 一 下 ， 重 定位 表 晶 和 指令 实际 上 是 存放 在 目标 文件 的 不 同 节 中 的 。 
OBJDUMP 工具 为 了 方便 将 它们 显示 在 一 起 .) 重 定位 表 目 r 由 3 个 域 组 成 : 


r.ozfset = 0x7 
r.symbol = swap 
r.type = R_386_PC32 


这 些 域 告 诉 链接 器 修改 开始 于 偏 移 量 0x7 处 的 32 位 PC 相关 引用 ， 使 得 在 运行 时 它 指 向 swap 
程序 。 现 在 ， 假 设 链接 器 已 经 判定 : 


ADDR(s) = ADDR(.text) = 0x80483b4 
和 
ADDR (r.symbol) = ADDR (swap) = 0x80483c8. 
使 用 图 7.9 中 的 算法 ， 链 接 器 首先 计算 出 引用 的 运行 时 地 址 〈 第 7 行 ): 
refaddr = ADDR (s) + r.otfset 
= 0x80483b4 + 0x7 
= 0x80483bb 
然后 ， 它 将 引用 从 当前 值 CO 修改 为 0x9， 使 得 它 在 运行 时 指向 swap 程序 (第 8 行 ): 
*refptr unsigned) (ADDR(r.symbol) + *refptr - refaddr) 


( 
(unsigned) (0x80483c8 + (-4) - 0x80483bb) 
(unsigned) (0x9) 


侍 得 到 的 可 执行 目标 文件 中 ，call 指令 有 如 下 的 重 定位 的 形式 : 
80483ba: e8 09 00 00 00 call 80483c8 <swap> 


上 i a A 


Swap(); 
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在 运行 时 ,call 指令 将 存放 在 地 址 0x80483ba 处 。 当 CPU 执行 call 指令 时 ,PC 的 值 为 0x80483bf， 
ERBE call 指令 之 后 的 指令 的 地 址 。 为 了 执行 这 条 指令 ，CPU 执行 以 下 的 步骤 : 


1. push PC onto stack 
2. PC <- PC + Ox9 = 0x80483bf + 0x9 = 0x80483c8 


Au, BETA FRIES RE swap 程序 的 第 一 条 指令 ， 这 当然 就 是 我 们 想 要 的 ! 

你 可 能 想 知道 为 什么 汇编 器 会 生成 call 指令 中 的 引用 的 初始 值 为 -4。 汇 编 器 用 这 个 值 作为 偏 移 
量 ， 是 因为 PC 总 是 指 癌 当前 指令 的 下 一 条 指令 。 在 有 不 同 指令 大 小 和 编码 方式 的 不 同 的 机 器 上 ， 
该 机 器 的 汇编 器 会 使 用 不 同 的 偏 移 量 。 这 是 一 个 很 有 用 的 技巧 ， 它 允许 链接 器 透明 地 重 定 位 引用 ， 
很 壮 运 地 不 用 知道 菜 一 台 机 器 的 指令 编码 。 

重 定位 绝对 引用 

回想 图 7.1 中 我 们 的 示例 程序 , swap.o 模块 将 全 局 指针 bufp0 初始 化 为 指向 全 局 数组 bof 的 第 一 
个 元 素 的 地 址 ; 

int *bufp0 = &buf{0]; 


因为 bufp0 是 一 个 已 初始 化 的 数据 目标 , 那么 它 将 被 存放 在 可 重 定 位 目标 模块 swap.o 的 .data 节 
中 。 因为 它 被 初始 化 为 一 个 全 局 数组 的 地 址 ， 所 以 它 需 要 被 重 定位 。 下 面 是 swap.o 中 .data 节 的 反 汇 
编列 表 : 

00000000 <bufp0>: 

0: 00 00 00 00 int *bufp0 = &buf{fo0]; 
0: R 386 32 buf relocation entry 

我 们 看 到 .data 节 包 含 一 个 32 位 引用 ，bufp0 指针 ， 它 的 值 为 0x0。 重 定位 表 目 告诉 链接 器 这 是 一 

个 32 位 绝对 引用 ， 开 始 于 修 移 0 处 ， 必 须 重 定位 使 得 它 指 向 符号 buf。 现 在 ， 假 设 链接 器 已 经 判定 : 


ADDR(r.symbol) = ADDR (buf) = 0x8049454 
链接 器 使 用 图 7.9 中 算法 的 第 13 行 修改 了 3 引用: 


*refptr (unsigned) (ADDR(r.symbol) + *refptr) 
(unsigned) (0x8049454 + 0) 


(unsigned) (0x8049454) 
在 得 到 的 可 执行 目标 文件 中 ，3 引 用 有 下 面 的 重 定位 形式 : 


0804945c <bufp0>: 
804945c: 54 94 04 08 Relocated! 


总 而 言 之 ， 链 接 器 在 运行 时 确定 ， 变 量 bufp0 将 放置 在 存储 器 地 址 0x804945c 处 ， 并 且 被 初始 
化 为 0x8049454， 这 个 值 就 是 buf 数组 的 运行 时 地 址 。 


swap.0 模块 中 的 .text 节 包 含 5 个 绝对 引用 ， 都 以 相似 的 方式 进行 重 定位 (参考 练习 题 7.12)。 
图 7.10 展示 了 最 终 的 可 执行 目标 文件 中 被 重 定位 的 .text 和 .data 节 。 


U U U 


code/link/p-exe.d 
1 080483b4 <main>: 


2 80483b4: 55 push $ebp 
3 80483b5: 89 e5 Mov esp, tebp 
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4 80483b7: 83 ec 08 sub $0x8,%esp 

5 80483ba: e8 09 00 00 00 call 80483c8 <swap> swap(); 

6 80483bf: 31 c0 XOY eax, eax 

7 80483c1: 89 ec mov tebp, tesp 

8 80483c3: 5d pop $ebp 

9 80483c4: c3 ret 

10 80483c5: 90 nop 

11 80483c6: 90 nop 

t2 80483c7: 90 nop 

13 080483c8 <swap>: 

14 80483c8: 55 push %ebp 

15 80483c9: 8b 15 5c 94 04 08 mov 0x804945c, tedx Get *bufp0 

16 80483cf: al 58 94 04 08 mov 0x8049458, $eax Get buf[1] 

17 80483d4: 89 e5 mov esp, tebp 

18 80483d6: c7 05 48 95 04 08 58 movil 90x8049458,0x8049548 bufpl = 
&buf[1] 

19 80483dd: 94 04 08 

20 80483e0: 89 ec mov tebp, Sesp 

21 80483e2: 8b 0a mov (tedx) , tecx 

22 80483e4: 89 02 mov Seax, (Sedx) 

23 80483e6: al 48 95 04 08 mov 0x8049548, teax Get *bufp! 

24 80483eb: 89 08 mov $ecx, (Seax) 

25 80483ed: 5d pop Sebp 

26 80483ee: c3 ret 


TO §§< $$$ col ofink/p-exl.d 
(a) 已 重 定位 的 .text Hi 
<<< ¢Ode/link/pdata-exe-d.c 

1 08049454 <buf>: 
2 8049454: 01 00 00 00 02 00 00 00 


3 0804945c <bufp0>: 


4 804945c: 54 94 04 08 Relocated! 


code/link/pdata-exe-d.c 
(b) 已 重 定 位 的 .data È 


图 /.10 可 执行 文件 p 的 已 重 定位 的 .text 和 .data 节 
原始 的 C 代码 在 图 7.1 中 。 


练习 题 7.4 

本 题 是 关于 图 7.10 中 的 重 定 位 程序 的 。 

A. 第 5 行 中 对 swap 的 重 定位 引用 的 十 六 进 制 地 址 是 多 少 ? 

B. 第 5 行 中 对 swap 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ? 

C. RRE A RAP RA, 链接 器 决定 将 .text 节 放 在 0x80483b8 处 而 不 是 0x80483b4 处 . 那么 这 种 
情况 下 ， 第 5 行 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ?3 


链接 48] 


7.8 可 执行 目标 文件 


我 们 已 经 看 到 链接 器 是 如 何 将 多 个 目标 模块 合并 成 一 个 可 执行 目标 文件 的 。 我 们 的 C 程序 ， 开 
始 时 是 一 组 ASCH 文本 文件 ， 已 经 被 转化 为 一 个 二 进 制 文件 ， 且 这 个 二 进 制 文件 包含 加 载 程序 到 存 
储 器 并 运行 它 所 需 的 所 有 信息 。 图 7.11 概括 了 一 个 典型 的 ELF 可 执行 文件 中 的 各 类 信息 。 


O o 
TT AOR HIB 


将 连续 的 文件 节 


js (数据 有 段 》 


MIRET MARIT S 
tine 和 调试 信息 
trtap O 


图 7.11 典型 的 ELF 可 执行 目标 文件 


可 执行 目标 文件 的 格式 类 似 于 可 重 定 位 目标 文件 的 格式 。ELF 头 部 描述 文件 的 总 体格 式 。 它 还 
包 插 程序 的 入 口 点 (entry point)， 也 就 是 当 程 序 运行 时 要 执行 的 第 一 条 指令 的 地 址 。,text、.rodata 
和 .data 节 和 可 重 定 位 上 月 标 文 件 中 的 节 是 相似 的 , 除了 这 些 节 已 经 被 重 定位 到 它们 最 终 的 运行 时 存储 
ae HOHE LASh. init 节 定 义 了 一 个 小 函数 ， 叫 做 _init， 程 序 的 初始 化 代码 会 调用 它 。 因 为 可 执行 文件 
是 完全 链接 的 〈 已 被 重 定位 了 )， 所 以 它 不 再 需要 .relo 节 。 

ELF 可 执行 文件 被 设计 为 很 容易 加 载 到 存储 器 ， 连 续 的 可 执行 文件 的 组 块 (chunks) 被 映射 到 
连续 的 存储 器 段 。 段 头 表 〈segment header table》 描 述 了 这 种 映射 关系 。 图 7.12 展示 了 我 们 的 示例 
可 执行 文件 p 的 段 头 表 ， 是 由 OBJDUMP 显示 的 。 


code/link/p-exe.d 
Read-only code segment 


1 LOAD off Ox00000000 vaddr 0x08048000 paddr 0x08048000 align 2**12 
2 filesz 0x00000448 memsz 0x00000448 flags r-x 

Read/write data segment 
3 LOAD off 0x00000448 vaddr 0x08049448 paddr 0x08049448 align 2**12 
4 filesz 0x000000e8 memsz 0x00000104 flags rw- 


code/link/p-exe.d 
图 7.12 示例 可 执行 文件 Pp 的 段 头 表 
图 注 : off: 文件 偏 称 ，vaddr/paddr: 虚拟 /物理 地 址 ，align: 段 对 齐 ; filesz: 目标 文件 中 的 段 大 小 ，memsz: 存储 器 中 的 段 大 小 : 
flags: 运行 时 许可 。 
从 段 尖 表 中 ， 我 们 看 到 会 根据 可 执行 目标 文件 的 内 容 初 始 化 两 个 存储 器 段 。 第 1 行 和 第 2 行 告 
证 我 们 第 一 个 段 〈 代 码 段 ) 对 齐 到 一 个 4KB (22) 的 边界 ， 有 读 / 执 行 许 可 ， 开 始 于 存储 器 地 址 
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0x08048000 处 ,总共 的 存储 器 大 小 是 0x448 字 节 ， 并 且 被 初始 化 为 可 执行 目标 文件 的 头 0x448 个 字 
节 ， 其 中 包括 ELF 头 部 、 段 头 表 以 及 .init、.text 和 .rodata 节 。 

第 3 行 和 第 4 行 告 诉 我 们 第 二 个 段 〈 数 据 段 ) 被 对 齐 到 一 个 4KB 的 边界 ， 有 读 / 写 许 可 ， 开 始 
于 存储 器 地 址 0x08049448 处 , 总 的 存储 器 大 小 为 0x104 字 节 , 并 用 从 文件 偏 移 0x448 处 开始 的 0xe8 
个 字 节 初始 化 ， 在 此 例 中 ， 偏 移 0x448 处 正 是 .data 节 的 开始 。 该 段 中 剩 下 的 字 节 对 应 于 运行 时 将 被 
TRHA BY. bss 数据 。 


7.9 加 载 可 执行 目标 文件 
要 运行 可 执行 目标 文件 p， 我 们 可 以 在 Unix shell 的 命令 行 中 输入 它 的 名 字 : 


unix>`a 4D 

因为 p 不 是 一 个 内 置 的 shell 命令 ， 所 以 shell 会 认为 p 是 一 个 可 执行 目标 文件 ， 通 过 调用 茶 个 
驻 留 在 存储 器 中 称 为 加 载 器 Cloader) 的 操作 系统 代码 来 为 我 们 运行 之 。 任何 Unix 程序 都 可 以 通过 
调用 execve 男 数 来 调用 加 载 器 ， 我 们 将 在 8.4.6 节 中 详细 地 描述 这 个 国 数 。 吉 载 器 将 可 执行 目标 文 
件 中 的 代码 和 数据 从 磁盘 拷贝 到 存储 器 中 ， 然 后 通过 跳 转 到 程序 的 第 1 条 指令 ， 即 入 口 点 Centry 
point )， 来 运行 该 程序 。 这 个 将 程序 拷贝 到 存储 器 并 运行 的 过 程 叫做 加 载 (loading )。 

每 个 Unix 程序 都 有 -一 个 运行 时 存储 器 映像 ， 如 图 7.13 所 示 。 在 Linux 系统 中 ， 代 码 段 总 是 从 
地 址 0x08048000 处 开始 。 数 据 段 是 在 接 下 来 的 下 一 个 4KB 对 齐 的 地 址 处 。 运 行 时 堆 在 接 下 来 的 读 / 
写 段 之 后 的 第 一 个 4KB 对 齐 的 地 址 处 ， 并 通过 调用 malloc 库 往 上 增长 。 (我 们 将 在 10.9 节 中 详细 描 
述 malloc MHE.) 开始 于 地 址 0x40000000 处 的 段 是 为 共享 库 保 留 的 。 用 户 栈 总 是 从 地 址 Oxbfffffff 
处 开始 ， 并 向 下 增长 的 (向 低 存 储 器 地 址 方向 增长 ;>。 从 栈 的 上 部 开始 于 地 址 Oxc0000000 处 的 段 是 
为 操作 系统 驻 留 存储 器 的 部 分 (也 就 是 内 核 )》 的 代码 和 数据 保留 的 。 


内核 虚拟 存储 器 。 
用 户 栈 〈 运 行 时 创建 ) 

共享 库 的 存储 器 映射 区 域 

JETT AY HEC malloc 创建 ) 


读 / 写 段 ( -data, .bss) | 


对 用 户 代 码 不 可 
见 的 存储 器 


0xc00390000 


+= %esp( 栈 指针 ) 


Ox40000000 


@— brk 


barne 


{.imit, .text, .rodata) 
0x08048000 


0 


图 7.13 Linux 运行 时 存储 器 映像 
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当 加 载 器 运行 时 ， 它 创建 如 图 7.13 所 示 的 存储 器 上 映像。 在 可 执行 文件 中 段 头 表 的 指导 下 ， 加 载 
器 将 可 执行 文件 的 相关 内 容 拷贝 到 代码 和 数据 段 。 接 下 来 ， 加 载 器 跳 转 到 程序 的 入 口 点 ， 也 就 是 符 
号 _start 的 地 址 。 在 _start 地 址 处 的 启动 代码 (startup code) 是 在 目标 文件 ctrl.o 中 定义 的 ， 对 所 有 的 
C 程序 都 是 一 样 的 。 图 7.14 展示 了 启动 代码 中 特殊 的 调用 序列 。 在 从 .text 和 .init 节 中 调用 了 初始 化 
例 程 后 ， 局 动 代码 调用 atexit 例 程 ， 这 个 程序 附加 了 一 系列 在 应 用 调用 exit 困 数 时 应 该 调用 的 程序 。 
exit 函数 运行 atexit 4M PRE, AURIS VAR exit 将 控制 返回 给 操作 系统 。 接 看 ， 启 动 代码 调用 
应 用 程序 的 main 程序 ， 这 就 开始 执行 我 们 的 C 代码 了 。 在 应 用 程序 返回 之 后 ， 局 动 代码 调用 _exit 
程序 ， 它 将 控制 返回 给 操作 系统 。 


1 Ox080480c0 <_start>: /* entry point in .text */ 

2 call _libc_ init first /* startup code in .text */ 

3 call _init /* startup code in .init */ 

4 call atexit /* startup code in .text */ 

5 call main /* application main routine */ 
6 call _exit /* returns control to OS */ 

7 /* control never reaches here */ 


7.14 在 每 个 筷 程序 中 crtl.o 启动 例 程 的 伪 代 码 
注意 ， 没 有 显示 将 每 个 函数 的 参数 压 入 栈 中 的 代码 。 


旁 注 ， 加 载 器 实际 上 是 如 何 工 作 的 ? 

我 们 对 于 加 载 的 描述 从 概念 上 来 说 是 准确 的 ， 但 也 不 是 完全 准确 。 为 了 理解 加 载 实 际 是 如 何 工作 
的 ， 你 必须 理解 进程 、 虚 拟 存 储 器 和 存储 器 映射 的 概念 ， 这 些 我 们 还 没有 加 以 讨论 。 当 我 们 在 后 面 第 
8 章 和 第 10 章 中 过 到 这 些 概念 时 ， 我 们 将 重新 回 到 加 载 的 问题 上 ， 并 逐渐 向 你 捐 开 它 的 神秘 面纱 ， 

对 于 不 够 有 耐心 的 读者 ， 下 面 是 关于 加 载 实际 是 如 何 工作 的 一 个 概述 : Unix 系统 中 的 每 个 程序 都 
运行 在 一 个 进程 上 下 文中 , 这 个 进程 上 下 文 有 自己 的 虚拟 地 址 空间 。 当 shell 运行 一 个 程序 时 ， 父 shell 
进程 生成 一 个 子 进程 ， 它 是 父 进程 的 一 个 复制 品 。 子 进程 通过 execve 系统 调用 启动 加 载 器 、 加载 器 册 
除 子 进程 已 有 的 虚拟 在 储 器 自 ， 并 创建 一 组 新 的 代码 、 数 据 、 堆 和 栈 段 . 新 的 栈 和 堆 段 被 初始 化 为 军 . 
通过 将 虚拟 地 址 空间 中 的 页 映射 到 可 执行 文件 的 页 大 小 的 组 块 (chunks ), 新 的 代码 和 数据 段 被 初始 化 
为 可 执行 文件 的 内 容 。 最 后 ， 加 载 器 跳 转 到 _start 地 址 ， 它 最 终 会 调用 应 用 的 main 函数 ， 除 了 一 些 头 
部 信息 ， 在 加 载 过 程 中 没有 任何 从 磁盘 到 存储 器 的 数据 拷贝 。 直 到 CPU 引用 一 个 被 映射 的 虚拟 页 ， 
才 会 进行 拷贝 ， 此 时 ， 操 作 系 统 利用 它 的 页 面 调度 机 制 自动 将 页 面 从 磁盘 传送 到 存储 器 ， 


练习 题 7.5 

A. 为 什么 每 个 C 程序 都 需要 一 个 叫做 main 49 BAK? 

B. 你 想 过 为 什么 C 的 main 函数 可 以 通过 调用 exit 或 者 执行 一 条 retum 语句 ,或 者 两 者 都 不 做 ， 
而 程序 仍然 可 以 正确 终止 吗 ? 请 解释 . 


7.10 动态 链接 共享 库 
我 们 在 7.6.2 节 中 研究 的 静态 库 针 对 的 许多 问题 是 应 用 程序 如 何 使 用 大 量 可 用 的 相关 函数 。 然 
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而 ， 静 态 库 仍然 有 一 些 明显 的 缺点 。 静 态 库 和 所 有 的 软件 一 样 ， 需 要 定期 维护 和 更 新 。 如 条 应 用 程 
序 员 想 要 使 用 一 个 库 的 最 新 版 本 ， 他 们 必须 以 某 种 方式 了 解 到 该 库 的 更 新 情况 ， 然 后 显 式 地 将 他 们 
的 程序 与 新 的 库 重 新 链接 。 

男 一 个 问题 是 几乎 每 个 C 程序 都 使 用 标准 IO Až, IEA printf 和 scanf。 在 运行 时 ， 这 些 阔 数 
的 代码 会 被 复制 到 每 个 运行 进程 的 文本 段 中 。 在 一 个 运行 0 一 100 个 进程 的 典型 系统 上 ， 这 会 是 对 
黎 少 的 存储 器 系统 资源 的 极 大 浪费 。( 存 储 器 的 一 个 有 趣 属性 就 是 不 论 一 个 系统 中 有 多 大 的 存储 器 ， 
它 总 是 一 种 稀有 的 资源 。 磁 盘 空 间 和 厨房 的 垃圾 桶 同样 有 这 种 属性 。) 

共享 库 (shared library) 是 致力 于 解决 静态 库 缺 陷 的 一 个 现代 创新 产物 。 共 享 库 是 一 个 目标 模 
块 ， 在 运行 时 ， 可 以 加 载 到 任意 的 存储 器 地 址 ， 并 在 存储 器 中 和 一 个 程序 链接 起 来 。 这 个 过 程 称 为 
动态 链接 (dynamic linking)， 是 由 一 个 叫做 动态 链接 器 (dynamic linker) 的 程序 来 执行 的 。 

共享 库 也 称 为 共享 目标 (shared object), Æ Unix 系统 中 通常 用 .so 后 缀 来 表示 。 微 软 的 操作 系 
统 大 量 地 利用 了 共享 库 ， 它 们 称 为 DLL (动态 链接 库 )。 

共享 库 的 “共享 ”在 两 个 方面 有 所 不 同 。 首 先 ， 在 任何 给 定 的 文件 系统 中 ， 对 于 一 个 库 只 有 一 
个 .so 文件 。 所 有 引用 该 库 的 可 执行 目标 文件 共享 这 个 .so 文件 中 的 代码 和 数据 ， 而 不 是 像 静 态 库 的 
内 容 那 样 被 找 中 和 多 入 到 引用 它们 的 可 执行 的 文件 中 。 其 次 ， 在 存储 器 中 ， 一 个 共享 库 的 .text 节 只 
有 一 个 副本 可 以 修 不 同 的 正在 运行 的 进程 共享 ,在 第 10 章 我 们 学 习 虚 拟 存储 器 时 将 更 加 详细 地 讨论 
这 个 问题 ， 

图 7.15 概括 了 图 7.6 中 示例 程序 的 动态 链接 过 程 。 为 了 构造 图 7.5 中 向 量 运 算 示 例 程序 的 共享 
FE libvectorso， 我 们 会 调用 编译 器 ， 给 链接 器 如 下 特殊 指令 : 


unix> gcc -shared -fPIC -o libvector.so addvec.c multvec.c 


mMain2.c vector.h 


翻译 器 
icpp,ccl,as) 


可 重 定 位 目标 文件 main2.o 重 定 位 和 
符号 表 信 息 


部 分 链接 的 
可 执行 目标 文件 P 


(execve) 
FF ae PCS 


链接 的 可 拱 行 文件 动态 链接 器 (1 d-linux.so) 


libe.so 
libvector.so 


libec.so 
libvector.soa 


代码 和 数据 


图 7.19 用 共享 库 来 动态 链接 
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-fPIC 选项 指示 编译 器 生成 与 位 置 无 关 的 代码 (下 一 节 将 详细 讨论 这 个 问题 )。-shared 选项 指示 
链接 器 创建 一 个 共享 的 目标 文件 。 

一 旦 我 们 创建 了 这 个 库 ， 我 们 随后 就 要 将 它 链 接 到 图 7.6 的 示例 程序 中 。 

unix> gcc -o p2 main2.c ./libvector.so 

这 样 就 创建 了 一 个 可 执行 目标 文件 p2, 而 此 文件 的 形式 使 得 它 在 运行 时 可 以 和 libvector.so 链 
接 。 基 本 的 思路 是 当 创 建 可 执行 文件 时 ， 静 态 执 行 一 些 链接 ， 然 后 在 程序 加 载 时 ， 动 态 完 成 链接 

认识 到 这 一 点 是 很 重要 的 ， 在 此 时 刻 ， 没 有 任何 libvector.so 的 代码 和 数据 节 被 真 的 拷贝 到 可 执 
行文 件 p2 中 。 取而代之 的 是 , 链接 器 拷贝 了 一 些 重 定 位 和 符号 表 信 息 ， 它 们 使 得 运行 时 可 以 解析 对 
libvector.so 中 代码 和 数据 的 引用 o 

当 加 载 器 加 载 和 运行 可 执行 文件 p2 时 ， 它 利用 7.9 节 中 讨论 过 的 技术 ， 加 载 部 分 链接 的 可 执行 
文件 p2. 接着 ， 它 注意 到 p2 包含 一 个 .interp 节 ， 这 个 节 包 含 动态 链接 需 的 路 径 名 ， 动 态 链接 器 本 
身 就 是 一 个 共享 目标 〈 比 如 ， 在 Linux 系统 上 的 LD-LINUX.SO)。 加 载 器 不 再 像 它 通常 那样 将 控制 
传递 给 应 用 ， 取 而 代 之 的 是 加 载 和 运行 这 个 动态 链接 器 。 

然后 ， 动 态 链 接 器 通过 执行 下 面 的 重 定 位 完成 链接 任务 : 

© 重 定位 libe.so 的 文本 和 数据 到 某 个 存储 器 段 。 在 IA32/Linux AAP, FESR MRAM 

ht 0x40000000 开始 的 区 域 中 参见 图 7.13). 

。 重 定 位 libvector.so 的 文本 和 数据 到 男 一 个 存储 器 段 。 

e EZM p2 中 所 有 对 由 libc.so 和 libvectorso 定义 的 符号 的 引用 。 

最 后 ， 动 态 链 接 器 将 控制 传递 给 应 用 程序 。 从 这 个 时 刻 开始 ， 共 享 库 的 位 置 就 固定 了 ， 并 且 在 
程序 执行 的 过 程 中 都 不 会 改变 。 


7.11 从 应 用 程序 中 加 载 和 链接 共享 库 


到 此 刻 为 止 ， 我 们 已 经 讨论 了 在 应 用 程序 执行 之 前 ， 即 应 用 程序 被 加 载 时 ， 动 态 链接 器 加 载 和 
链接 共享 库 的 情景 。 然 而 ， 应 用 程序 还 可 能 在 它 运 行 时 要 求 动态 链接 器 加 载 和 链接 任意 共享 库 ， 而 
无 需 在 编 详 时 链接 那些 库 到 应 用 中 ，。 

动态 链接 是 一 项 强大 有 用 的 技术 。 下 面 是 一 些 现实 世界 中 的 例子 ; 

© PRK. TAK Windows 应 用 的 开发 者 常常 利用 共享 库 来 分 发 软件 更 新 。 他 们 生成 一 个 共 

享 库 的 新 版 本 ， 然 后 用 户 可 以 下 载 ， 并 用 它 替 代 当 前 的 版 本 。 下 一 次 他 们 运行 应 用 程序 时 ， 
应 用 将 自动 链接 和 加 载 新 的 共享 库 。 
© 构建 高 性 能 Web 服务 器 。 许 多 Web 服务 器 生成 动态 内 容 ， 比 如 个 性 化 的 Web WH. KPA 
额 和 片 告 标语 。 早 期 的 Web 服务 器 通过 使 用 fork 和 execve 创建 一 个 子 进 程 ， 并 在 该 子 进程 
的 上 下 文中 运行 CGI 程序 ， 来 生成 动态 内 容 。 然 而 ， 现 代 高 性 能 的 Web 服务 器 可 以 使 用 基 
于 动态 链接 的 更 有 效 和 完善 的 方法 来 生成 动态 内 容 。 
其 思路 是 将 生成 动态 内 容 的 每 个 函数 打包 在 共享 库 中 。 当 一 个 来 自 Web 浏览 器 的 请 求 
到 达 时 ,服务 器 动态 地 加 载 和 链接 适当 的 函数 , 然后 直接 调用 它 , 而 不 是 使 用 fork 和 execve 
在 子 进 程 的 上 下 文中 运行 函数 。 冰 数 会 一 直 缓 存在 服务 器 的 地 址 空间 中 ， 所 以 只 要 一 个 简 
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单 的 函数 调用 的 开销 就 可 以 处 理 随 后 的 请 求 了 。 这 对 一 个 繁忙 的 网 站 来 说 是 有 很 大 影 啊 的 ， 
更 进一步 ， 可 以 在 运行 时 ， 无 需 停 止 服 务 器 ， 更 新 已 存在 的 函数 ， 以 及 添加 新 的 闭 数 。 
像 Linux 和 Solaris 这 样 的 Unix 系统 ， 为 动态 链接 器 提供 了 一 个 简单 的 接口 ， 允 许 应 用 程序 在 
运行 时 加 载 和 链接 共 学 库 。 


#include <dlfcn.h> 


void *dlopen(const char *filename, int flag); 


返回 : SRA ABS 4 eset, SHAM A Null. 


dlopen Phi BC MRA HEEL SE filename。 用 以 前 带 RTLD_GLOBAL 选项 打开 的 库 解 析 filename 
中 的 外 部 符号 。 如 果 当 前 可 执行 文件 是 带 -rdynamic 选项 编译 的 ， 那 么 对 符号 解析 而 言 ， 它 的 全 局 符 
号 也 是 可 用 的 。flag 参数 必须 要 么 包括 RTLD_NOW ,该 标志 告诉 链接 器 立即 解析 对 外 部 符号 的 引用 ， 
柴 么 包括 RTLD_LAZY 标志 ， 该 标志 指示 链接 器 推迟 符号 解析 直到 执行 来 自 库 中 的 代码 时 。 这 两 个 
值 中 的 任意 一 个 都 可 以 和 RTLD_GLOBAL 标志 取 或 。 


#incluae <dlfcn.h> 


void *disym(void *handle, char *symbol) ; 


返回 : SRAM ARMAS Hast, SHAM A Null. 


disym 上 数 的 输入 是 一 个 指向 前 面 已 经 打开 共享 库 的 句柄 和 一 个 符号 名 字 ， 如 集 该 符 写 仓 在， 
就 返回 竺 号 的 地 址 ， 否 则 返回 NULL. 


#incilude <dlfcn.h> 


int dlclose (void *handle); 


返回 : 若 成 功 则 为 0， 敌 出 错 则 为 1. 
如 桌 没 有 其 他 共享 库 还 在 使 用 这 个 共享 库 ，dlclose KARARI Fe. 


#imclude <dlfcn.h> 


const char *dlerror(void); 


返回 : 如 果 前 面 对 dlopen. disym 或 dlclose 的 调用 失败 ， 
则 为 错误 消息 ， 如 果 前 面 的 调用 成 功 ， 则 为 Nul. 


dlerror 消 数 返回 一 个 字符 串 ， 它 描述 的 是 调用 dlopen、dlsym 或 者 dlclose 函数 时 发 生 的 最 近 的 
fie, DRA A EARE, MEE] NULL. 

图 7.16 展示 了 我 们 如 何 利 用 这 个 接口 动态 链接 我 们 的 libvectorso HFE (图 7.5), 然后 调用 它 
的 addvec 程序 。 要 编译 这 个 程序 ， 我 们 将 以 下 面 的 方式 调用 GCC: 

unix> gcc -rdynamic -02 -CO p3 main3.c -ldl 


code/link/dll.c 
#include <stdio.h> 


#include <dlfcn.h> 


m Ww ho Fe 


int x[2] = {l, 2}; 
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5 int y[2] = {3, 4}: 
6 int z[2]; 
7 
8 


int main{) 


9 { 

10 void *handle; 

11 void (*addvec) (int *, int *, int *, int); 
12 char *error; 

13 

14 /* dynamically load the shared library that contains addvec() */ 
15 handle = dlopen("./libvector.so", RTLD LAZY); 
16 if (thandle) { 

17 fprintf(stderr, "%s\n", dlerror()); 
18 exit (1); 

19 } 

20 

21 /* get a pointer to the addvec() function we just loaded */ 
22 addvec = dlsymthandle, "“addvec"); 

23 if ((error = dlerror()) != NULL) { 

24 fprintf(stderr, "¥s\n", error); 

25 exit (1); 

26 } 

27 

28 /* Now we can call addvec() just like any other function */ 
29 addvec (x, Y, Z, 2); 

30 printf("z = [%d %da]\n", z[O], z[1]); 

31 

32 /* unload the shared library */ 

33 if (dlclose(handle) < 0) { 

34 fprintf(stderr, "%s\n", dlerror()); 
35 exit (1); 

36 } 

317 return 0; 

38 } 


code/link/dil.c 
图 7.16 一 个 动态 加 载 和 链接 共享 库 libvector.so 的 应 用 程序 
Sit: 共享 库 和 Java 本 地 接口 
Java 定义 了 一 个 标准 调用 规则 ， 叫 做 Java 本 地 接口 (Java Native Interface, JNI), At Java 
程序 调用 “本 地 的 ”C 和 C++ 函数 .JNI 的 基本 思想 是 将 本 地 C 函数 ， 比 如 说 foo， 编 译 到 共享 库 中 ， 


比如 说 foo.so. 当 一 个 正在 运行 的 Java 程序 试图 调用 函数 foo 时 , Java 解释 程序 利用 dlopen 接口 (或 
者 业 个 类 似 于 此 的 东西 ) 动态 链接 和 加 载 foo.so， 然 后 再 调用 foo. 


7.12 “与 位 置 无 关 的 代码 (PIC) 
共享 库 的 一 个 主要 目的 就 是 允许 多 个 正在 运行 的 进程 共享 存储 器 中 相同 的 库 代 码 ， 因 而 节约 宝 
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吐 的 存储 器 的 资源 。 那 么 ， 多 个 进程 是 如 何 共 享 一 个 程序 的 一 个 拷贝 的 呢 ? 一 种 方法 是 给 每 个 共享 
库 分 配 一 个 事先 预备 的 专用 的 地 址 空间 组 块 (chunk), 然后 要 求 加 载 器 总 是 在 这 个 地 址 加 载 共 享 库 。 
虽然 这 种 方法 很 简单 ， 但 是 它 也 造成 了 一 些 严 重 的 问题 。 首 先 ， 它 对 地 址 室 间 的 使 用 效率 不 高 ， 因 
为 即使 一 个 进程 不 使 用 这 个 库 ， 那 部 分 空间 还 是 会 被 分 配 出 来 。 第 二 ， 它 也 难以 管理 。 我 们 将 不 得 
不 保证 没有 组 块 会 重 登 。 每 次 当 一 个 库 修 改 了 之 后 ， 我 们 必须 确认 它 的 已 分 配 的 组 块 还 适合 它 的 大 
小 。 如 果 不 适合 了 ， 我 们 必须 找 一 个 新 的 组 块 。 并 且 ， 如 果 我 们 创建 了 一 个 新 的 库 ， 我 们 还 必须 为 
它 寻 找 宅 间 。 随 痢 时 间 的 进展 ， 假 设 在 一 个 系统 中 有 了 成 百 个 库 和 各 种 版 本 的 库 ， 就 很 难 避 免 地 址 
空间 分 裂 成 大 量 小 的 、 未 使 用 而 又 不 再 能 使 用 的 小 洞 。 甚 至 更 糟 的 是 ， 对 每 个 系统 而 言 ， 从 库 到 存 
储 器 的 分 配 都 是 不 同 的 ， 这 就 引起 了 更 多 令 人 头痛 的 管理 问题 ， 

一 种 更 好 的 方法 是 编译 库 代 码 ， 使 得 不 需要 链接 器 修改 库 代 码 ， 就 可 以 在 任何 地 址 加 载 和 执行 
这 些 代 码 。 这 样 的 代码 叫做 与 位 置 无 关 的 代码 (position-independent code，PIC)。 用 户 对 GCC 使 用 
-fPIC 选项 指示 GNU 编译 系统 生成 PIC 代码 。 

在 一 个 IA32 系统 中 ， 对 同一 个 目标 模块 中 过 程 的 调用 是 不 需要 特殊 处 理 的 ， 因 为 引用 是 PC H 
RK., 已 知 偏 移 量 ， 就 已 经 是 PIC 了 参见 练习 题 7.4)。 然 而 ， 对 外 部 定义 的 过 程 调用 和 对 全 局 变 
量 的 引用 通常 不 是 PIC， 因 为 它们 都 要 求 在 链接 时 重 定位 。 


7.12.1 PIC 数据 引用 

编译 器 通过 运用 以 下 有 趣 的 事实 来 生成 对 全 局 变量 的 PIC SIF: 无 论 我 们 在 存储 器 中 的 何 处 加 
载 一 个 目标 模块 〈 包 括 共享 目标 模块 )， 数 据 段 总 是 分 配 为 紧 随 在 代码 段 后 面 。 因 此 ， 代 码 段 中 任何 
指令 和 数据 段 中 任何 变量 之 间 的 距离 都 是 一 个 运行 时 常量 ， 与 代码 段 和 数据 段 的 绝对 存储 器 位 置 是 
无 关 的 。 

为 了 运用 这 个 事实 , 编译 器 在 数据 段 开 始 的 地 方 创建 了 一 个 表 , 叫做 全 局 偏 移 量 表 (global offset 
table, GOT). GOT 包含 每 个 被 这 个 目标 模块 引用 的 全 局 数据 目标 的 表 目 。 编 译 器 还 为 GOT 中 每 个 
表 目 生成 一 个 重 定位 记录 。 在 加 载 时 ， 动 态 链接 器 会 重 定位 GOT 中 的 每 个 表 目 ， 使 得 它 包 含 正确 
的 绝对 地 址 。 每 个 引用 全 局 数据 的 目标 模块 都 有 一 张 自 己 的 GOT. 


一 


在 运行 时 ， 使 用 下 面 的 代码 形式 ， 通 过 GOT 间接 地 引用 每 个 全 局 变量 


call Ll 

Ll: popl %ebx; # ebx contains the current PC 
addl SVAROFF, %ebx # ebx points to the GOT entry for var 
movl (%ebx), %*eax # reference indirect through the GOT 


movl (%teax), *eax 


在 这 段 代 码 中 ， 对 L1 的 调用 将 返回 地 址 (正好 就 是 popl 指令 的 地 址 ) 压 入 栈 中 。 随 后 ，popl 
指令 把 这 个 地 址 弹出 到 %ebx 中 。 这 两 条 指令 的 最 终 效 果 是 将 PC 的 值 移 到 寄存 器 %ebx 中 。 

指令 addl 给 %ebx 增加 一 个 常量 偏 移 量 ， 使 得 它 指向 GOT 中 适当 的 表 目 ， 该 表 目 包含 数据 项 
的 绝对 地 址 。 此 时 , 就 可 以 通过 包含 在 %ebx PAY GOT 表 目 间接 地 引用 全 局 变量 了 。 在 这 个 示例 中 ， 
AR movl 指令 (间接 地 通过 GOT) 加 载 全 局 变量 的 内 容 到 寄存 器 %eax 中 。 

PIC 代码 有 性 能 缺陷 。 现 在 每 个 全 局 变量 引用 需要 五 条 指令 而 不 是 一 条 ， 还 需要 一 个 额外 的 对 
GOT 的 存储 器 引用 。 而 且 ，PIC 代码 还 要 用 一 个 额外 的 寄存 器 来 保持 GOT 表 目 的 地 址 。 在 具有 大 
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寄存 器 文件 的 机 器 上 ， 这 不 是 一 个 大 问题 。 然 而 ， 在 寄存 器 供应 不 足 的 IA32 RSP, BERR 
个 寄存 器 也 会 造成 寄存 器 溢出 到 栈 中 。 


7.12.2 PIC 函数 调用 
PIC 代码 当然 可 以 用 相同 的 方法 来 解析 外 部 过 程 调 用 : 


call Ll 

Ll: popl %ebx; # ebx contains the current PC 
addl SPROCOFF, %ebx # ebx points to GOT entry for proc 
call * (Sebx) # call indirect through the GOT 


不 过 ， 这 种 方法 对 每 一 个 运行 时 过 程 调 用 都 要 求 三 条 额外 的 指令 。 取 而 代 之 ，BLF 编译 系统 使 
用 一 种 有 趣 的 技术 ， 叫 做 延迟 绑 定 〈lazy binding)， 将 过 程 地 址 的 绑 定 推迟 到 第 一 次 调用 该 过 程 时 。 
第 一 次 调用 过 程 的 运行 时 开销 很 大 ， 但 是 其 后 的 每 次 调用 都 只 会 花费 一 条 指令 和 一 个 间接 的 存储 器 
引用 。 

延迟 绑 定 是 通过 两 个 数据 结构 之 间 简 洁 但 又 有 些 复杂 的 交互 来 实现 的 ， 这 两 个 数据 结构 是 : 
GOT 和 PLT (procedure linkage table， 过 程 链 接 表 )。 如 果 一 个 目标 模块 调用 定义 在 共享 库 中 的 任何 
RA, AA ERA BOR GOT 和 PLT. GOT 是 .data 节 的 一 部 分 ，PLT 是 .text 节 的 一 部 分 。 

图 7.17 展示 了 图 7.6 中 示例 程序 main.o 的 GOT 的 格式 。 头 三 条 GOT 表 目 是 特殊 的 ; GOT[0] 
包含 ,dynamic 段 的 地 址 ， 这 个 段 包 含 了 动态 链接 器 用 来 绑 定 过 程 地 址 的 信息 ， 比 如 符号 表 的 位 置 和 重 
定位 信息 ;GOT[1] 包 售 一 些 定义 这 个 模块 的 信息 !' GOT[2] 包 舍 动 态 链接 器 的 延迟 绑 定 代码 的 入 口 点 。 


08049674 .dynamic 节 的 地 址 
08049678 链接 器 的 标识 信息 


0804967c 动态 链接 器 中 的 入 口 点 
08049680 0804845a | PLT[1] 中 pushl 地 址 (printf) 
08049684 0804846a | PLT[2] 中 pushl 地 址 (addvec) 


7.17 可 执行 文件 P2 的 全 局 偏 移 量 表 (GOT) 
原始 代码 见 图 7.5 和 图 7.6。 


定义 在 共享 目标 中 并 被 main.o 调用 的 每 个 过 程 在 GOT 中 都 会 有 一 个 表 目 ,从 GOT[3] 表 目 开 始 。 
对 于 示例 程序 ， 我 们 给 出 了 printf 和 addvec 的 GOT #8, printf 定义 在 libc.so 中 ， 而 addvec 定义 
在 libvectorso 中 。 

图 7.18 展示 了 我 们 示例 程序 p2 的 PLT. PLT 是 一 个 16 字 节 表 目的 数组 。 第 一 个 表 目 PLTIO] 
是 一 个 特殊 表 目 ， 它 跳 转 到 动态 链接 器 中 。 每 个 被 调用 的 过 程 在 PLT 中 都 有 一 个 表 上 且 ， 从 PLTI[1] 
开始 。 在 图 中 ，PLT[1] 对 应 于 printf，PLT[2] 对 应 于 addvec。 

PLT[O0] 

08048444: ff 35 78 96 04 08 pushl 0x8049678 # push &GOT{[1] 

804844a: ££ 25 7c 96 04 08 jmp *O0x804967c # jmp to *GOT[2] (linker) 


8048450: 00 00 # padding 
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8048452: 00 00 


+ 


padding 


PLT[1] <printf> 

8048454: ff 25 80 96 04 08 Jmp *0x804968C # jmp to *GOT[3] 
804845a: 68 00 00 00 00 pushl $0x0 ID for printf 
804845f: e9 e0 ff ff ff jmp 8048444 # jmp to PLT[O) 


Tk 


PLT[2] <addvec> 

8048464: ff 25 84 96 04 08 jmp *0x8049684 # jump to *GOT{[4] 
804846a: 68 08 00 00 00 pushl $0x8 ID for addvec 
804846f: e9 do ff ff ff jmp 8048444 # jmp to PLT{[O] 


H 


<other PLT entries> 


图 7.18 可 执行 文件 P2 BY PLT 
原始 代码 见 图 7.5 和 图 7.6。 


初始 地 ， 在 程序 被 动态 链接 并 开始 执行 后 ， 过 程 printf 和 addvec 被 分 别 绑 定 到 它们 相应 的 PLT 
表 晶 中 的 第 一 条 指令 十 。 比 如 ， 对 addvec 的 调用 有 如 下 形式 : 

80485bb: e8 a4 fe ff ff call 8048464 <addvec> 

当 addvec 第 一 次 被 调用 时 ， 控 制 传递 到 PLT[2] 的 第 一 条 指令 ， 该 指令 通过 GOT[4] 执 行 一 个 间 
接 跳 转 。 初 始 地 ， 每 个 GOT 表 目 包含 相应 的 PLT 表 目 中 pushl 表 目 的 地 址 。 所 以 ，PLT 中 的 间接 
跳 技 仅仅 是 将 控制 转移 回 到 PLT[2] 中 的 下 一 条 指令 。 这 条 指令 将 addvec 符号 的 ID 压 入 栈 中 。 最 后 
一 条 指令 跳 转 到 PLT[0]， 从 GOT[H 中 将 另外 一 个 标识 信息 的 字 压 入 栈 中 ， 然 后 通过 GOT[2] 间 接 跳 
枝 色 动态 链接 器 中 。 动 态 链 接 器 用 两 个 栈 表 目 来 确定 addvec 的 位 置 ， 用 这 个 地 址 覆盖 GOT[41， 并 
把 控制 传递 给 addvec。 

一 次 在 程序 中 调用 addvec 时 ， 控 制 像 前 面 一 样 传递 给 PLT[2]。 不 过 这 次 通过 GOT[4] 的 间接 
跌 转 将 控制 传递 给 addvec。 从 此 刻 起 ， 惟 一 额外 的 开销 就 是 对 间接 跳 转 的 存储 器 引用 。 


7.13 ”处 理 目标 文件 的 工具 


让 Unix 系统 中 有 大 量 可 用 的 工具 可 以 帮助 你 理解 和 处 理 目标 文件 。 特 别 地 ，GNU binutils 包 尤 
其 有 帮助 ， 而 且 可 以 运行 在 每 个 Unix 平台 上 。 

。 AR: 创建 静态 库 ， 插 入 、 删 除 、 列 出 和 提取 成 员 。 

e STRINGS: 列 出 一 个 目标 文件 中 所 有 可 打印 的 字符 串 。 

e STRIP: 从 目标 文件 中 删除 符号 表 信 息 。 

。 NM: 列 出 一 个 目标 文件 的 符号 表 中 定义 的 符号 。 

e SIZE: 列 出 目标 文件 中 节 的 名 字 和 大 小 。 

。 READELF: 耻 示 一 个 目标 文件 的 完整 结构 ， 包 括 ELF 头 中 编码 的 所 有 信息 。 包 含 SIZE 和 
NM 的 功能 。 

。 OBJDUMP: 所 有 二 进 制 工具 之 母 。 能 够 显示 一 个 目标 文件 中 所 有 的 信息 。 它 最 有 用 的 功能 
是 反 汇 编 .text 节 中 的 二 进 制 指令 。 
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Unix 系统 为 操作 共享 库 还 提供 了 ldd EF: 
e ldd: 列 出 一 个 可 执行 文件 在 运行 时 所 需要 的 共享 库 。 


7.14 小结 


链接 可 以 在 编译 时 由 静态 编译 器 来 完成 ， 也 可 以 在 加 载 时 和 运行 时 由 动态 链接 器 来 完成 。 链 接 
器 处 理 称 为 目标 文件 的 二 进 制 文件 ， 它 有 三 种 不 同 的 形式 ; 可 重 定位 的 、 可 执行 的 和 共享 的 。 可 重 
定位 的 目标 文件 由 静态 链接 器 组 合成 一 个 可 执行 的 目标 文件 ， 它 可 以 加 载 到 存储 器 中 并 执行 。 共 旦 
目标 文件 〈 共 至 库 ) 是 在 运行 时 由 动态 链接 器 链接 和 加 载 的， 或 者 隐 含 地 在 调用 程序 被 加 载 和 开始 
执行 时 ， 或 者 根据 需要 在 程序 调用 dlopen 库 的 函数 时 。 

链接 器 的 两 个 主要 任务 是 符号 解析 和 重 定位 。 符 号 解析 将 目标 文件 中 的 每 个 全 局 符 与 都 绑 定 到 
一 个 惟一 的 定义 ， 而 重 定位 确定 每 个 符号 的 最 终 存 储 器 地 址 ， 并 修改 对 那些 目标 的 引用 。 

静态 链接 器 是 由 像 GCC 这 样 的 编译 器 调用 的 。 它 们 将 多 个 可 重 定位 目标 文件 组 合成 一 个 单独 
的 可 执行 目标 文件 。 多 个 目标 文件 可 以 定义 相同 的 符号 ， 而 链接 器 用 来 悄悄 地 解析 这 些 多 处 定义 的 
规则 可 能 在 用 户 程 序 中 引入 的 微妙 错误 。 

多 个 目标 文件 可 以 被 连接 到 一 个 单独 的 静态 库 中 。 链 接 器 用 库 来 解析 其 他 目标 模块 中 的 符号 引 
用 。 许 多 链接 器 通过 从 左 到 右 的 顺序 扫描 来 解析 符号 引用 ， 这 是 另 一 个 引起 令 人 迷惑 的 链接 时 错误 
的 来 源 。 

加 载 器 将 可 执行 文件 的 内 容 映 射 到 存储 器 ， 并 运行 这 个 程序 。 链 接 器 还 可 能 生成 部 分 链接 的 可 
执行 目标 文件 ， 这 样 的 文件 中 有 未 解析 的 到 定义 在 共享 库 中 的 程序 和 数据 的 引用 。 在 加 载 时 ， 加 载 
器 将 部 分 链接 的 可 执行 文件 映射 到 存储 器 ， 然 后 调用 动态 链接 器 ， 它 通过 加 载 共 享 库 和 重 定位 程序 
中 的 引用 来 完成 链接 任务 。 

锌 网 译 为 位 置 无 关 代 码 的 共享 库 可 以 加 载 到 任何 地 方 ， 也 可 以 在 运行 时 被 多 个 进程 共享 。 为 了 
加 载 、 链 接 和 访问 共享 库 的 函数 和 数据 ， 应 用 程序 还 可 以 在 运行 时 使 用 动态 链接 器 。 


参考 文献 说 明 

在 计算 机 系统 文献 中 并 没有 很 好 地 记录 链接 。 因 为 链接 是 处 在 编译 器 、 计 算 机 体系 结构 和 操作 
系统 的 交叉 点 上 ， 它 要 求 理解 代码 生成 、 机 器 语言 编程 、 程 序 实例 化 和 虚拟 存储 器 。 它 恰好 不 落 在 
茶 个 通常 的 计算 机 系统 专业 中 ， 因 此 这 些 领域 的 经 典 文献 并 没有 很 好 地 描述 它 。 然 而 ，Levine 的 专 
著 提 供 了 有 关 这 个 主题 的 很 好 的 一 般 性 参考 资料 [47]。[35] 描 述 了 ELF 和 DWARF 的 原始 规范 
CX} debug Al line 节 内 容 的 规范 说 明 )。 

围绕 二 进 制 翻译 (binary translation) 的 概念 有 一 些 有 趣 的 研究 和 商业 活动 ， 二 进 制 翻译 包括 月 
怀 文 件 内 容 的 语法 解析 、 分 析 和 修改 。 二 进 制 翻译 有 三 个 不 同 的 目的 [46]: 在 一 个 系统 上 模拟 另 一 
个 系统 ， 观 察 程 序 行为 ， 或 是 执行 不 能 在 运行 时 执行 的 与 系统 相关 的 优化 。 一 些 商业 产品 ， 比 如 
VTune. Purify 和 BoundsChecker， 用 二 进 制 翻译 来 为 程序 员 提 供 对 他 们 程序 的 详细 的 观察 。 

Atom 系统 提出 了 一 个 灵活 的 机 制 ， 能 为 Alpha 可 执行 昌 标 文件 和 共享 库 提供 任意 的 C 项 数 。 
Atom 被 用 来 创建 无 数 种 分 析 工 具 ， 包 括 跟踪 过 程 调 用 、 齐 析 指 令 计 数 和 存储 器 引用 模式 、 模 拟 存 
储 器 系统 行为 ， 以 及 隔离 存储 器 引用 错误 。Etch[66] 和 EELI[46] 在 不 同 的 平台 上 提供 了 大 致 相似 的 功 
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能 。Shade 系统 利用 二 进 制 翻译 实现 指令 剖析 [15]。Dynamo[2] 和 Dyninst[8] 提 供 了 一 些 机 制 ， 能 在 
运行 时 为 存储 器 中 的 可 执行 文件 提供 测试 和 优化 。Smith 和 他 的 同事 们 致力 于 研究 程序 训 析 和 优化 
的 二 进 制 翻 译 [91]。 
家 性 作业 

76 © 

考虑 下 面 的 swap.c 图 数 ， 它 计算 自己 被 调用 的 次 数 : 


1 extern int buf[]; 

2 

3 Int *bufp0 = &buf[0}; 
4 static int *bufpl; 

5 

6 Static void incer() 

7 { 

8 static int count=0; 
9 

10 count++; 

11 } 

12 

13 void swap() 

14 { 

15 int temp; 

16 

17 incr(); 

18 bufpl = &buf[1]; 
19 temp = *bufpod; 
20 *bufp0 = *bufpl; 
21 *bufpl = temp; 
22 } 


对 于 每 个 swap.o 中 定义 和 引用 的 符号 ， 如 果 它 在 模块 swap.o 的 .symtab HHA SARA, W 
指出 。 如 果 是 这 样 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 main.o)、 符 号 类 型 (本 地 、 全 局 或 外 部 ) 
以 及 它 在 模块 中 所 处 的 节 .text、.data 或 .bss ) 。 


7.7 @ 

不 改变 任何 变量 名 字 ， 修 改 7.6.1 小 节 的 bar5.c， 使 得 fooS.c 输出 x Aly 的 正确 值 (也 就 是 整数 
15213 和 15212 的 十 六 进 制 表示 )。 

7.8 © 

在 此 题 中 , REF(x,i) --> DEF(x, k) 表 示 链 接 器 将 任意 对 模块 ii 中 符号 xx 的 引用 与 模块 k 中 符号 x 
的 定义 相关 联 。 在 下 面 每 个 例子 中 ， 用 这 种 符号 来 说 明 链 接 器 是 如 何 解析 对 在 每 个 模块 中 有 多 个 定 


义 的 引用 的 。 如 果 出 现 链接 时 错误 《规则 1), 输出 “ERROR”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 ， 
那么 输出 “UNKNOWN ”。 


A, 


/* Module 1 */ 
int main({) 

{ 

} 


(a) REF(main.1) --> DER 
(b) REF(main.2) --> DER 


/* Module 1 */ 
int x; 
void main() 


(a) REF(x.1) --> DER 
(b) REF(x.2) --> DEF( 


/* Module 1 */ 
int x=l1; 
void main() 


(a) REF(x.1) --> DEF (| 
(Db) REFP(x.2) --> DEF I 


79 ¢ 
考虑 下 面 的 程序 ， 它 由 两 个 目标 模块 组 成 


1 


2 
3 
4 


/* foo6.c */ 
void p2 {void}; 


int main() 


链接 


/* Module 2 */ 
static int main=1; 
int p2{) 

{ 

} 


) 


) 


/* Module 2 */ 
double x; 

int p2() 

{ 

} 


o) 
/* Module 2 */ 
double x=1.0; 
int p2() 
{ 
} 


-~ .| 


.| 


493 


494 


p2(); 
return 0; 


~] œ in 


} 
/* bar6.c */ 
#include <stdio.h> 


char main; 
void p21() 


{ 
printf ("Oxsx\n", 


O man A Be WH BD FH © 


} 


main); 


HE Linux 系统 中 编译 和 执行 这 个 程序 时 ， 即 使 p2 不 初始 化 变量 main， 它 也 能 打印 字符 串 


“0x55n” 并 正常 终止 。 你 能 解释 这 一 点 吗 ? 
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a 和 表示 当前 路 径 中 的 目标 模块 或 静态 库 ， 而 a 一 b 表示 a 依赖 于 b， 也 就 是 说 a 引用 了 一 个 
b 定义 的 符号 。 对 于 下 面 的 每 个 场景 ， 给 出 使 得 静态 链接 器 能 够 解析 所 有 符号 引用 的 最 小 的 命令 行 
(也 网 是 ， 含 有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 )。 


Ap.o 一 libx.a > p.o. 


B.p.o = libx.a — liby.aandliby.a 一 libx.a. 
C.p.o — libx.a — liby.a > libz.a andliby.a > libx.a > libz.a. 


7.11 ¢ 


图 7.12 中 的 段 头 表明 数据 段 占用 了 存储 器 中 0x104 个 字 节 。 然 而 ， 只 有 开始 的 0xe8 字 节 来 自 


可 执行 文件 的 节 。 是 什么 引起 了 这 种 差异 ? 


7.12 令 令 


图 7.10 中 的 swap 程序 包含 5 个 重 定位 的 引用 。 对 于 每 个 重 定位 的 引用 ， 给 出 它 在 图 7.10 中 的 
行 号 、 它 的 运行 时 存储 器 地 址 和 它 的 值 。swap.o 模块 中 的 原始 代码 和 重 定位 表 目 如 图 7.19 所 示 。 


7.10 中 的 行 号 


1 00000000 <swap>: 

2 0: 55 

3 1: 8b 15 00 00 00 00 
4 

5 7: al 04 00 00 00 


push ebp 


MOV 0x0, tedx get *bufp0= &buf[0] 
3: R_386_32 bufpo relocation entry 
MOV Ox4, eax get buffi} 


链接 
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6 8: R 386 32 buf relocation entry 
7 c: 89 e5 Mov tesp, tebp 
8 e: c7 05 00 00 00 00 04 movil $0x4, 0x0 bufpl = &bufl 1}; 
9 15: 00 00 00 
10 10: R_386_32 bufp1 relocation entry 
11 14: R_386_32 buf relocation entry 
12 18: 89 ec mov %tebp, tesp 
13 la: 8b Oa mov (tedx) , tecx temp = buff{0]; 
14 le: 89 02 mov eax, (%edx) buf[0]}=buf[ 1]; 
15 le: al 00 00 00 00 mov 0x0, teax get *bufpl=&buf{1] 
16 1f: R_386_32 bufp1 relocation entry 
17 23: 89 08 moV ecx, (%eax) buf[ 1 }=temp, 
18 25: 5d pop %ebp 
19 26: C3 ret 

719 ”练习 题 7.12 的 代码 和 重 定 位 表 目 
7.13 O04 


考虑 图 7.20 中 的 C 代码 和 相应 的 可 重 定位 目标 模块 。 

A. 确定 当 模 块 被 重 定 位 时 ， 链 接 器 将 修改 .text 中 的 哪些 指令 。 对 与 每 条 这 样 的 指令 ， 列 出 它 的 
重 定位 表 目 中 的 信息 : 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 

B. 确定 当 模 块 被 重 定位 时 ， 链 接 器 将 修改 .data 中 的 哪些 数据 目标 。 对 于 每 条 这 样 的 指令 ， 列 
出 它 的 重 定位 表 上 且 中 的 信息 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 

可 以 随便 使 用 诸如 OBJDUMP 之 类 的 工具 来 帮助 你 解答 这 个 题目 。 


1 
2 
3 
4 
5 
6 
7 
8 
9 


10 


m™ Ww V e 


extern int p3(void); 
int x = l; 


int *xp = &xX; 


void p2{int y?) { 
} 


void pl{) { 
p2(*xp + p3()); 


(a) CHE 
00000000 <p2>: 
0: 55 push 
1: 89 e5 Mov 
3: 89 ec mov 


%ebp 
esp, tebp 
ebp, esp 
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5 5: 5d pop $ebp 

6 6: C3 ret 

7 00000008 <pl>: 

8 8: 55 push sebp 

9 9: 89 e5 mov %esp, %ebp 

10 b: 83 ec 08 sub S0x8,%esp 

11 e: 83 c4 f4 add SOxfffffff4,S$Sesp 
12 11: e8 fe ff ff ff call 12 <pl+0xa> 
13 16: 89 c2 mov $eax,%edx 

14 18: al 00 00 00 00 mov 0x0, %eax 

15 ld: 03 10 add (eax) ,edx 
76 lf: 52 push $edx 

17 20: e8 fc ff ff ff call 21 <pl+0x19> 
18 25: 89 ec mov ebp, esp 

19 27: 5d pop %ebp 

20 28: C3 ret 


(b) 可 重 定位 目标 文件 的 text 节 


1 00000000 <x>: 
2 0: 01 00 00 00 
3 00000004 <xp>: 
4 4: 00 00 00 00 
Cc) 可 重 定 位 目标 文件 的 .data Ti 
图 7.20 练习 题 7.13 的 示例 代码 
7.14 令 令 争 


考虑 图 7.21 中 的 C 代码 和 相应 的 可 重 定位 日 标 模块 。 
A. 确定 当 模 块 被 重 定位 时 ,链接 器 将 修改 .text 中 的 哪些 指令 。 对 于 每 条 这 样 的 指令 ， 列 出 它 的 
重 定位 表 目 中 的 信息 : HRE, BERKUS BT. 
B. 确定 当 模 块 被 重 定位 时 ， 链接 器 将 修改 .rodata 中 的 哪些 数据 。 对 于 每 条 这 样 的 指令 ， 列 出 它 
的 重 定位 表 目 中 的 信息 ; 节 偏 移 、 重 定位 类 型 和 符号 名 字 。 
可 以 随便 使 用 诸如 OBJDUMP 之 类 的 工具 来 帮助 你 解答 这 个 题 日 。 
int relo3(int vel) { 


switch (val) { 


case 100: 


case 101: 


1 
2 
3 
4 return {val}; 
5 
6 return (val+1); 
7 


case 103: case 104: 


return(val¢+3); 


case 105: 


returnival+5); 
default: 


return(val+6); 


00000000 <relo3>: 


8 

9 

10 

11 

12 

13 

14 } 

1 

2 0: 55 
3 1: 89 
4 3: 8b 
5 6: 8d 
6 9: 83 
7 c: 77 
8 e: ff 
9 15: 40 
10 16: eb 
11 18: 83 
12 lb: eb 
13 ld: 8d 
14 20: 83 
15 23: eb 
16 25: 83 
17 28: 89 
18 2a: Sd 
19 2p: c3 
1 

2 

3 

7.15 OOF 


e5 
45 
50 


ret 


08 
9e 
05 


95 00 00 00 00 


03 


00 
05 


06 


链接 


(a) CRE 


push 


mov 


mov 
lea 
cmp 
ja 
Jmp 
inc 
Jmp 
add 
jmp 
lea 
add 
jmp 
add 
mov 


pop 


%ebp 

esp, ebp 

0x8 (%ebp) , teax 
Oxf fFLfEI9c(%eax) , tedx 
$0Ox5, $edx 

25 <relo3+0x25> 
*O0xC(, tedx, 4) 
%eax 

28 <relo3+0x28> 
SOx3, Seax 

28 <relo3+0x28> 
Ox0 (%es1),%esS1 
$0x5, $eax 

28 <relo3+0x28> 
$0x6,%eax 

tebp, esp 

%ebp 


Cb) 可 重 定 位 目标 文件 的 .text 节 


0010 18000000 20000000 


This is the jump table for the switch statement 


(c) 可 重 定 位 目标 文件 的 .rodata + 


图 7.21 


练习 题 7.14 的 示例 代码 


完成 下 面 的 任务 将 帮助 你 更 熟悉 处 理 目 标 文件 的 各 种 工具 。 
A. 在 你 的 系统 上 ，lib.c M libm.a 的 版 本 中 包含 多 少 日 标 文件 ? 
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0000 28000000 15000000 25000000 18000000 4 words at offsets 0x0,0x4, 0x8, and Oxc 
2 words at offsets 0x10 and 0x14 
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B. gce -02 产生 的 可 执行 代码 与 gcc -02 -g 产生 的 不 同 吗 ? 
C. 在 你 的 系统 上 ，GCC 驱动 程序 使 用 的 是 什么 共享 库 ? 


% >) ae 


练习 题 7.1 答案 
这 道 练习 题 的 目的 是 帮助 你 理解 链接 器 符号 和 C 变量 及 项 数 之 间 的 关系 。 注 意 C 的 本 地 变量 
temp WATTS RRA. 


swap.o.symtab A? 
pf | 是 


练习 题 7.2 答案 
这 是 一 个 简单 的 练习 ,检查 你 对 Unix 链接 器 解析 定义 在 一 个 以 上 模块 中 的 全 局 符号 时 所 使 用 规 
则 的 理解 。 理 解 这 些 规 则 可 以 帮助 你 避免 一 些 讨 厌 的 编程 错误 。 
A. 链接 器 选择 定义 在 模块 ] 中 的 强 件 号， 而 不 是 定义 在 模块 2 中 的 弱 符 号 (规则 2): 
(a) REF (mair.1) --> DEF(main.1) 
(b) REF (main.2) --> DEF(main.1) 
B. 这 是 一 个 错误 ， 因 为 每 个 模块 都 定义 了 一 个 强 符号 main GRH 1). 
C. 链接 器 选择 定义 在 模块 2 中 的 强 符 号 ， 而 不 是 定义 在 模块 1 中 的 弱 符 号 (规则 2): 


Ca) REF (XxX.1) --> DEF(x.2) 
(b) REF (x.2) --> DEF(x.2) 
练习 题 7.3 答案 


企 命令 行 中 错误 地 放置 静态 库 的 位 置 是 造成 令 许 多 程序 员 迷 惑 的 链接 器 错误 的 常见 原因 。 然 而 ， 
一 且 你 理解 了 链接 器 是 如 何 使 用 静态 库 来 解析 引用 的 ， 它 就 相当 简单 易 懂 了。 这 个 小 练习 检查 了 你 
对 这 个 概念 的 理解 : 

A. gcc p.o libx.a 

B. gcc p.o libx.a liby.a 

C. gcc p.o libx.a liby.a libx.a 

练习 题 7.4 答案 

这 道 题 涉 及 的 是 图 7.10 中 的 反 汇 编列 表 。 在 此 ， 我 们 的 目的 是 让 你 练习 阅读 反 汇 编列 表 ， 并 检 
查 你 对 PC 相关 寻 址 的 理解 。 

A. 第 5 行 被 重 定 位 引用 的 十 六 进 制 地 址 为 0x80483bb。 

B. 第 5 行 被 重 定位 引用 的 十 六 进 制 值 为 0x9。 记 住 ， 反 汇编 列表 给 出 了 小 端 法 字 节 顺序 表示 的 
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引用 值 。 


C. 这 里 的 关键 观察 点 是 无 论 链接 器 将 .text 节 定 位 在 哪里 ， 引 用 和 swap 图 数 间 的 距离 总 是 一 样 
的 。 因 此 , 无 论 链接 器 将 .text 节 定 位 在 何 处 , 因为 引用 是 一 个 PC 相关 地 址 , 所 以 它 的 值 都 将 是 0x9. 


练习 题 7.5 答案 

对 大 多 数 程序 员 而 言 ，C 程序 实际 是 如 何 户 动 的 是 一 个 迷 。 这 些 问 题 检 查 了 你 对 这 个 启动 过 程 
的 理解 . 你 可 以 参考 图 7.14 中 的 C 月 动 代 码 来 回答 这 些 问 题 : 

A. 每 个 程序 都 需要 一 个 main 函数 ， 因 为 C 的 启动 代码 对 于 每 个 C 程序 而 言 都 是 相同 的 ， 要 跳 
转 到 一 个 叫做 main 的 函数 上 。 

B. 如 果 main 以 retum 语句 终止 ， 那 么 控制 传递 回 局 动 程序 ， 该 程序 通过 调用 _exit 骨 将 控制 返 
回 给 操作 系统 。 如果 用 户 省 略 了 return 语句 , 也 会 发 生 相 同 的 情况 。 如 果 main 是 以 调用 exit 终止 的 ， 
ABA exit 将 最 终 通 过 调用 _exit 将 控制 返 回 给 操作 系统 。 在 所 有 三 种 情况 中 ， 最 终 效 果 是 相同 的 ， 妆 
main 完成 时 ， 控 制 会 返回 给 操作 系统 。 
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从 给 处 理 器 加 电 开 始 ， 直 到 你 断 电 为 止 ， 程 序 计 数 器 假设 一 个 序列 的 值 

ao, G1, °°", An. 

其 中 ， 每 个 d; 是 某 个 相应 的 指令 h 的 地 址 。 每 次 从 a; 到 Ag+! 的 过 渡 称 为 控制 转移 (control 
transfer)。 这 样 的 控制 转移 序列 叫做 处 理 器 的 控制 流 (flow of control 或 control flow ). 

最 简单 的 一 种 控制 流 是 一 个 “平滑 的 ”序列 ， 其 中 每 个 和 ,i 在 存储 器 (memory) 中 都 是 相 
邻 的 。 典 型 地 ， 这 种 平滑 流 的 突变 ， 也 就 是 Li 与 和 不 相 邻 ， 是 由 请 如 跳 转 、 调 用 和 返回 这 样 一 些 
熟悉 的 程序 指令 造成 的 .要 想 使 得 程序 能 够 对 由 程序 变量 表示 的 内 部 的 程序 状态 中 的 变化 做 出 反应 ， 
这 些 指令 是 必要 的 机 制 。 

但 是 系统 也 必须 能 够 对 系统 状态 的 变化 做 出 反应 ， 这 些 系统 状态 不 是 被 内 部 程序 变量 捕获 的 ， 
而 且 也 不 一 定 要 和 程序 的 执行 相关 。 比 如 ， 一 个 硬件 定时 器 (或 计时 器 ) 会 定期 产生 信号， 这 个 事 
件 必 须 得 到 处 理 ， 包 到 达 网 络 适配器 后 ， 必 须 存放 在 存储 器 中 ; 程序 厅 磁 盘 请 求 数 据 ， 然 后 体 眼 ， 
自 到 被 通知 说 数据 已 就 绕 ;， 当 子 进 程 终止 时 ， 创 造 这 些 子 进程 的 父 进 程 必 人 筑 得 到 通知 。 

现代 系统 通过 使 控制 流 发 生 突变 来 对 这 些 情况 做 出 反应 。 一 般 而 言 ， 我 们 把 这 些 突变 称 为 ECF 
(exceptional control flow, ARIER A). ECF 发 生 在 计算 机 系统 的 各 个 层次 。 比 如 ， 在 硬件 层 ， 硬 
件 检 测 到 的 事件 会 触发 控制 突然 转移 到 异常 处 理 程 序 。 在 操作 系统 屋 ， 内 核 通 过 上 下 文 转换 将 控制 
从 一 个 用 户 进 程 转移 到 另 一 个 用 户 进 程 。 在 应 用 层 ， 一 个 进程 可 以 发 送 一 个 信号 到 为 一 个 进程 ， 而 
接收 者 会 将 控制 突然 转移 到 它 的 一 个 信号 处 理 程序 。 一 个 程序 可 以 通过 回避 通常 的 栈 规则 ， 并 执行 
到 其 他 范 数 中 任意 位 置 的 非 本 地 跳 转 来 对 错误 做 出 反应 。 

作为 程序 员 ， 理 解 ECF 对 你 们 来 说 很 重要 ， 这 有 很 多 原因 ， 

。 理解 ECF 将 帮助 你 理解 重要 的 系统 概念 .ECEF 是 操作 系统 用 来 实现 VO、 进程 和 虚拟 存储 器 
的 基本 机 制 。 在 你 可 以 真正 理解 这 些 重要 概念 之 前 ， 你 必须 理解 ECF. 

。 理解 ECF 将 帮助 你 理解 应 用 程序 是 如 何 与 操作 系统 交互 的 。 应 用 程序 通过 使 用 一 个 叫做 陷 
t (trap) 或 者 系统 调用 (system call) 的 ECF， 辐 操作 系统 请 求 服务 。 比 如 ， 问 磁盘 写 数 
据 、 从 网 络 证 取 数 据 、 创 建 一 个 新 进程 ， 以 及 终止 当前 进程 ， 都 是 通过 应 用 程序 提交 系统 
调用 来 实现 的 。 理 解 基本 的 系统 调用 机 制 将 帮助 你 理解 这 些 服务 是 如 何 提 供给 应 用 的 。 

© 理解 ECF 将 帮助 你 编写 有 趣 的 新 应 用 程序 。 操作 系 统 为 应 用 程序 提供 了 强大 的 ECF 机 制 ， 
用 来 创建 新 进程 、 等 待 进程 终止 、 通 知 其 他 进程 系统 中 的 异常 事件 ， 以 及 检测 和 响应 这 些 
事件 。 如 果 你 理解 这 些 ECF 机 制 ， 那 么 你 就 能 用 它们 来 编写 诸如 Unix shell 和 Web 服务 器 
之 类 的 有 趣 程序 了 ， 

。 理解 ECF 将 帮助 你 理解 软件 异 第 如 何 工作 。 像 CH+ 和 Java 这 样 的 语言 通过 try. catch 以 及 
throw 语句 来 提供 软件 兄 常 机 制 。 软 件 异 常 允 许 程序 进行 非 本 地 跳 转 〈 也 就 是 ， 违 反 通 常 的 
调用 /返回 栈 规则 的 跳 转 ) 来 响应 错误 情况 。 非 本 地 跳 转 是 一 种 应 用 层 ECF， 人 在 CP 
setjmp FH longjmp 函数 提供 的 。 理 解 这 些 低级 函数 将 帮助 你 理解 禹 级 软件 异常 如 何 得 以 实现 。 

到 目前 为 止 ， 对 系统 的 学 习 使 你 已 经 了 解 应 用 是 如 何 与 硬件 交互 的 。 这 一 章 的 重要 性 在 于 你 将 
开始 学 习 你 的 应 用 是 如 何 与 操作 系统 交互 的 。 有 趣 的 是 ， 这 些 交 互 都 是 围绕 着 ECF 的 。 我 们 描述 存 
在于 一 个 计算 机 系统 中 所 有 层次 上 的 各 种 形式 的 ECF。 我 们 从 异常 开始 ， 异 常 位 于 硬件 和 操作 系统 
交 尖 的 部 分 。 我 们 还 会 讨论 系统 调用 ， 它 们 是 为 应 用 程序 提供 到 操作 系统 的 入 口 点 的 异常 。 然 后 ， 
我 们 会 提升 抽象 的 层次 ， 描 述 进程 和 信号 ， 它 们 位 于 应 用 和 操作 系统 的 交界 之 处 。 最 后 ， 我 们 将 讨 
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论 非 本 地 跳 转 ， 这 是 ECE 的 一 种 应 用 层 形式 。 


8.1 异常 


即 常 是 一 种 形式 的 证 常 控 制 流 ， 它 一 部 分 是 由 硬件 实现 的 ， 一 部 分 是 由 操作 系统 实现 的 。 因 为 
它们 有 一 部 分 是 由 硬件 实现 的 ， 所 以 具体 细节 将 随 系 统 的 不 同 而 有 所 不 同 。 然 而 ， 对 于 每 个 系统 而 
言 ,; 基本 的 思想 都 是 相同 的 。 在 这 一 节 中 我 们 的 目的 是 让 你 对 天 常 和 异常 处 理 有 一 个 一 役 性 的 了 解 ， 
并 且 帮 助 消除 现代 计算 机 系统 的 一 个 经 常 令 人 感到 迷惑 的 方面 。 

异常 Cexception) 就 是 控制 流 中 的 突变 ， 用 来 响应 处 理 器 状态 中 的 某 些 变 化 。 图 8.1 展示 了 基 
本 的 思想 。 


应 用 程序 异常 处 理 程 序 


事件 在 这 里 发 生 ………… > Lo 
FF FB 
处 理 


并 第 返回 
《可 选 的 ) 


图 8.1 FRAT 


处 理 器 状态 中 的 一 个 变化 (事件 ) 触发 了 从 应 用 程序 到 一 个 异常 处 理 程 序 的 突 发 的 控制 转移 (一 个 异常 )。 在 异常 处 理 程序 完 
成 处 理 后 ， 它 将 控制 返回 给 被 中 断 的 程序 或 者 终止 。 


在 此 图 中 ， 当 处 理 器 状态 中 一 个 重要 的 变化 发 生 时 ， 处 理 器 正在 执行 某 个 当前 指令 Er。 在 处 
理 嚣 中， 状态 被 编码 为 不 同 的 位 和 信和 号。 状态 变化 被 称 为 事件 〈eventy， 事 件 可 能 和 当前 指令 的 执 
行 直接 相关 。 比 如 ， 发 生 虚 拟 存储 器 缺 页 、 算 术 滋 出， 或 者 一 条 指令 试图 除 以 零 。 另 一 方面 ， 事 件 
可 能 和 当前 指令 的 执行 没有 关系 。 比 如 ， 一 个 系统 定时 器 产生 信和 号 或 者 一 个 IO 请 求 完 成 。 

在 任何 情况 中 ， 当 处 理 器 检测 到 有 事件 发 生 时 ， 它 就 会 通过 一 张 叫做 异常 表 Cexception table) 
的 跳 转 表 ， 进 行 一 个 间接 过 程 调用 (异常 )， 到 一 个 专门 设计 用 来 处 理 这 类 事件 的 操作 系统 子 程序 
一 一 异常 处 理 程序 (exception handler). 

当 异 常 处 理 程 序 完成 处 理 后 ， 根 据 引 起 异常 的 事件 的 类 型 ， 会 发 生 以 下 三 种 情况 中 的 一 种 : 

L 处 理 程序 将 控制 返回 给 当前 指令 cur 〈 当 事件 发 生 时 正在 执行 的 指令 )， 

2. 处 理 程序 将 控制 返回 给 Inext (如 果 没 有 发 生 异 常 将 会 执行 的 下 一 条 指令 )。 

3. 处 理 程序 终止 被 中 断 的 程序 。 

8.1.2 节 将 讲述 关于 这 些 可 能 性 的 更 多 内 容 。 


旁 注 ， 硬 件 与 软件 异常 
C++ 和 Java 的 程序 员 会 注意 到 术语 “异常 ”也 用 来 描述 由 C++ 和 Java 以 catch. throw 和 try # 
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外 的 形式 提供 的 应 用 级 ECF。 如 果 我 们 想 完全 弄 清 楚 ， 我 们 必须 区 别 “ 硬 件 ” 和 “软件 ”异常 ， 但 
是 这 通常 是 不 必要 的 ， 因 为 从 上 下 文中 就 能 够 很 清楚 地 知道 是 哪 种 含义 。 


8.1.1 异常 处 理 

异 负 可 能 会 难以 理解 ， 因 为 处 理 寞 第 需要 硬件 和 软件 紧密 合作 。 很 容易 搞 论 哪个 部 分 执行 哪个 
任务 ， 让 我 们 更 详细 地 来 看 看 硬件 和 软件 的 分 工 吧 。 

系统 中 可 能 的 每 种 类 型 的 异常 都 分 配 了 一 个 惟一 的 非 负 整数 的 异常 号 〈exception number)。 这 
学 扎 但 中 的 茶 一 些 是 由 处 理 器 的 设计 者 分 配 的 ， 其 他 号 码 是 由 操作 系统 内 核 〈 操 作 系 统 常 驻 存储 器 
的 部 分 ) 的 设 计 者 分 配 鸭 。 前 者 的 示例 包括 被 索 除 、 缺 页 、 存 储 器 访问 违例 、 断 点 以 及 算术 洪 出 。 
后 者 的 示例 包括 系统 调用 和 来 自 外 部 IO 设备 的 信和 号 。 

在 系统 月 动 时 【〈 当 计算 机 重启 或 者 加 电 时 )， 操 作 系 统 分 配 和 初始 化 一 张 称 为 异 第 表 的 跳 转 表 ， 
使 得 表 日 k 包含 异常 k 的 处 理 程序 的 地 址 。 图 8.2 展示 了 一 张 异 常 表 的 格式 。 


异常 处 理 程序 0 的 代码 | 
异常 处 理 程序 1 的 代码 | 
异 稼 处 理 程序 2 的 代码 | 


异常 处 理 程 序 n-1 的 代码 | 


图 8.2 异常 表 
异常 表 是 … 张 跳 转 表 ， 其 中 表 目 上 包含 异常 k 的 处 理 程序 代码 的 地 址 。 


在 运行 时 〈 当 系统 在 执行 某 个 程序 时 )， 处 理 器 检测 到 发 生 了 一 个 事件 ， 并 且 确 定 了 相应 的 异常 
号 k。 随 后， 处 理 器 触发 异常 ， 方 法 是 执行 间接 过 程 调 用 ， 通 过 异常 表 的 表 目 k， 转 到 相应 的 处 理 程 
Fe. Fl 8.3 展示 了 处 理 器 如 何 使 用 异常 表 来 形成 适当 的 异常 处 理 程序 的 地 址 。 异 常 号 是 到 异常 表 中 
的 索引 ， 蜡 常 表 的 起 始 地 址 放 在 一 个 叫做 异常 表 基 寄存 器 (exception table base register) 的 特殊 CPU 

开 钊 拓 似 于 过 程 调用 ， 但 是 有 一 些 重要 的 不 同 之 处 ; 

。 过 程 调 用 时 , 在 跳 转 到 处 理 程序 之 前 ,处理 器 将 返回 地 址 压 到 栈 中 。 然 而 , 根据 异常 的 类 型 ， 

返回 地 址 要 么 是 当前 指令 ( 当 事 件 发 生 时 正在 执行 的 指令 )， 要 么 是 下 一 条 指令 (如 果 事 件 
不 友 生 ， 将 会 在 当前 指令 后 执行 的 指令 )。 
。 处 理 才 也 把 一 些 额外 的 处 理 器 状态 永 到 栈 蛙 , 在 处 理 程序 返回 时 , 重新 开始 被 中 断 的 程序 会 


坝 机 这 些 状态 。 比 如 ,一 个 IA32 系统 将 包含 当前 条 件 码 的 EFLAGS 寄存 器 和 其 他 一 些 东 西 
压 入 栈 中 。 
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。 如 果 控 制 从 一 个 用 户 程 序 转移 到 内 核 ， 所 有 这 些 项 目 (item) 都 被 压 到 内 核 栈 中 ， 而 不 是 压 
到 用 户 栈 中 。 

e 异常 处 理 程序 运行 在 内 核 模式 下 (8.2.3 节 ), 这 意味 着 它们 对 所 有 的 系统 资源 都 有 完全 的 访 
问 权 限 。 

一 旦 硬件 触发 了 异常 ， 剩 下 的 工作 就 是 由 异常 处 理 程序 在 软件 中 完成 。 在 处 理 程序 处 理 了 事件 
之 后 ， 它 通过 执行 一 条 特殊 的 “从 中 断 返 回 ” 指 令 ， 可 选 地 返回 到 被 中 断 的 程序 ， 该 指令 将 适当 的 
状态 弹 回 到 处 理 器 的 控制 和 数据 寄存 器 中 ， 将 状态 恢复 为 用 户 寞 式 (8.2.3 节 )。 如 果 和 异常 中 断 的 是 
一 个 用 户 程 序 ， 然 后 将 控制 返回 给 被 中 断 的 程序 。 


FF 2 ae 
(x4) FER 


FP ts Beak BS FEBS 
n-1[ | 
图 8.3 ”生成 异常 处 理 程 序 的 地 址 
异常 号 是 到 异常 表 中 的 索引 。 
8.1.2 异常 的 类 别 


异常 可 以 分 为 四 类 : 中 断 〈interrupt)、 陷 阱 〈trap )、 故 障 (fault) 和 终止 (abort)。 图 8.4 中 的 


ea 有 意 的 异常 同步 总 是 返回 到 下 一 条 指令 
潜在 可 恢复 的 错误 同步 可 能 返回 到 当前 指令 
不 可 恢复 的 错误 同步 “会 返回 


图 8.4 异常 的 类 别 
异步 异常 是 由 处 理 器 外 部 的 WO 设备 中 的 事件 产生 的 。 同 步 异 常 是 执行 一 条 指令 的 直接 产物 。 


HP Wr 

中 断 是 异步 友 生 的 ， 是 来 自 处 理 器 外 部 的 IO 设备 的 信号 的 结果 。 硬 件 中 断 不 是 由 任何 一 条 专 
门 的 指令 造成 的 ， 从 这 个 意义 上 来 说 它 是 异步 的 。 硬 件 中 断 的 异常 处 理 程序 常常 被 称 为 中 断 处 理 程 
Æ (interrupt handler). 

图 8.5 概述 了 一 个 中 断 的 处 理 。LO 设备 ， 例 如 网 络 适配器 、 磁 盘 控 制 器 和 定时 器 芯片 ， 通 过 向 
处 理 器 心 片 上 的 一 个 管 脚 发 信号 ， 并 将 异常 号 放 到 系统 总 线 上 ， 来 触发 中 断 ， 这 个 异常 号 标识 了 引 
起 中 断 的 设备 。 

在 当前 指令 完成 执行 之 前 ， 处 理 器 注意 到 中 断 管 脚 的 电压 变 高 了 ， 就 从 系统 总 线 读 取 异常 号 ， 
然后 调用 适当 的 中 断 处 理 程序 。 当 处 理 程序 返回 时 ， 它 就 将 控制 返回 给 下 一 条 指令 (也 就 是 ， 如 果 
SA RET I, 在 控制 流 中 会 在 当前 指令 之 后 的 那 条 指令 )。 结 果 是 程序 继续 执行 ,就 好 像 没有 发 生 
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过 中 断 一 样 。 
剩 下 的 异常 类 型 (陷阱 、 故 障 和 终止 〉 是 同步 友 生 的 ， 是 执行 当前 指令 的 结果 。 我 们 把 这 类 指 
令 吕 做 故障 指令 (faulting instruction )。 


(2) 在 当前 指令 完成 后 ， 
(1) 在 当前 指令 的 控制 传递 给 处 理 程序 


执行 过 程 中 , 中 断 r 


(3) 中 其 处 
cs ae MARRET 
(4) 处 理 程序 返 
回 到 下 一 条 指令 
图 8.2> 中 断 处 理 
中 断 处 理 程序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 -条 指令 ， 


陷阱 

陷阱 是 有 意 的 异常 ， 是 执行 一 条 指令 的 结果 。 就 像 中 断 处 理 程序 一 样 ， 陷 阱 处 理 程序 将 控制 返 
加 到 下 一 条 指令 。 陷 阱 最 重要 的 用 途 是 在 用 户 程 序 和 内 核 之 间 提 供 一 个 像 过 程 一 样 的 接口 ， 叫 做 系 
统 调用 。 

用 户 程 序 经 常 害 要 问 内 核 请 求 服务 ， 比 如 读 一 个 文件 (read )、 创 建 一 个 新 的 进程 Cork) ME 
一 个 新 的 程序 (execve)， 或 者 终止 当前 进程 (exit)。 为 了 人 允许 对 这 些 内 核 服 务 的 受 控 的 访问 ， 处 理 
和合 提供 了 一 条 特殊 的 “syscall n” 指 令 ， 当 用 户 程序 想 要 请 求 服务 n 时 ， 可 以 执行 这 条 指令 。 执 行 
syscall 指令 会 导致 一 个 到 异常 处 理 程序 的 陷阱 , 这 个 处 理 程序 对 参数 解码 , 并 调用 适当 的 内 核 程序 。 
图 8.6 概述 了 一 个 系统 调用 的 处 理 。 


(2) 控制 传递 

i 

C1) 诺 用 程序 执行 syscall a aE RENT 
一 次 系统 调用 Inext (3) 陷阱 处 理 
程序 运行 

(4) 处 理 程序 返回 到 
syscall 之 后 的 指令 


图 8.6 陷阱 处 理 
陷阱 处 理 程 序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 一 条 指令 。 


从 一 个 程序 员 的 角度 来 看 ， 系 统 调 用 和 普通 的 函数 调用 是 一 样 的 。 然 页， 它们 的 实现 是 非常 不 
同 的 。 兽 通 的 消 数 运行 在 用 户 模式 (user mode) 中 ， 用 户 模式 限制 了 函数 可 以 执行 的 指令 的 类 型 ， 
而 且 它 们 只 能 访问 与 调用 函数 相同 的 栈 。 系 统 调 用 运行 在 内 核 模 式 〈kemel mode) 中 ， 内 核 模式 允 
许 系 统 调 用 执行 指令 ， 并 访问 定义 在 内 核 中 的 栈 。8.2.3 节 会 更 详细 地 讨论 用 户 模式 和 内 核 模 式 。 
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故障 

故障 由 错误 情况 引起 ， 它 可 能 被 故障 处 理 程序 修正 。 当 一 个 故障 发 生 时 ， 处 理 器 将 控制 转移 给 
故障 处 理 程 序 。 如 果 处 理 程序 能 够 修正 这 个 错误 情况 ， 它 就 将 控制 返回 到 故障 指令 ， 从 而 重新 执行 
它 。 香 则 ， 处 理 程序 返回 到 内 核 中 的 abort 例 程 ，abort 例 程 会 终止 引起 故障 的 应 用 程序 。 图 8.7 概 
述 了 一 个 故障 的 处 理 。 


(2) 控制 传递 


(1) 当前 指令 给 处 理 程序 
导致 一 个 故障 [our 


(3) 故障 处 理 
程序 运行 
en AbDOrt 


(4) 处 理 程序 要 么 重新 
执行 指令 ， 要 么 终止 


图 8.7 故障 处 理 
根据 故障 是 于 能 够 被 修复 ， 故 障 处 理 程序 要 么 重新 执行 故障 指令 ， 要 么 终止 ，。 


故障 的 一 个 经 典 示 倒是 缺 丰 异常 ， 当 指令 引用 一 个 虚拟 地 址 ， 而 与 该 地 址 相对 应 的 物理 页 面 不 
在 仓储 右 中 ， 因 此 必须 从 磁盘 中 取出 时 ， 就 会 发 生 这 种 故障 。 就 像 我们 将 在 第 10 章 中 看 到 的 那样 ， 
一 个 页 面 束 是 虚拟 存储 器 的 一 个 连续 的 块 ( 典 型 的 是 4KB )。 缺 页 处 理 程序 从 磁盘 加 载 适 当 的 页 面 ， 
然后 将 控制 返回 给 引起 夏 障 的 指令 。 当 指令 再 次 执行 时 ， 相 应 的 物理 页 面 已 经 驻 留 在 存储 器 中 了 ， 
指令 就 可 以 没有 故障 地 运行 完成 了 。 

终止 

终止 是 不 可 恢复 的 致命 错误 造成 的 结果 一 一 典型 的 是 一 些 硬件 错误 ， 比 如 DRAM 或 者 SRAM 
位 被 损坏 时 发 生 的 奇偶 错误 。 终 止 处 理 程序 从 不 将 控制 返回 给 应 用 程序 。 如 图 8.8 所 示 ， 人 处理 程序 
将 控制 返回 给 一 个 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 。 


(2) 传递 控制 


(1) 发 生 致命 ‘eur 给 处 理 程序 
的 优 件 错误 (3) 终止 处 理 
程序 运行 
Sn p abort 
(4) 处 理 程序 返回 
到 abort 例 程 


图 8.8 终 让 处 理 
终止 处 理 程序 将 控制 传递 给 一 个 内 核 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 。 


8.1.3 Intel 处 理 器 中 的 异常 

为 了 使 描述 更 具体 ， 让 我 们 来 看 看 为 Intel 系统 定义 的 一 些 异 常 。 一 个 Pentium 系统 可 以 有 高 达 
256 种 不 同 的 异常 类 型 。 范 围 0~31 的 号 码 对 应 的 是 Pentium 体系 结构 定义 的 异常 ， 因 此 对 任何 
Pentium 类 的 系统 都 是 一 样 的 。 范围 32~255 的 号 码 对 应 的 是 操作 系统 定义 的 中 断 和 陷阱 。 图 8.9 展 
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太 了 一 些 示例 。 

当 应 用 试图 除 以 零 时 ,或 者 当 一 个 除法 指令 的 结果 对 于 目标 操作 数 来 说 太 大 了 时 ， 就 会 发 生 除 
法 错误 (异常 0)。Unix 不 会 试图 从 除法 错误 中 恢复 ， 而 是 选择 终止 程序 。Unix shell 典型 地 会 把 除 
法 馈 误 报告 为 “ 浮 点 异常 (Floating exception)”. 


FM ERI 


32~ 127 操作 系统 定义 的 异常 CF BT ake MS BE 
128 (0x80) 系统 调用 陷阱 
129 一 255 操作 系统 定义 的 异常 CF By ale BE BH 


FA8.9 Pentium 系统 中 的 异常 示例 


许多 原因 都 会 导致 不 为 人 知 的 一 般 保护 故障 (异常 13)， 通 常 是 因为 一 个 程序 引用 了 一 个 未 定 
义 的 虚拟 存储 器 区 域 ,或 者 因为 程序 试图 写 一 个 只 读 的 文本 段 。Unix 不 会 尝试 恢复 这 类 故障 。Unix 
shell 典型 地 将 这 种 一 般 保 护 故 障 报告 为 “ 段 故 障 (Segmentation fault)”. 

RR OF 14) 是 会 重新 执行 故障 指令 的 异常 的 一 个 示例 。 处 理 程序 将 磁盘 上 物理 存储 器 相应 
的 页 面 映射 到 虚拟 存储 器 的 一 个 页 面 , 然后 重新 开始 这 条 故障 指令 。 我 们 将 在 第 10 章 中 看 到 这 是 如 
何 工作 的 细节 。 

机 器 检查 (异常 18) 是 在 故障 指令 执行 中 检测 到 致命 的 硬件 错误 时 发 生 的 。 机 器 检查 处 理 程序 
从 不 返回 控制 给 应 用 程序 。 

ff IA32 RAE, 系统 调用 是 通过 一 条 称 为 INT n 的 陷阱 指令 来 提供 的 , 其 中 n 可 能 是 异常 表 中 
256 个 表 目 中 任何 一 个 的 索引 。 在 历史 上 ， 系 统 调用 是 通过 异常 128 (0x80) 提供 的 。 
旁 注 ， 关 于 术语 的 注释 

各 种 异常 类 型 的 术语 是 根据 系统 的 不 同 而 有 所 不 同 的 。 处 理 器 微 体系 结构 规范 通常 会 区 分 异步 
的 “中 断 ” 和 同步 的 “异常 ”， 但 是 并 不 提供 描述 这 些 非常 相似 的 概念 的 umbrella 术语 ， 为 了 避免 
不 断 地 提 到 “异常 和 中 断 ” 以 及 “异常 或 者 中 断 "， 我 们 用 单词 “异常 ”作为 通用 的 术语 ， 而 且 只 有 
在 必要 时 才 区 别 异 步 异 常 (FB) 和 同步 异常 (陷阱 .故障 和 终止 )。 正如 我 们 提 到 过 的 ， 对 于 每 个 
系统 而 言 ， 基 本 的 概念 都 是 相同 的 ， 但 是 你 应 该 意识 到 一 些 制造 厂商 的 手册 会 用 “异常 ”仅仅 表示 
同步 事件 引起 的 控制 流 中 的 那些 改变 。 


8.2 ”进程 

弄 前 提供 基本 的 构造 块 ， 它 允许 操作 系统 提供 进程 (process ) 的 概念 ， 进 程 是 计算 机 科学 中 最 
深刻 最 成 功 的 概念 之 一 。 

习 我 们 在 一 个 现代 系统 上 运行 一 个 程序 时 ， 我 们 会 得 到 一 个 假象 ， 就 好 像 我 们 的 程序 是 系统 中 
当前 运行 的 惟一 程序 。 我 们 的 程序 好 像 是 独占 地 使 用 处 理 器 和 存储 器 。 处 理 器 就 好 像 是 无 间断 的 一 
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条 接 一 条 地 执行 我 们 程序 中 的 指令 。 最 后 ， 我 们 程序 中 的 代码 和 数据 显得 好 像 是 系统 存储 器 中 惟一 
的 对 象 。 这 些 假象 都 是 通过 进程 的 概念 提供 给 我 们 的 。 

进程 的 经 典 定义 就 是 一 个 执行 中 程序 的 实例 。 系 统 中 的 每 个 程序 都 是 运行 在 某 个 进程 的 上 下 文 
Ccontext) 中 的 。 土 下 文 是 由 程序 正确 运行 所 需 的 状态 组 成 的 。 这 个 状态 包括 存放 在 存储 器 中 的 程 
序 的 代码 和 数据 、 它 的 栈 、 它 的 通用 目的 寄存 器 的 内 容 、 它 的 程序 计数 如 、 环 境 变 量 以 及 打开 文件 
描述 符 的 集合 。 

每 次 用 户 通 过 向 shell 输入 一 个 可 执行 目标 文件 的 名 字 ， 运 行 一 个 程序 时 ，shell 会 创建 一 个 新 
的 进程 ， 然 后 在 这 个 新 进程 的 上 下 文中 运行 这 个 可 执行 目标 文件 。 应 用 程序 还 能 够 创建 新 进程 ， 且 
在 这 个 新 进程 的 上 下 文中 运行 它们 自己 的 代码 或 其 他 应 用 程序 。 

天 于 操作 系统 如 何 实现 进程 的 细节 的 讨论 超出 了 我 们 的 范围 。 取 而 代 之 ， 我 们 将 关注 进程 提供 
给 应 用 程序 的 天 键 抽象 : 

e 一 个 独立 的 逻辑 控制 流 ， 它 提供 一 个 假象 ， 使 我 们 党 得 我 们 的 程序 独占 地 使 用 处 理 器 。 

e 一 个 私有 的 地 址 空间 ， 它 提供 一 个 假象 ， 使 我 们 觉得 我 们 的 程序 独占 地 使 用 存储 器 系统 。 

让 我 们 更 深入 地 看 看 这 些 抽 象 。 


8.2.1 逻辑 控制 流 

典型 地 ， 即 使 在 系统 中 有 许多 其 他 程序 在 运行 ， 进 程 也 可 以 向 每 个 程序 提供 一 种 假象 ， 好 像 它 
在 独占 地 使 用 处 理 器 。 如 果 我 们 想 用 调试 器 单 步 执行 我 们 的 程序 ,我们 会 看 到 一 系列 的 PC (程序 计 
数 器 ) 的 值 ， 这 些 值 惟 一 地 对 应 于 包含 在 我 们 程序 的 可 执行 目标 文件 中 的 指令 或 是 包含 在 运行 时 动 
态 链 接 到 我 们 程序 的 共享 对 象 中 的 指令 。 这 个 PC 值 的 序列 叫做 还 辑 控制 流 。 

考虑 一 个 运行 着 三 个 进程 的 系统 ， 如 图 8.10 所 示 。 处 理 器 的 一 个 物理 控制 流 被 分 成 了 三 个 逻辑 
流 ， 每 个 进程 一 个 。 每 一 个 竖 直 方向 上 的 列表 示 一 个 进程 的 逻辑 流 的 一 部 分 。 在 这 个 例子 中 ， 进 程 
A 运行 了 一 会 儿 ， 然 后 是 B 开始 运行 到 完成 。 然 后 ，C 运行 了 一 会 儿 ，A 接着 运行 直到 完成 。 最 后 ， 
C 可 以 运行 到 结束 了 。 


图 8.10 ”逻辑 控制 流 
进程 为 每 个 程序 提供 了 一 种 假象 ,好像 程序 在 独占 地 使 用 处 理 器 。 每 一 竖 直 方向 上 的 列表 示 一 个 进程 的 逻辑 控制 流 的 -部 分 。 


图 8.10 的 关键 点 在 于 进程 是 轮流 使 用 处 理 器 的 。 每 个 进程 执行 它 的 流 的 一 部 分 ， 然 后 被 抢占 
(preempted ) 暂时 挂 起 )， 与 此 同时 其 他 进程 开始 执行 。 对 于 一 个 运行 在 这 些 进程 之 一 的 上 下 文中 的 
程序 ， 它 看 上 去 就 像 是 在 独占 地 使 用 处 理 器 。 惟 一 的 反面 例证 是 如 果 我 们 精确 地 测量 每 条 指令 使 用 的 
时 间 ( 参 见 第 9 章 ), 我 们 将 发 现在 我 们 程序 中 一 些 指令 的 执行 之 间 , CPU 好 像 会 周期 性 地 停顿 (stall)。 
然而 ， 每 次 处 理 器 停顿 ， 它 随后 继续 执行 我 们 的 程序 ， 并 不 改变 程序 存储 器 位 置 或 寄存 器 的 内 容 。 

一 般 而 言 ， 和 不 同 进程 相关 的 逻辑 流 并 不 影响 任何 其 他 进程 的 状态 ， 从 这 个 意义 上 说 ， 每 个 还 
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辑 流 都 是 与 其 他 逻辑 流 相 独立 的 。 当 进程 使 用 进程 间 通 信 〈(IPC》 机 制 ， 比 如 管道 、 套 接口 、 共 享 
存储 器 和 信号 量 ， 显 式 地 与 其 他 进程 交互 时 ， 这 条 规则 的 惟一 例外 就 会 发 生 。 

任何 丈 辑 流 在 时 间 上 和 另外 的 逻辑 流 重 嫩 的 进程 被 称 为 并 发 进程 (concurrent process), mixt 
个 进程 就 被 称 为 并 发 运行 。 比 如 ， 图 8.10 中 ,进程 A 和 B 就 是 并 发 运行 的 ，A 和 C 也 是 。 另 一 方 
面 ，B 和 C 并 不 是 并 发 运行 的 ， 因 为 B 的 最 后 一 条 指令 是 在 C 的 第 一 条 指令 之 前 执行 的 。 

进程 和 其 他 进程 轮换 运行 的 概念 称 为 多 任务 (multitasking )。 一 个 进程 执行 它 的 控制 流 的 一 部 
分 的 每 一 时 间 段 叫做 时 间 片 (time slice)。 因 此 ， 多 任务 也 叫做 时 间 分 片 (time slicing). 


8.2.2 私有 地 址 空间 

进程 也 为 每 个 程序 提供 一 种 假象 ， 就 好 像 它 正在 独占 地 使 用 系统 地 址 空间 。 在 一 台 n 位 地 址 的 
机 器 上 ， 地 址 空间 是 关 个 可 能 地 址 的 集合 ，0，1，…，2-1。 一 个 进程 为 每 个 程序 提供 它 自己 的 私 
有 地 址 空间 。 一 般 而 言 ， 和 这 个 空间 中 某 个 地 址 相关 联 的 那个 存储 器 字 节 是 不 能 被 其 他 进程 读 或 者 
写 的 ， 从 这 个 意义 上 说 ， 这 个 地 址 空间 是 私有 的 。 

尽管 和 每 个 私有 地 址 空间 相关 联 的 存储 器 的 内 容 一 般 是 不 同 的 ， 但 是 每 个 这 样 的 空间 都 有 相同 
的 结构 。 比 如 ， 图 8.11 展示 了 一 个 Linux 进程 的 地 址 空间 的 结构 。 地 址 空间 底部 的 四 分 之 三 是 预 留 
给 用 户 程 序 的 ， 包 括 通常 的 文本 、 数 据 、 堆 和 栈 段 。 地 址 空间 项 部 的 四 分 之 一 是 预 留 给 内 核 的 。 地 
址 空间 的 这 个 部 分 包含 内 核 在 代表 进程 执行 指令 时 〔( 比 如 ， 当 应 用 程序 执行 一 个 系统 调用 时 ) 使 用 
的 代码 、 数 据 和 栈 。 


OxfffffffEf 


用 户 代 码 不 可 见 


OxcO000000 的 存储 器 


4 一 %esp ( 栈 指 针 ) 


Ox40000000 


从 可 执行 
文件 加 载 的 


Ox08048000 


0 


8.11 ”进程 地 址 空间 


异常 控制 流 SL 


8.2.3 用 户 模式 和 内 核 模 式 

为 了 使 操作 系统 内 核 提 供 一 个 无 稳 可 击 的 进程 抽象 ， 处 理 器 必须 提供 一 种 机 制 ， 限 制 一 个 应 用 
可 以 执行 的 指令 以 及 它 可 以 访问 的 地 址 空间 范围 。 

典型 地 ， 处 理 器 是 用 某 个 控制 寄存 器 中 的 一 个 方式 位 (mode bit) 来 提供 这 种 功能 的 ， 该 寄存 
器 描述 了 进程 当前 享有 的 权力 。 当 方式 位 设置 了 时 ， 进 程 就 运行 在 内 核 模式 中 〈 有 时 冲 做 超级 用 户 
模式 )。 一 个 运行 在 内 核 模 式 的 进程 可 以 执行 指令 集中 的 任何 指令 , 并且 可 以 访问 系统 中 任何 存储 器 
位 置 。 

方式 位 没有 设置 时 ， 进 程 就 运行 在 用 户 模 式 中 。 用 户 模 式 中 的 进程 不 允许 执行 特权 指令 
(privileged instruction )， 比 如 停止 处 理 器 、 改 变 方式 位 的 值 或 者 发 起 一 个 VO 操作 ， 也 不 允许 用 户 
模式 中 的 进程 直接 引用 地 址 空间 中 内 核 区 内 的 代码 和 数据 。 任 何 这 样 的 尝试 都 会 导致 致 命 的 保护 故 
障 。 用 户 程序 必须 通过 系统 调用 接口 间接 地 访问 内 核 代 码 和 数据 ，。 

一 个 运行 应 用 程序 代码 的 进程 初始 时 是 在 用 户 模 式 中 的 。 进程 从 用 户 模 式 变 为 内 核 模 式 的 惟一 
方法 是 通过 诸如 中 断 、 故 际 或 者 陷 和 人 系统 调用 (trapping system call) 这 样 的 异常 。 当 异常 发 生 时 ， 
控制 传递 到 异常 处 理 程序 ， 处 理 器 将 模式 从 用 户 模 式 变 为 内 核 模式 。 处 理 程 序 运 行 在 内 核 模 式 中 ， 
当 它 返回 到 应 用 代码 时 ， 处 理 器 承 把 模式 从 内 核 模 式 改 回 到 用 户 模式 。 

Linux 和 Solaris 提供 了 一 种 聪明 的 机 制 ， 叫 做 /proc 文件 系统 ， 它 允许 用 户 模式 进程 访问 内 核 数 
据 结 构 的 内 容 。/proc 文件 系统 将 许多 内 核 数 据 结 构 的 内 容 输 出 为 一 种 用 户 程序 可 以 读 的 ASCII 文件 
的 层次 结构 。 比 如 ， 你 可 以 使 用 Linux /proc 文件 系统 找 出 一 般 的 系统 属性 ， 比 如 CPU 类 型 
(/proc/cpuinfo)， 或 者 某 个 进程 使 用 的 存储 器 段 (/proc/<process id>/maps )。 


8.2.4 ” 上下文 切换 

操作 系统 内 核 利 用 一 种 称 为 上 下 文 切换 〈context switch) 的 较 高 级 形式 的 异常 控制 流 来 实现 多 
任务 。 上 下 文 切 换 机 制 是 建立 在 我 们 在 8.1 节 中 已经 讨论 过 的 那些 较 低 层 异 常 机 制 之 上 的 。 

内 核 为 每 个 进程 维持 一 个 上 下 文 (context)。 上 下 文 就 是 内 核 重 新 启动 一 个 被 抢占 进程 所 需 的 状 
态 。 它 由 一 些 对 象 的 值 组 成 ， 这 些 对 象 包括 通用 目的 寄存 器 、 浮 点 寄存 器 、 程 序 计数 器 、 用 户 栈 、 
状态 寄存 器 、 内 核 栈 和 各 种 内 核 数 据 结构 ， 比 如 描绘 地 址 空间 的 页 表 (page table)、 包 含有 关 当 前 
进程 信息 的 进程 表 (process table )， 以 及 包含 进程 已 打开 文件 的 信息 的 文件 表 (file table). 

在 进程 执行 的 某 些 时 刻 ， 内 核 可 以 决定 抢占 当前 进程 ， 并 重新 开始 一 个 先前 被 抢占 的 进程 。 这 
种 决定 就 叫做 调度 (scheduling)， 是 由 内 核 中 称 为 调度 器 (scheduler) 的 代码 处 理 的 。 当 内 核 选择 
一 个 新 的 进程 运行 时 ， 我 们 就 说 内 核 调度 了 这 个 进程 。 在 内 核 调度 了 一 个 新 的 进程 运行 后 ， 它 就 抢 
占 当 前 进程 ， 并 使 用 一 种 称 为 上 下 文 切换 的 机 制 来 将 控制 转移 到 新 的 进程 ， 上 下 文 切 换 可 以 : OF 
存 当 前 进程 的 上 下 文 ; 恢复 某 个 先前 被 抢占 进程 所 保存 的 上 下 文 ，@ 将 控制 传递 给 这 个 新 恢复 的 
进程 。 

当 内 核 代 表 用 户 执行 系统 调用 时 ， 可 以 发 生 上 下 文 切 换 。 如 果 系 统 调用 因为 等 待 某 个 事件 发 生 
而 阻塞 ， 那 么 内 核 可 以 让 当前 进程 休眠 ， 切 换 到 另 一 个 进程 。 比 如 ， 如 果 一 个 read 系统 调用 请 求 一 
个 磁盘 访问 ， 内 核 可 以 选择 执行 上 下 文 切换 ， 运 行 另外 一 个 进程 ， 而 不 是 等 待 数据 从 磁盘 到 达 。 另 
一 个 示例 是 sleep 系统 调用 ， 它 显 式 地 请 求 让 调用 进程 休眠 。 一 般 而 言 ， 即 使 系统 调用 没有 阻塞 ， 
内 核 也 可 以 决定 执行 上 下 文 切换 ， 而 不 是 将 控制 返回 给 调用 进程 。 
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中 断 也 可 能 引发 上 下 文 切换 。 比 如 ， 所 有 的 系统 都 有 某 种 产生 周期 性 定时 器 中 断 的 机 制 ， 了 典型 
的 为 每 1 毫秒 或 每 10 毫秒 。 每 次 发 生 定时 器 中 断 时 ,内 核 就 能 判定 当前 进程 已 经 运行 了 自 够 长 的 时 
加 了 ， 并 切换 到 一 个 新 的 进程 。 

图 8.12 展示 了 一 对 进程 A 和 B 之 间 上 下 文 切换 的 示例 。 在 这 个 例子 中 ， 初 始 地 ， 进 程 A 运 
行 在 用 户 模 式 中 ， 直 到 它 通过 执行 read 系统 调用 陷入 到 内 核 。 内 核 中 的 陷阱 处 理 程序 请 求 来 自 磁 
得 控制 器 的 DMA 传输 ， 并 在 磁盘 控制 器 完成 从 磁盘 到 存储 器 的 数据 传输 后 ， 要 求 磁 盘 中 断 处 理 
器 o 


t 
时 间 进程 A 进程 B 
y 用 户 模式 
reag v- # = cope 
| 内 核 模式 } EFEN 
磁盘 中 断 用 户 模式 
sareren > A. 
内 核 模式 上 F 文 切换 
从 read 返回 -全 ' 
1 用 户 模式 


图 8.12 进程 上 下 文 切换 的 剖析 


磁盘 取 数 据 要 用 一 段 相对 较 长 的 时 间 〈 数 量 级 为 十 几 毫 秒 )， 所 以 内 核 执行 从 进程 A 到 进程 B 
的 上 下 文 切换 ， 而 不 是 在 这 个 间歇 时 间 内 等 待 ， 什 么 都 不 做 。 注 意 在 切换 之 前 ， 内 核 正 代表 进程 A 
在 用 户 模式 下 执行 指令 。 在 切换 的 第 一 步 中 ， 内 核 代表 进程 A 在 内 核 模 式 下 执行 指令 。 然 后 在 某 一 
时 刻 ， 它 开始 代表 进程 B (仍然 是 内 核 模式 下 )〉 执行 指令 。 在 切换 完成 之 后 ， 内 核 代表 进程 B 在 用 
户 模式 下 执行 指令 ， 

随后 ， 进 程 B 在 用 户 模 式 下 运行 一 会 儿 ， 直 到 磁盘 发 出 一 个 中 断 信 号 ， 表示 数据 已 经 从 磁盘 传 
SB A. AA RE B 已 经 运行 了 足够 长 的 时 间 了 ， 就 执行 一 个 从 进程 B 到 进程 A 的 上 
下 文 切换 ， 将 控制 返回 给 进程 A 中 紧 随 在 read 系统 调用 之 后 的 那 条 指令 。 进 程 A 继续 运行 ， 直 到 
下 一 次 异常 发 生 ， 依 此 类 推 。 
旁 注 ， 离 速 缓存 污染 (pollution) 和 异常 控制 流 

一 般 而 言 ， 硬 件 高 速 缓存 存储 器 不 能 和 诸如 中 断 和 上 下 文 切 换 这 样 的 异常 控制 流 很 好 地 交互 ， 
如 果 当 前 进程 被 一 个 “中 断 ” 暂 时 中 断 ， 那 么 对 于 中 断 处 理 程序 来 说 高 速 缓存 是 冷 的 ( cold ) '。 如 
果 处 理 程序 从 主 存 中 访问 了 足够 多 的 表 目 ， 那 么 当 被 中 断 的 进程 继续 时 ， 高 速 缓存 对 它 来 说 也 是 冷 
的 了 。 在 这 种 情况 中 ， 我 们 就 说 (中断 ) 处 理 程 序 污染 (pollute ) 了 高 速 缓存 。 使 用 上 下 文 切换 也 
会 发 生 类 似 的 现象 .。 当 一 个 进程 在 上 下 文 切换 后 继续 执行 时 ， 高 速 缓存 对 于 应 用 程序 而 言 也 是 冷 的 ， 
必须 再 次 热身 ， 


1 “高 速 绥 存 是 冷 的 ”意思 是 程序 所 需要 的 数据 部 不 在 高 速 缓存 中 。 一 一 译 者 
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8.3 ”系统 调用 和 错误 处 理 


Unix 系统 提供 了 大 量 的 系统 调用 ， 当 应 用 程序 想 疝 内 核 请 求 服务 时 ， 比 如 读 取 一 个 文件 ， 或 者 
创建 一 个 新 的 进程 , 都 可 以 使 用 这 些 系统 调用 。 例 如 ,Linux 提供 了 大 约 160 个 系统 调用 。 输入 “man 
syscalls"， 你 将 得 到 完整 的 列表 。 

C 程序 通过 使 用 “man 2 intro” 里 描述 的 _syscall 宏 ， 可 以 直接 调用 任何 “系统 调用 ”。 然 而 ， 
通常 直接 调用 “系统 调用 ” 既 不 必要 又 不 值得 。 标 准 C 库 提 供 了 一 组 针对 最 常用 系统 调用 的 方便 的 
mi (wrapper) 前 数 。 包 装 济 数 将 参数 打 好 包 ， 通 过 适当 的 系统 调用 陷入 内 核 ， 然 后 将 系统 调用 的 
返回 状态 传递 给 调用 程序 。 在 我 们 下 面 章 节 的 讨论 中 ， 我 们 把 系统 调用 和 它们 相关 的 包装 函数 可 互 
PIER A RAB BR. 

4 Unix 系统 级 函数 遇 到 错误 时 ， 它 们 了 典型 地 会 返回 -1， 并 设置 全 局 整数 变量 errno 来 表示 什么 
出 错 了 。 程 序 员 应 该 总 征管 但 这 些 错误 ， 但 是 不 幸 的 是 ， 许 多 人 部 忽略 了 铬 误 和 检查， 因为 它 使 代码 
变 得 腑 肿 ， 而 且 难 以 读 懂 。 比 如 ， 下 面 是 我 们 调用 Unix fork 函数 时 如 何 检查 错误 的 

1 if ((pid = fork{)) < 0) 1 

2 fprintf(stderr, "fork error: s\n", strerror(errno) ); 

3 exit (0); 

4 } 

strerror 孙 数 返回 一 个 文本 串 ， 描 述 了 和 某 个 ermo 值 相关 联 的 错误 。 通 过 定义 下 面 的 错误 报告 

$% Cerror-reporting function)， 我 们 能 够 在 某 种 程度 上 简化 这 个 代码 : 


void unix_error(char *msg) /* unix-style error */ 


2 4 


1 

3 fprintf(stderr, "%s: %s\n", msg, strerror(errno)); 
4 exit (dQ); 

5 } 

给 定 这 个 函数 ， 我 们 对 fork 的 调用 从 4 行 简 化 到 了 247: 

1 aif ((pid = fork()) < 0) 

2 unix_error("fork error"); 


THE FAR TASC LA Ceror-handling wrapper) HA, 我们 可 以 更 进一步 地 简化 我 们 的 代码 。 对 于 
一 个 给 定 的 基本 函数 foo， 我 们 定义 一 个 具有 相同 参数 的 包装 函数 Foo， 但 是 第 一 个 字母 大 写 了 。 包 装 
函数 调用 基本 函数 来 检查 错误 ， 如 果 有 任何 问题 就 终止 。 比 如 ， 下 面 是 fork 函数 的 错误 处 理 包装 函数 : 

1 pid_t Fork(void) 
{ 

pid_t pid; 


if ((pid = fork{)) < 0) 
unix_error("Fork error"); 
return pid; 


CD ~) mM un Bm W bb 


} 
给 定 这 个 包装 函数 ， 我 们 对 fork 的 调用 就 缩减 为 1 行 ; 
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1 pid = Fork(); 

我 们 将 在 本 书 剩余 的 部 分 中 都 使 用 错误 处 理 包 装 了 水 数 。 它 们 允许 我 们 保持 示例 代码 的 简洁 ， 而 
叉 不 会 给 你 错误 的 假象 ， 认 为 允许 忽略 错误 检查 ,注意 ， 当 我 们 在 本 书 中 谈 到 系统 级 函数 时 ， 我 们 
总 是 用 它们 的 小 写字 母 来 表示 ， 而 不 是 它们 大 写 的 包装 函数 名 来 表示 。 

关于 Unix 错误 处 理 以 及 本 书 中 使 用 的 错误 处 理 包 装 销 数 的 讨论 , 请 参考 附录 B。 包装 函数 定义 
在 一 个 电 做 csapp.c 的 文件 中 ， 它 们 的 原型 定义 在 一 个 叫做 csapp.h 的 头 文件 中 。 为 了 便于 你 引用 ， 
附录 B 提供 了 这 些 文件 的 源 代 码 。 


8.4 进程 控制 


Unix EE T KEA C 程序 中 操作 进程 的 系统 调用 。 这 一 市 将 描述 这 些 重要 的 清 数 ， 并 举例 说 明 
如 何 使 用 它们 。 
8.4.1 获取 进程 ID 
每 个 进程 都 有 一 个 惟一 的 正 数 GEF) 进程 ID (PID). getpid 函数 返回 调用 进程 的 PID。getppid 
明 数 返回 它 的 父 进 程 的 PID (也 就 是 ， 创 建 调用 进程 的 进程 )。 
#include <unistd.h> 
#include <sys/types.h> 


pid_t getpidivoid); 
pid_t getppid(void) ; 


返回 : 调用 者 或 其 父 进程 的 PID. 


getpid 和 getppid 员 数 返回 一 个 类 型 为 pid_t 的 整数 值 , 在 Linux 系统 上 的 types.h 中 它 被 定义 为 int。 


8.4.2 ”创建 和 终止 进程 
从 程序 员 的 角度 ， 我 们 可 以 认为 进程 总 是 处 于 下 面 三 种 状态 之 一 : 
。 运行 。 进 程 要 么 在 CPU 上 执行 ， 要 么 在 等 待 被 执行 且 最 终 会 被 调度 。 
。 暂停 .进程 的 执行 被 挂 起 (suspended), 且 不 会 被 调度 。 当 收 到 SIGSTOP. SIGTSTP. SIDTTIN 
或 者 SIGTTOU 信号 时 ， 进 程 就 暂停 ， 并 且 保 持 暂 停 直到 它 收 到 一 个 SIGCONT 信和 号， 在 这 
个 时 刻 ， 进 程 再 次 开始 运行 。( 信 号 是 一 种 软件 中 断 的 形式 ， 将 在 8.5 节 中 给 予 描述 。) 
。 终止 。 进 程 永 还 地 停止 了 。 进 程 会 因为 三 种 原因 终止 : 收 到 一 个 信号 ,该 信和 号 的 默认 行为 是 
终止 进程 ， 从 主 程序 返回 ， 调 用 exit 函数 。 
#include <stdlib.h> 


void exit(int status); 


该 函数 无 返回 值 。 
exit PALA status 退出 状态 来 终 目 进程 ( 另 一 种 设置 退出 状态 的 方法 是 从 主 程序 中 返回 一 个 整 
BEL) o 
父 进程 通过 调用 fork AAA EF is 4 SHEE: 
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#include <unistd.h> 
#include <sys/types.h> 


pid_t fork(void); 


返回 : 子 进程 返回 0， 父 进程 返回 子 进程 的 PID， 若 出 错 则 为 -1. 


新 创建 的 子 进程 几乎 但 不 完全 与 父 进程 相同 。 子 进程 得 到 与 父 进程 用 户 级 虚拟 地 址 空间 相同 的 
(但 是 独立 的 ) 一 份 拷贝 ， 包 括 文本 、 数 据 和 bss 段 、 堆 以 及 用 户 栈 。 子 进程 还 获得 与 父 进 程 任何 打 
开 文 件 描 述 符 相同 的 拷贝 ， 这 就 意味 着 当 父 进程 调用 fork 时 ， 子 进程 可 以 读 写 父 进程 中 打开 的 任何 
文件 。 父 进程 和 新 创建 的 子 进程 之 间 最 大 的 区 别 在 于 它们 有 不 同 的 PID。 

fork 函数 是 有 趣 的 (也 常常 令 人 迷惑 )， 因 为 它 只 被 调用 一 次 ， 却 会 返回 两 次 ; 一 次 是 在 调用 进 
程 ( 父 进程 ) 中 ， 一 次 是 在 新 创建 的 子 进程 中 。 在 父 进程 中 ，fork 返回 子 进程 的 PID。 在 子 进程 中 ， 
fork 返回 零 。 因 为 子 进程 的 PID 总 是 非 零 的 ， 返 回 值 就 提供 一 个 明确 的 方法 来 分 辨 程序 是 在 父 进程 
还 是 在 子 进程 中 执行 的 。 

图 8.13 展示 了 一 个 使 用 fork 创建 子 进程 的 父 进 程 的 示例 。 当 fork 调用 在 第 8 BREN, ES 
进程 和 子 进程 中 x 都 有 值 1。 子 进程 在 第 10 行 增加 并 输出 它 的 x 的 拷贝 。 相 似 地 ， 父 进程 在 第 15 
行 减 少 和 输出 它 的 x 的 拷贝 。 


code/ecf/fork.c 
ji #include "csapp.h" 
2 
3 int main() 
4 ( 
5 pid_t pid; 
6 int x = 1; 
7 
8 pid = Fork({); 
9 if (pid == 0) { /* child */ 
10 printf("child : x=%d\n", +4x); 
11 exit (0); 
12 } 
13 
14 /* parent */ 
15 printf("parent: x=%d\n", --x); 
16 exit (0); 
17 } 

code/ecf/fork.c 


图 8.13 使 用 fork 创建 一 个 新 进程 
当 我 们 在 Unix 系统 上 运行 这 个 程序 时 ， 我 们 得 到 下 面 的 结果 : 


unix> ./fork 
parent: x=0 
child : x=2 
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这 个 简单 的 例子 有 一 尝 微 妙 的 方面 ， 


调用 一 次 ， 返 回 两 次 。fork 函数 被 父 进程 调用 一 次 ， 但 是 却 返 问 两 次 一 一 一 次 是 返回 到 父 进 
程 ， 一 次 是 返回 到 新 创建 的 子 进 程 。 对 于 只 创建 一 个 子 进程 的 程序 来 说 ， 这 还 是 相当 简单 
的 。 但 是 含有 多 个 fork 实例 的 程序 可 能 就 会 令 人 迷惑 ， 需 要 仔细 地 推敲 了 。 

并 发 执行 。 父 进程 和 子 进程 是 并 发 运行 的 独立 进程 。 内 核能 够 以 任意 方式 交 蔡 执行 它们 地 辑 
控制 流 中 的 指令 。 当 我 们 在 系统 上 运行 这 个 程序 时 ， 父 进程 先 完成 它 的 printf 语句 ， 然 后 是 
子 进程 。 然 而 ， 在 另 一 个 系统 上 可 能 正好 相反 。 一 般 而 言 ， 作 为 程序 员 ， 我 们 无 法 对 不 同 
进程 中 的 指令 交替 执行 做 任何 假设 。 

相同 的 但 是 独立 的 地 址 空间 。 如 果 我 们 能 够 在 fork 函数 在 父 进 程 和 子 进程 中 返回 后 谍 即 终 
止 这 两 个 进程 ， 我 们 会 看 到 每 个 进程 的 地 址 空间 都 是 相同 的 。 每 个 进程 有 相同 的 用 户 栈 、 
相同 的 本 地 变量 值 、 相 同 的 堆 、 相 同 的 全 局 变量 值 ， 以 及 相同 的 代码 。 因 此 ， 在 我 们 的 示 
例 程序 中 ， 当 fork 函数 在 第 8 行 返回 时 ， 本 地 变量 x 在 父 进 程 和 子 进程 中 都 为 1。 然而 ， 因 
为 父 进程 和 子 进程 是 独立 的 进程 ， 它 们 每 个 都 有 自己 的 私有 地 址 空间 。 后 面 ， 父 进程 和 子 
进程 对 x 所 做 的 任何 改变 都 是 独立 的 ， 不 会 反映 在 另 一 个 进程 的 存储 器 中 。 这 就 是 为 什么 
当 父 进程 和 子 进程 调用 它们 各 自 的 printf 函数 时 ， 它 们 中 的 变量 x 会 有 不 同 的 值 。 

共享 文件 .。 当 我 们 运行 示例 程序 时 ,我们 注意 到 父 进程 和 子 进 程 都 把 它们 的 输出 显示 在 屏幕 
上 上 。 原因 是 于 进程 继承 了 父 进 程 所 有 的 打开 文件 。 当 父 进 程 调用 fork AY, stdout 文件 是 被 打 
开 的 ， 并 指 癌 屏幕 。 子 进程 继承 了 这 个 文件 ， 因 此 它 的 输出 也 是 指向 屏幕 的 。 


如 果 你 是 第 一 次 学 习 fok 涯 数 ， 男 进程 图 通常 会 有 所 帮助 ， 其 中 每 个 水 平 的 箭头 对 应 于 从 左 到 
右 执 行 指令 的 进程 ， 而 每 个 垂直 的 箭头 对 应 于 fork 函数 的 执行 。 

例如 ， 图 8.14 Ca) 中 的 程序 将 产生 多 少 输出 行 呢 ? E 8.14 Cb) 给 出 了 相应 的 进程 图 。 当 父 进 
称 执行 程序 中 第 一 个 (也 是 惟一 一 个 )fork RAN, 它 会 创建 一 个 子 进程 。 每 个 进程 都 调用 一 次 printf， 
所 以 程序 打印 两 个 输出 行 。 

现在 如 果 我 们 如 图 8.14 (c) 所 示 的 那样 调用 fork 两 次 ， 会 怎样 呢 ? 就 像 我 们 在 图 8.14 Ca) 中 
看 到 的 那样 ， 父 进程 调用 fork 创建 一 个 子 进 程 ， 然 后 父 进 程 和 子 进 程 都 调用 fork， 这 就 导致 了 两 个 
更 多 的 进程 。 因 此 ， 就 有 了 4 个 进程 ， 每 个 都 调用 printf， 所 以 程序 就 产生 了 4 个 输出 行 。 

继续 泊 这 个 思路 想 下 去 ， 如 果 我 们 要 调用 fork 三 次 ， 如 图 8.14 (e) 所 未 ， 又 会 发 生 什么 呢 ? 
RBA AR 8.14〈f) 中 的 进程 图 中 看 到 的 那样 ， 一 共 会 有 8 个 进程 。 每 个 进程 调用 printf, ATU 
程序 就 产生 了 8 个 输出 行 。 


1 #include "csapp.h" 


2 


3 int main() 


4 { 
5 
6 
/ 
8 } 
( 


a) 


Fork(); 


| hello 
printf("hello!\n"); 


exit (0); hello 
fork 
调用 fork “次 Cb) 打印 两 个 输出 行 


异常 控制 流 517 


1 #include "csapp.h" 


2 
3 int main() hello 
4 { 
5 Fork (); 
6 Fork(); 
7 printf ("hello!\n"); 
8 exit(d); 
5 : fork fork 
Cc) 调用 fork 两 次 Cd) 打印 四 个 输出 行 
hella 
#include "csapp.h" hello 
3 int main{) nere 
4 { hello 
5 Fork(); hello 
6 Fork (); hello 
7 Fork(); 
8 printf ("hello!\n"); neno 
9 exit(0)}; nello _ 
10 } fork fork fork 
Ce) 亩 用 fork 三 次 CO) 打印 八 个 输出 行 
图 8.14 fork 示例 程序 
练习 题 8.1 
考虑 下 面 的 程序 : 
code/ecf/forkprob0.c 
1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 int x = 1; 
6 
7 1f (Fork() == C) 
8 printf("printfl: x=%d\n", ++x); 
9 printf ("printf2: x=%d\n", --x); 
10 exit (0); 
11 } 
code/ecf/forkprob0.c 


A. 子 进 程 的 输出 是 什么 ? 
B. 父 进程 的 输出 是 什么 ? 
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练习 题 8.2 
下 面 的 程序 会 打印 多 少 个 “hello” Hh 47? 


1 #include “csapp.h" 
2 
3 int main() 
4 { 
5 int i; 
6 
7 for (i = 0; i< 2; i++) 
8 FoOrk()}); 
9 printf("hello!\n"); 
10 exit(0); 
11 } 
练习 题 8.3 


下 面 的 程序 会 打印 多 少 个 “hello” 输 出 行 ? 


#include "csapp.h'" 


void doit {() 


{ 


int 


Fork (); 
Fork(}); 
printf("hello\n"); 
return; 


main ({) 


Goit(); 


printf ({("“hello\n"); 
exit (0); 


8.4.3 回收 子 进 程 
当 一 个 进程 由 于 某 种 原因 终止 时 ， 内 核 并 不 是 立即 把 它 从 系统 中 清除 。 取 而 代 之 的 是 ， 进 程 被 
保持 在 一 种 终止 状态 中 ， 直 到 被 它 的 父 进程 回收 (reaped)。 当 父 进 程 回收 已 终止 的 子 进程 时 ， 内 核 


code/ecf/forkprob|\.c 


code/ecf/forkprob|\.c 


code/ecfiforkprob4.c 


code/eci/forkprob4.c 
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将 子 进 程 的 退出 状态 传递 给 父 进程 ， 然 后 抛弃 已 终止 的 进程 ， 从 此 时 开始 ， 该 进程 就 不 存在 了 。 一 
个 终止 了 但 还 未 被 回收 的 进程 称 为 僵 死 进程 〔(zombie )。 
旁 注 ， 为 什么 已 终止 的 子 进程 称 为 僵 死 进程 ? 

在 民间 传说 中 ， 便 尸 是 活着 的 尸体 ， 一 种 半生 半死 的 实体 。 俐 死 进程 已 经 终止 了 ， 而 内 核 仍 保 
留 着 它 的 某 些 状态 直到 父 进程 国 收 它 为 止 ， 从 这 个 意义 上 说 它们 是 类 似 的 ， 

如 果 父 进程 没有 回收 它 的 儒 死 子 进程 就 终止 了 ， 那 么 内 核 就 会 安排 init 进程 来 回收 它们 。init 
进程 的 PID 为 1， 并 且 是 在 系统 初始 化 时 由 内 核 创建 的 。 长 时 间 运 行 的 程序 ， 比 如 shell 或 者 服务 
器 ， 总 是 应 该 回收 它们 的 僵 死 子 进程 。 即 使 便 死 子 进程 没有 运行 ， 它 们 仍然 消耗 系统 的 存储 器 资 

一 个 进程 可 以 通过 调用 waitpid 国 数 来 等 待 它 的 子 进 程 终止 或 者 暂停 : 

#include <sys/types.h> 
#include <sys/wait.h> 


pid_t waitpid(pid_t pid, int *status, int options); 
返回 : 如 果 成 功 ， 则 为 子 进程 的 PID， 如 果 WNOHANG， 则 为 0， 如 果 出 错 则 为 -1. 


waitpid ABA RRA. RAH (4 options=0 时 )，waitpid 挂 起 调用 进程 的 执行 ， 直 到 它 的 等 
待 集合 中 的 一 个 子 进程 终止 。 如 果 等 待 集 合 中 的 一 个 进程 在 刚 调用 的 时 刻 就 已 经 终止 了 ， 那 么 
waitpid 就 立即 返回 。 在 这 丙种 情况 中 ，waitpid 返回 导致 waitpid 返回 的 终止 子 进程 的 PID， 并 且 将 
这 个 已 终止 的 子 进程 从 系统 中 去 踪 。 


判定 等 竺 集合 的 成 员 

等 竺 集合 的 成 员 是 由 参数 pid 来 确定 的 : 

。 如 果 pid>0， 那 么 等 待 集合 惑 是 一 个 单独 的 子 进 程 ， 它 的 进程 ID SF pid. 

。 WR pid=-1， 那 么 等 待 集合 就 是 由 父 进 程 所 有 的 子 进程 组 成 的 。 

Sit: ARBRE LOS 

waitpid BRIE RHRMARHFSRRS, Cis Unix 进程 组 ， 对 此 我 们 将 不 做 讨论 ， 

修改 默认 行为 

可 以 通过 用 常量 WNOHANG 和 WUNTRACED 的 不 同 组 合 来 设置 options， 修 改 默认 行为 : 

。 WNOHANG: 如 来 没有 等 得 集合 中 的 任何 子 进程 终止 ， 那么 就 立即 返回 (返回 值 为 0)。 

。 WUNTRACED: 挂 起 调用 进程 的 执行 , 直到 等 待 集合 中 的 一 个 进程 变 成 终止 的 或 者 被 暂停 。 
返回 的 PID 为 导致 返回 的 终止 或 暂停 子 进 程 的 PID。 

e WNOHANGIWUNTRACED: 立即 返回 ， 如果 没有 等 待 集合 中 的 任何 子 进程 停止 或 终止 ， 那 
么 返回 值 为 0， 或 者 返回 值 等 于 那个 被 停止 或 者 终止 子 进程 的 PID。 

检查 已 回收 子 进程 的 退出 状态 


如 本 status 参数 是 非 空 的 ， 那 么 waitpid 就 会 编码 关于 导致 返回 的 子 进程 的 状态 信息 到 status 参 
数 。wait.h 包含 文件 定义 了 解释 status 参数 的 几 个 宏 ， 


° WIFEXITED(status): 如 雪子 进程 正常 终止 就 返回 真 ， 也 就 是 通过 调用 exit 或 者 一 个 返回 
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(return). 

。 WEXITSTATUS(status): 返回 一 个 正常 终止 的 子 进 程 的 退出 状态 。 只 有 在 WIFEXITED 返回 
为 真 时 ， 才 会 定义 这 个 状态 。 

e WIFSIGNALED(status): 如 果 是 因为 一 个 未 被 捕获 的 信号 造成 了 子 进程 的 终止 , 那么 右 返 回 
真 〈 将 在 8.5 节 中 解释 说 明 信 和 号 )。 

。 WTERMSIG(status): 返回 引起 子 进程 终止 的 信号 的 数量 。 只 有 在 WIFSIGNALED(status) 返 
器 真 时 ， 才 定义 这 个 状态 。 

e WIFSTOPPED(status): 如 果 引 起 返回 的 子 进程 当前 是 暂停 的 ， 那 么 就 运 回 真 。 

e WSTOPSIG(status): 返回 引起 子 进程 暂停 的 信号 的 数量 。 只 有 在 WIFSTOPPED (status) i& 
回 真 时 ， 才 定义 这 个 状态 。 


错误 条 件 
如 果 调 用 进程 没有 子 进 程 ， 那 么 waitpid 返回 -1， 并 且 设 置 erno A ECHILD. WR waitpid A 


we Mes Fe, BAER -1, HA erno 为 EINTR. 
i+: FA Unix 函数 相关 的 常量 


像 WNOHANG 和 WUNTRACED 这 样 的 常量 是 由 系统 头 文件 定义 的 例如 ，WNOHANG 和 


WUNTRACED 是 由 waith ARH (间接 ) 定义 的 : 


/* Bits in the third argument to 'waitpid'. */ 

#define WNOHANG 1 /* Don’t block waiting. */ 

#define WUNTRACED 2 /* Report status of stopped children. */ 
为 了 使 用 这 些 常 量 ， 你 必须 在 你 的 代码 中 包含 waith 头 文件 : 


#include <sys/wait.h> 


每 个 Unix 函数 的 man 页 列 出 了 无 论 何 时 你 在 代码 中 使 用 那个 函数 都 要 包含 的 头 文 件 。 同 时 ， 


为 了 检查 诸如 ECHILD 和 EINTR 之 类 的 返回 代码 ， 你 必须 包含 errno.h。 为 了 简化 我 们 的 代码 示例 ， 
我 们 包含 了 一 个 称 为 csapp.h 的 头 文件 ， 它 包括 了 本 书 中 使 用 的 所 有 函数 的 头 文件 。 附 和 B 中 列 出 
了 csapp.h ARH. 


示例 
图 8.15 展示 了 一 个 创建 N 个 子 进程 的 程序 ， 使 用 waitpid 等 待 它们 终止 ， 然 后 查看 每 个 终止 了 


当 我 们 在 Unix 系统 上 运行 这 个 程序 时 ， 它 会 产生 如 下 输出 : 
unix ./waitpidl 


child 22966 terminated normally with exit status 
child 22967 terminated normally with exit status 


100 
101 


code/ecf/waitpidl.c 
#include "csapp.h" 
#define N 2 


int main() 


PDB 站 居 iD 人 履 
WOE O 


DMEF RRB 
Pow mAAN Au 心 


NO 
ISS 
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int status, 1: 


pid_t pid; 
for (i = 0; i < N; i++) 
if ((pid = Fork()) == 0) /* child */ 


exit ({100+1): 


/* parent waits for all of its children to terminate */ 
while ((pid = waitpid(-1l, &status, 0)) > 0) { 
1f (WIFEXITED (status) ) 
printf ("child $d terminated normally with exit status=%d\n", 
pid, WEXITSTATUS (status) ); 


else 
printf£("child %d terminated abnormally\n", pid); 
} 
if (errno != ECHILD) 
unix_error ("waitpid error"); 
exit (0); 


code/ecf/waitpidl.c 
8.15 使 用 waitpid K% oke T ite 
code/ecf/waitpid2.c 


#include "“cSapp.h" 
#define N 2 


int main() 


{ 


int status, i; 
pid_t pid[N+l], retpid; 


for (i = 0; i < N; i++) 
if ((pid{i] = Fork()) == 0) /* child */ 
exit (10041); 


/* parent reaps N children in order */ 
l = 0; 
while ((rezpid = waitpid(pid[i++], &status, 0}) > 0} { 
1f (WIFEXITED(Status) } 
printf ("child $d terminated normally with exit status=%d\n", 
retpid, WEXITSTATUS(status)); 
else 


printf ("child sd terminated abnormally\n", retpid); 
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23 /* The only normal termination is if there are no more children */ 
24 if (errno != ECHILD) 

25 unix_error("waitpid error"); 

26 

27 exit (0); 

28 } 


code/ecf/waitpid2.c 
图 8.16 使 用 waitpid 按照 价 死 子 进 程 创建 的 顺序 回收 它们 


注意 ， 程 序 不 会 按照 某 种 特殊 的 顺序 回收 子 进程 。 图 8.16 展示 了 我 们 可 以 如 何 用 waitpid 按照 
父 进 程 创建 子 进程 的 相同 顺序 来 回收 图 8.15 中 的 子 进程 。 


练习 题 8.4 
考虑 下 面 的 程序 : 
code/ecf/waitprob1.c 

1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 int status; 
6 pid_t pid; 
i 
8 printf("Hello\n"); 
9 pid = Fork(); 
10 print£("Sd\n", !pid); 
11 if {pid != 0) { 
12 if (waitpid(-1, &status, 0) > 0) { 
12 if (WIFEXITED(status) != 0} 
14 printf ("%d\n", WEXITSTATUS (status) ); 
15 } 
16 } 
17 printf ("Bye\n"); 


18 ex1it(2): 


code/ecf/waitprob|.c 
A. 这 个 程序 会 产生 多 少 输出 行 ? 
B. 这 些 输出 行 的 一 种 可 能 的 顺序 是 什么 ? 


8.4.4 ”让 进程 休眠 
sleep 函数 将 一 个 进程 挂 起 一 段 时 间 ，。 


#include <unistd.h> 


unsigned int sleep(unsigned int secs); 


返回 : 还 要 休眠 的 秒 数 。 
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sleep 退回 0〈 如 朱 请 求 的 时 间 量 已 经 到 了 )， 或 者 返回 剩 下 的 要 休眠 的 秒 数 。 后 一 种 情况 是 可 
能 的 ， 例 如 当 sleep 函数 被 一 个 信 己 中 类 过 早 返 加 时。 我们 将 在 8.5 节 中 详细 讨论 信和 与 。 

我 们 发 现 很 有 用 的 另 一 个 函数 是 pause 阔 数 ， 该 函数 让 调用 函数 休眠 ， 直 到 该 进程 收 到 一 个 信 
号 为 止 。 


#include <unistd.h> 


int pause(void}; 


练习 题 8.5 
编写 一 个 sleep HER BHR, A snooze， 带 有 下 面 的 接口 : 


unsigned int snooze(unsigned int secs); 


snooze 函数 和 sleep 函数 的 行为 完全 一 样 ， 除 了 会 打印 出 一 条 信息 来 描述 进程 实际 体 眠 了 多 长 
时 间 以 外 。 


Slept for 4 of 5 secs. 


8.4.5 ”加 载 并 运行 程序 
execve 函数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 程序 。 


#include <unistd.h> 


int execve(char *filename, char *argv[], char *envp); 
若 戌 功 则 不 返回 ， 若 错误 则 返回 -1. 


execve 艾 数 加 载 并 运行 可 执行 月 标 文件 flename， 且 带 参数 列表 argv 和 环境 变量 列表 enyp。 只 
有 当 出 现 错误 时 ， 例 如 不 能 发 现 filename, execve 才 会 返回 到 调用 程序 。 所 以 ， 不 像 fork 会 一 次 调 
用 返回 两 次 ，execve 调用 一 次 并 从 不 返回 。 

如 图 8.17 所 示 ， 参 数列 表 是 用 数据 结构 表示 的 。argv 变量 指向 一 个 以 moll 结尾 的 指针 数组 ， 其 
中 每 个 指针 都 指向 一 个 参数 串 。 按 照 习 俗 ，argv[0] 是 可 执行 目标 文件 的 名 字 。 环 境 变量 的 列表 是 由 
一 个 类 似 的 数据 结构 表示 的 ， 如 图 8.18 所 示 。envp 变量 指向 一 个 以 null 结尾 的 指针 数组 ， 其 中 每 
个 指针 指向 一 个 环境 变量 串 ， 其 中 每 个 串 都 是 形 如 “NAME=VALUE” 的 名 字 一 值 对 。 

argv [} 


= Cie 


iw 1 g 时 
" | "H 


| argvlarge - 1} | 
8.17 参数 列表 的 组 织 结构 


在 execve 加 载 了 filename 之 后 ， 它 调用 7.9 节 中 描述 的 启动 代码 。 启 动 代码 准备 好 栈 ， 并 将 控 
制 传递 给 新 程序 的 主 函数 ， 该 主 函 数 有 如 下 形式 的 原型 : 
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int main(int argc, char **argv, char **envp); 
或 者 等 价 的 : 


int main(int argc, char *argv{], char *envp|])); 


envp [] 


"PWD= /usr/droh" 
"PRINTER=iron" 
envpin-— 1] 


图 8.18 ”环境 变量 列表 的 组 织 结构 


当 main 开始 在 一 个 Linux 系统 上 执行 时 ， 用 户 栈 有 如 图 8.19 所 示 的 组 织 。 让 我 们 从 栈 底 〈 融 
地 址 〉 往 栈 顶 (低地 址 )， 依 次 看 一 看 。 首 先是 参数 和 环境 字符 串 ， 它 们 都 是 连续 地 存放 在 栈 中 的 ， 
一 个 接 一 个 ， 没 有 分 隔 。 紧 随 其 后 ， 在 栈 的 更 上 层 里 ， 是 以 null 结尾 的 指针 数组 ， 其 中 每 个 指针 都 
指 问 栈 中 的 一 个 环境 变量 串 。 全 局 变量 environ 指 回 这 些 指针 中 的 第 一 个 envp[0]。 紧 随 环 境 变 量 数 
组 其 后 的 是 以 null 结尾 的 argv[ ] 数 组 ， 其 中 每 个 元 素 都 指 同 栈 中 一 个 参数 串 。 在 栈 的 项 部 是 main 
RARI 3 个 参数 ，envp， 它 指 问 envp[ JAA; argv, CHR) argv[ ] 数 组 ;argc， 它 给 出 argvf ] 中 非 空 
指针 的 数量 。 


envp [0] 
envp [1] 


OxbEEfEfEf 栈 底 


LA null 结尾 的 环境 变量 串 


以 null 结尾 的 命令 行 参 数 串 


一 一 一 
市 ao 


main 的 栈 帧 


a: 
Gn] environ 


Oxbffffta7c 


图 8.17 当 一 个 新 的 程序 开始 时 ， 用 户 栈 的 典型 组 织 
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Unix 提供 了 几 个 函数 来 操作 环境 数组 : 
#include <stdlib.h> 


char *getenv(const char *name); 


返回 : 车 存在 则 为 指向 名 字 的 指针 ， 若 无 匹配 的 ， 则 为 NULL. 


getenv 函数 在 环境 数组 中 搜索 字符 串 “name=value”。 如 果 找 到 了 ， 它 就 返回 一 个 指 癌 value 的 
指针 ， 否 则 它 就 返回 空 指针 。 


#include <stdlib.h> 


int setenv(const char *name, const char *newvalue, int overwrite); 


AB: BRAM AO, SHRM A -1. 


void unsetenv (const char *name); 


返回 : 无 。 
如 果 环 境 数 组 包含 一 个 形 如 “name=oldvalue” 的 字符 串 ， 那 么 unsetenv 会 删除 它 ， 而 setenv 会 


用 newvalue 代替 oldvalue， 但 是 只 有 在 overwirte 非 零 时 才 会 这 样 。 如 果 name 不 存在 ， 那 么 setenv 
就 把 “name=newvalue” 添 加 到 数组 中 。 


Ft: E Solaris 系统 中 设置 环境 变量 , 
Solaris 提供 putenv 函数 ， 而 不 是 setenv 函数 。 它 并 不 提供 相当 于 unsetenv 函数 功能 的 函数 ， 


Sit: BES 

这 是 一 个 适当 的 地 方 ， 储 下来， 确认 一 下 你 是 否 理 解 了 程序 和 进程 之 闻 的 区 别 ， 程 序 是 代码 和 
数据 的 集合 ; 程序 可 以 作为 目标 模块 存在 于 磁盘 上 ， 或 者 作为 段 丰 在 于 地 址 空间 中 ， 进 程 是 执行 中 
程序 的 一 个 特殊 实例 ; 程序 总 是 运行 在 某 个 进程 的 上 下 文中 。， 如 果 你 想 要 理解 fork 和 execve BK, 
理解 这 个 差异 是 很 重要 的 。fork 函数 在 新 的 子 进 程 中 运行 相同 的 程序 ， 新 的 子 进程 是 父 进程 的 一 个 
复制 品 。execve 总数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 的 程序 。 它 会 禾 盖 当前 进程 的 地 址 空 
闻 ， 但 并 没有 创建 一 个 新 进程 。 新 的 程序 仍然 有 相同 的 PID， 并 且 继 承 了 调用 execve BANAT AG 
所 有 文件 描述 符 。 | 


:练习 题 8.6 
编写 一 个 叫做 myecho 的 程序 ， 它 打印 出 它 的 命令 行 参 数 和 环境 变量 。 例 如 ; 


unix> ./myecho argl arg2 
Command line arguments: 
argv[ 0]: myecho 
argv[ 1}: argl 
argv[ 2]: arg2 
Environment variables: 
envp[ 0]: PWD=/usr0/droh/ics/code/ecf 
envp[ 1]: TERM=emacs 


526 第 8 章 


envp [25]: USER=droh 
envp [26]: SHELL=/usr/local/bin/tcsh 
envp [27]: HOME=/usr0/droh 


8.4.6 ”利用 fork 和 execve 运行 程序 

像 Unix shell 和 Web 服务 器 《第 12 章 ) 这 样 的 程序 大 量 使 用 了 fork 和 execve MAX. shell 是 一 
个 交互 型 的 应 用 级 程序 ， 它 代表 用 户 运行 其 他 程序 。 最 早 的 shell 是 sh 程序 ， 后 面 出 现 了 一 些 变种 ， 
比如 cesh, tesh, ksh 和 bash. shell 执行 一 系列 的 读 / 求 值 (read/evaluate) 步骤 ， 然 后 终止 。 读 步骤 
读 取 来 自用 户 的 一 个 命令 行 。 求 值 步 又 解析 命令 行 ， 并 代表 用 户 运 行程 序 。 

图 8.20 展示 了 一 个 简单 shell 的 main 例 程 。shell 打印 一 个 命令 行 提示 符 ， 等 待 用 户 在 stdin 上 
输入 命令 行 ， 然 后 求 值 (evaluate) 这 个 命令 行 。 


code/ecf/shellex.c 
1 #include "csapp.h" 
2 #define MAXARGS 128 
3 
4 /* function prototypes */ 
5 void eval(char *cmdline) ; 
6 int parseline(const char *cmdline, char **argv); 
7 int builtin_command(char **argv}; 
8 
9 int main() 
10 { 
11 char cmåline[MAXLINE]; /* command line */ 
12 
13 while (1) { 
14 /* read */ 
15 printf ("> "); 
16 Fgets (cmdline, MAXLINE, stdin); 
17 if (feof(stdin)}) 
18 exit(0}; 
19 
20 /* evaluate */ 
21 eval (cmdline); 
22 } 
23 } 
code/ecf/shellex.c 


8.20 一 个 简单 shell 程序 的 moin 例 程 


图 8.21 展示 了 求 值 (evaluate ) 命令 行 的 代码 。 它 的 第 一 个 任务 是 调用 parseline FIX (K 8.22), 
XARRI TCLS oP I AAT ER, EAR SHEIK execve 的 argv 向 量 。 第 一 个 参数 
饼 假 设 为 要 么 是 一 个 内 置 的 shell 命令 名 字 , 马上 就 会 解释 这 个 命令 , 要 么 是 一 个 可 执行 的 目标 文件 ， 
会 在 一 个 新 的 子 进程 的 上 下 文中 加 载 并 运行 这 个 文件 。 


code/ecf/shellex.c 
1 /* eval - evaluate a command line */ 


2 void eval(char *cmdline) 
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3 { 

4 char *argv[MAXARGS];  /* argv for execve() */ 

5 int bg; /* should the job run in bg or fg? */ 

E pid_t pid; /# process id */ 

7 

8 bg = parseline(cmdline, argv); 

9 if (argv[0] == NULL) 

10 return; /* ignore empty lines */ 

11 

12 1£ (!builtin_command(argv)) { 

13 if ((pid = Fork())} == 0) { /* child runs user job */ 

14 1f (execve(argv[0], argv, environ) < 0) { 

15 printf(*%ss: Command not found.\n", argv[0])}; 

16 exit(0}; 

17 } 

18 } 

19 

20 /* parent waits for foreground job to terminate */ 

21 if (!tbg) { 

22 int Status; 

23 if (waitpid(pid, &status, 0) < 0) 

24 unix_error("waitfg: waitpid error"); 

25 } 

26 else 

27 printf ("%da %s", pid, cmdline}; 

28 } 

29 return; 

30 

31 

32 /* if first arg is a builtin command, run it and return true */ 

33 int builtin_command(char **argv) 

34 

35 if (!stremp(argv[0], "quit")} /* quit command */ 

36 exit (0); 

37 if (!stremp(argv[0], "&")) /* ignore singleton & */ 

38 return 1; 

39 return 0; /* not a builtin command */ 

40 
code/ecf/shellex.c 

8.21 eval: 求 值 (evaluate) shell 命令 行 

code/ecf/shellex.c 


A MO Be WwW NP 


/* parseline - parse the command line and build the argv array */ 

int parseline(const char *cmdline, char **argv) 

{ 
char array[MAXLINE]; /* holds local copy of command line */ 
char *buf = array; /* ptr that traverses command line */ 
char *delim; /* points to first space delimiter */ 
int argc; /* number of args */ 
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8 int bg; /* background job? */ 

9 

10 strcpy (buf, cmdline); 

11 buf [strlen(buf)-1] = '; /* replace trailing mn with space */ 
12 while (*buf && (*buf == ’ ‘’)) /* ignore leading spaces */ 
13 buf++; 

14 

15 /* build the argv list */ 

16 argc = Q; 

17 while ((delim = strchr (buf, ’ ‘}}} { 

18 argv[argc++] = buf; 

19 *delim = ‘\Q’; 

20 buf = delim + 1; 

21 while (*buf && (*buf == ' ')) /*1gnore spaces */ 
22 buf++4; 

23 } 

24 argv[argc] = NULL; 

25 

26 if (argc == 0) /* ignore blank line */ 

27 return 1; 

28 

29 /* should the job run in the background? */ 

30 1f ((bg = (*argv[argce-1] == ’&’)) != 0) 

31 argv[--argce] = NULL; 

32 

33 return bg; 

34 } 


code/ecf/shellex.c 
8.22 parseline: 为 shell 一 个 输入 行 


如 本 最 后 一 个 参数 是 一 个 “人 ”字符 ， 那 么 parseline 返回 1， 表 示 应 该 在 后 台 执 行 该 程序 (shell 
不 会 等 待 它 完成 )。 否则， 它 返 回 0， 表 示 应 该 在 前 台 执 行 这 个 程序 (shell 会 等 待 它 完 成 )。 

在 解 机 了 命令 行 之 后 ,eval KASJE builtin_command 函数 ， 该 函数 检查 第 一 个 命令 行 参数 是 否 
fe SABA shell 命令 。 如 果 是 ， 它 就 立即 解释 这 个 命令 ， 并 返回 值 |。 否则 ， 返 回 0。 我 们 简单 
的 shell 只 有 一 个 内 置 命 令 一 一 quit 命令 ， 该 命令 是 用 来 终止 shell 的 。 实 际 使 用 的 shell 有 大 量 的 命 
令 ， 比 如 pwd. jobs 和 fg. 

WX builtin_command 返回 0， 那 么 shel 创建 一 个 子 进程 ， 并 在 子 进程 中 执行 所 请 求 的 程序 。 
如 本 用 户 和 要 求 在 后 台 运 行 该 程序 ， 那 么 shell 返回 到 循环 的 顶部 ， 等 待 下 一 个 命令 行 。 否 则 ，shell 
使 用 waitpid 消 数 等 待 作业 的 终止 。 当 作业 终止 时 ，shell RIFE FIER. 

注意 ， 这 个 简单 的 shell 是 有 缺陷 的 ， 因 为 它 并 不 回收 它 的 后 台子 进程 。 修 改 这 个 缺陷 就 要 求 使 
用 信号 ， 我 们 将 在 下 一 节 中 讲述 信号。 


8.5 信号 


到 目前 为 止 ， 在 我 们 对 异常 控制 流 的 学 习 中 ， 我 们 已 经 看 到 了 硬件 和 软件 是 如 何 合作 以 提供 基 


本 的 低层 异常 机 制 的 。 
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我 们 也 看 到 了 操作 系统 是 如 何 利 用 异常 来 支持 更 高 层 形 式 的 异常 控制 流 的 ， 


也 就 是 所 谓 的 上 下 文 切 换 。 在 本 节 中 , 我 们 将 研究 一 个 更 高 层 软 件 形式 的 异常 ， 称 为 Unix 信号 ， 它 
允许 进程 中 断 其 他 进程 。 

一 个 信号 (signal) 就 是 一 条 消息 ， 它 通知 进程 一 个 某 种 类 型 的 事件 已 经 在 系统 中 发 生 了 。 比 如 ， 
图 8.23 展示 了 Linux 系统 上 支持 的 30 种 不 同类 型 的 信号 。 


88 | ar 默认 行为 相应 事件 


C co ~u Or tA 6 Ww WN çY me 


— 
O 


SIGIO 


SIGHUP 
SIGINT 
SIGQUIT 
SIGILL 
SIGTRAP 
SIGABRT 
SIGBUS 
SIGPFE 
SIGKILL 
SIGUSR1 
SIGSEGV 
SIGUSR2 
SIGPIPE 
SIGALRM 
SIGTERM 
SIGSTKFLT 
SIGCHLD 
SIGCONT 
SIGSTOP 
SIGTSTP 
SIGTTIN 
SIGTTOU 
SIGURG 
SIGXCPU 
SIGXFSZ 
SIGVTALRM 
SIGPROF 
SIGWINCH 


SIGPWR 


终端 线 挂 起 
来 自 键盘 的 中 断 

来 自 键盘 的 退出 

非法 指令 

跟踪 陷阱 

来 自 abort 函数 的 终止 信号 
SRR 

FARE 

杀 死 程序 

用 户 定义 的 信号 1 

无 效 的 存储 器 引用 〈 段 故障 ) 

用 户 定义 的 信号 2 

向 一 个 没有 读 用 户 的 管道 做 写 操作 
来 自 alarm 函数 的 定时 器 信号 
软件 终止 信号 

协 处 理 器 上 的 栈 故障 

一 个 子 进程 暂停 或 者 终止 

继续 进程 如 果 该 进程 停止 

不 来 自 终 端的 暂停 信和 号 

来 自 络 端的 暂停 信号 

后 台 进 程 从 终端 读 

后 台 进程 向 终端 写 

BES LARA 

CPU 时 间 限 制 超出 
文件 大 小 限制 超出 

虚拟 定时 器 期 满 

剖析 定时 器 期 满 

窗口 大 小 变化 

在 某 个 描述 符 上 可 执行 VO 操作 
电源 故障 


oe ESE RTE Ae (1) 
ERMET C1) 


停止 直到 下 一 个 SIGCONT (2) 
停止 直到 下 一 个 SIGCONT 
停止 直到 下 一 个 SIGCONT 
停止 直到 下 一 个 SIGCONT 


8.23 Linux 信和 号 


其 他 Unix 系统 是 类 似 的。 注意 : (1) 多 年 前 ， 主 存储 器 是 用 一 种 称 为 磁 芯 存储 器 (core memory ) 的 技术 来 实现 的 。“ 转 储存 
fies (dumping core)” 是 一 个 历史 术语 ， 意 思 是 把 代码 和 数据 存储 器 段 的 映像 写 到 磁盘 上 。(C2) 这 个 信号 茎 不 能 被 捕获 ， 也 


不 能 被 忽略 。 
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每 种 信号 类 型 都 对 应 于 某 个 类 型 的 系统 事件 。 低 层 的 硬件 异常 是 由 内 核 异常 处 理 程序 处 理 的 ， 对 
用 户 进程 而 言 通常 是 不 可 见 的 。 信 号 提供 了 一 种 机 制品 用 户 进程 通知 这 些 异 常 的 发 生 。 比 如 ， 如 入 一 
个 进程 试图 除 以 0， 那 么 内 核 就 发 送 给 它 一 个 SIGFPE 信和 号 〈 号 码 8)。 如 果 一 个 进程 执行 一 条 非法 指 
令 ， 那 么 内 核 就 发 送 给 它 一 个 SIGILL 信号 (号 码 4)。 如 果 进 程 有 非法 存储 器 3 引用， 内 核 就 发 送 给 它 
一 个 SIGSEGV 信号 《号 码 11)。 其 他 信号 对 应 于 内 核 或 者 其 他 用 户 进 程 中 较 高 层 的 软件 事件 。 比 如 ， 
如 果 当 进程 在 后 台 运 行 时 ， 你 键入 ctrl-c OER ERRI F ctrl 键 和 c 键 )， 那 么 内 核 就 会 发 送 一 个 
SIGINT 信号 (号 码 2) 给 前 台 进 程 。 一 个 进程 可 以 通过 发 送 一 个 SIGKILL 信和 号 (号码 9) 强制 终止 
男 外 一 个 进程 。 当 一 个 子 进 程 终 绰 或 者 暂停 时 ， 内 核 会 发 送 一 个 SIGCHLD fa S (号码 17) 给 父 进程 。 
8.5.1 信和 号 术语 

传送 一 个 信号 到 目的 进程 是 由 两 个 不 同步 又 组 成 的 : 

© AES, 内核 通 过 更 新 目的 进程 上 下 文中 的 某 个 状态 , 发 送 ( 递 送 ) 一 个 信号 给 目的 进程 。 

发 送信 号 可 以 有 如 下 两 种 原因 : 也 内 核 检测 到 一 个 系统 事件 ， 比 如 除 零 错 误 或 者 子 进程 终 
ik; @ 一 个 进程 调用 了 kill 函数 〈 在 下 一 节 中 讨论 )， 显 式 地 要 求 内 核发 送 一 个 信号 给 目的 
进程 。 一 个 进程 可 以 发 送信 号 给 它 上 自己 。 

© HUES. 当 目 的 进程 被 内 核 强 迫 以 某 种 方式 对 信号 的 发 送 做 出 反应 时 ， 目 的 进程 就 接收 了 

信号 。 进 程 可 以 忽略 这 个 信和 号, 终止, 或 者 通过 执行 一 个 称 为 信号 处 理 程序 (signal handler) 
的 用 户 层 函数 捕获 这 个 信号。 

一 个 只 发 出 而 没有 被 接收 的 信号 叫做 待 处 理 信号 (pending signal )。 在 任何 时 刻 ， 一 种 类 型 至 多 
只 会 有 一 个 竺 处理 信号 。 如 果 一 个 进程 有 一 个 类 型 为 的 竺 处理 信号 ， 那 么 任何 接 下 来 发 送 到 这 个 
进程 的 类 型 为 k 的 信号 都 不 会 排队 等 等 ， 它们 只 是 被 简单 地 丢弃 。 一 个 进程 可 以 有 选择 性 地 阻塞 接 
收 某 种 信号 。 当 一 种 信号 被 阻塞 时 ， 它 仍 可 以 被 发 送 ， 但 是 产生 的 待 处理 信 和 号 不 会 被 接收 ， 直 到 进 
程 取消 对 这 种 信和 号 的 阻塞 。 

一 个 待 处 理 信 号 最 多 只 能 被 接收 一 次 。 内 核 为 每 个 进程 在 pending 位 向 量 中 维护 着 待 处 理 信号 
RA, ME blocked 位 向 量 中 维护 着 被 阻塞 的 信号 集合 。 只 要 一 个 类 型 为 k 的 信号 被 传送 ， 内 核 就 
会 在 pending 位 向 量 中 设置 第 k 个 位 ， 而 只 要 一 个 类 型 为 k 的 信号 被 接收 ， 内 核 就 会 在 pengding 位 
问 量 中 清除 第 k 个 位 。 


8.5.2 ”发 送信 号 
Unix 系统 提供 了 大 量 的 机 制 ， 用 来 发 送信 号 给 进程 。 所 有 这 些 机 制 都 是 基于 进程 组 (process 
group) 这 个 概念 的 。 


进程 组 
每 个 进程 都 只 属于 一 个 进程 组 ， 进 程 组 是 由 一 个 正 整 数 进程 组 ID 来 标识 的 。getpgrp 函数 返回 
当前 进程 的 进程 组 ID: 


#include <unistd.h> 


pid_t getpgrp(void) ; 


返回 : 调用 进程 的 进程 组 D. 
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默认 地 , 一 个 子 进程 和 它 的 父 进程 同属 于 一 个 进程 组 。 一 个 进程 可 以 通过 使 用 setpgid 函数 来 改 
变 目 己 或 者 其 他 进程 的 进程 组 ， 


#include <unistd.h> 


| pid t setpgid(pid_t pid, pid_t pgid); 


返回 : BRAN AO, SHAR A -1. 
setpgid 图 数 将 进程 pid 的 进程 组 改 为 pgid。 如 果 pid 是 0， 那 么 就 使 用 当前 进程 的 PID。 如 宋 pgid 
是 0， 那么 就 用 pid 指定 的 进程 的 PD 作为 进程 组 ID。 例如， 如果 进 程 15213 是 调用 进程 ， 那 么 
setpgid(0, 0}; 
会 创建 一 个 新 的 进程 组 ， 其 进程 组 ID 是 13213， 并 且 把 进程 15213 加 入 到 这 个 新 的 进程 组 中 。 

用 kil 程序 发 送信 和 号 

/bim/kill 程序 可 以 向 另外 的 进程 发 送 任意 的 信号 。 比 如， 命令 

unix> Kill .9 15213 
发 送信 号 9 (SIGKILL) 给 进程 15213。 一 个 为 负 的 PID 会 导致 信号 被 发 送 到 PID 进程 组 中 的 每 个 
进程 。 比 如 ， 命 令 

unix> kill .9 .15213 
发 送 一 个 SIGKILL 信和 号 给 进程 组 15213 中 的 每 个 进程 。 

从 键盘 发 送信 和 号 

Unix shell 使 用 作业 (job ) 的 抽象 概念 来 表示 求 值 (evaluating ) 一 条 命令 行 而 产生 的 进程 。 在 
任何 时 刻 ， 人 至 多 只 有 一 个 前 台 作 业 和 0 个 或 多 个 后 台 作 业 。 比 如， 键入 

unix> is / sort 
创建 一 个 由 两 个 进程 组 成 的 前 台 作 业 ， 这 两 个 进程 是 通过 Unix 管道 连接 起 来 的 : 一 个 进程 运行 ls 
程序 ， 为 一 个 运行 sont 程序 。 

shell 为 每 个 作业 创建 一 个 独立 的 进程 组 。 典 型 地 ， 进 程 组 ID 是 取 自 作业 中 父 进 程 中 的 一 个 。 
比如 ， 图 8.24 展示 了 一 个 有 一 个 前 台 作 业 和 两 个 后 台 作 业 的 shell。 前 台 作 业 中 的 父 进程 PID 为 20, 
进程 组 ID 也 为 20。 父 进程 创建 两 个 子 进 程 ， 每 个 也 都 是 进程 组 20 的 成 员 。 

在 键盘 上 输入 ctrl-c， 发 送 SIGINT 信和 号 到 shell. shell 捕获 该 信号 (参见 8.5.3 节 )， 然 后 发 送 
SIGINT 信号 到 这 个 前 台 进 程 组 中 的 每 个 进程 。 在 默认 情况 中 ， 结 果 是 终止 前 台 人 作业。 类似 地 ， 输 
入 ctrl-z 会 发 送 一 个 SIGTSTP 信号 到 shell, shell 捕获 这 个 信号 ， 并 发 送 SIGTSTP 信号 给 前 台 进 程 
组 中 的 每 个 进程 。 在 默认 情况 下 ， 结 果 是 暂停 (HE) 前 台 作 业 。 

用 kill 因数 发 送信 和 号 

进程 通过 调用 kil KARIS S AA HE Cacao): 

#include <sys/types.h> 
#include <signal.h> 


int kill(pid_t pid, int sig); 


返回 : 车 成 功 则 为 0， 若 错误 则 为 -1. 
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pid=10/ Shell 
pgid=10 


pid=20 


和 


i pgid=20 :i da i pid=32 | 
: 前 全 任务 a HRES | pgid=32 | 
后 全 进程 组 32 后 合 进程 组 40 
pid=21 pid=22 : 
前 台 进 程 组 20 


图 8.24 ”前 台 和 后 台 进程 组 


后 台 任 务 \ | pid=40 


WR pid KTS, MA kill BMRA S SE sig QUE pid. MH pid D FẸ, RWA kill 发 送信 
5 sig 给 进程 组 abs(pid) 中 的 每 个 进程 。 图 8.25 展示 了 一 个 示例 ， 父 进程 利用 kill pK RIE SIGKILL 


codefecffkill.c 


信和 号 给 它 的 子 进程 ， 
code/ecf/kill.c 
1 #include "csapp.h" 
2 
3 int main!) 
4 { 
5 pid_t pid; 
6 
7 /* child sleeps until SIGKILL signal received, then dies */ 
8 if ((pid = Fork()) == 0) { 
9 Pause(); /* wait for a signal to arrive */ 
10 printf ("control should never reach here! \n"); 
li exit (0); 
12 } 
13 
14 /* parent sends a SIGKILL signal to a child */ 
15 Kill(pid, SIGKILL); 
16 exit(Q); 
17 } 
图 8.25 使 用 kil 省 数 传递 信号 给 子 进程 
用 alarm MARS AS 


进程 可 以 通过 调用 alarm PRAIA’ BRIX SIGALRM HE: 
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#include <unistd.h> 


unsigned int alarm(unsigned int secs); 


返回 : M—AMEPRM RHR, SAMARAS, MMA O0. 


alarm 消 数 安排 内 核 在 secs 秒 内 发 送 一 个 SIGALRM 信号 给 调用 进程 。 如 果 secs ES, MAA 
会 调度 新 的 闹钟 (alarm)。 在 任何 情况 中 ， 对 alarm 的 调用 都 将 取消 任何 待 处 理 的 (pending) li FP, 
并 且 返 回 任何 符 处 理 的 冰 钟 应 该 发 送 前 剩 下 的 秒 数 (如 果 这 次 对 alarm 的 调用 没有 取消 它 的 话 ), 或 
者 如 果 没 有 任何 待 处 理 的 闹钟 ， 就 返回 零 。 

8.26 展示 了 一 个 调用 alarm 的 程序 ， 它 安排 目 己 被 SIGALRM 信号 在 $ 秒 内 每 秒 中 断 一 次 。 
当 传 送 第 6 个 SIGALRM 信号 时 ， 它 就 终止 。 


code/ecf/alarm.c 


1 #include "csapp.h" 

2 

3 void handler(int sig) 

4 { 

5 Static int beeps = 0; 

6 

7 printf ("BEEP\n") ; 

8 if (++beeps < 5) 

9 Alarm(1); /* next SIGALRM will be delivered in 1s */ 
10 else { 

11 printf ("BOOM! \n"); 

12 exit (0); 

13 } 

14 】 

15 

16 int main() 

17 { 

18 Signal(SIGALRM, handler); /* install SIGALRM handler */ 
19 Alarm(1); /* next SIGALRM will be delivered in 1s */ 
20 

21 while (1) { 

22 ; /* signal handler returns control here each time */ 
23 } 

24 exit(0}; 

25 } 


code/ecf/alarm.c 
图 8.26 使 用 alarm 函数 调度 周期 性 事件 


当 我 们 运行 图 8.26 中 的 程序 时 ， 我 们 得 到 以 下 的 输出 ;5 秒 内 每 秒 一 个 “BEEP”， 后 面 跟随 着 
程序 终止 时 的 一 个 “BOOM ”; 


unix> ./alarm 
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BEEP 
BEEP 
BEEP 
BEEP 
BEEP 
BOOM! 


注意 图 8.26 中 的 程序 使 用 signal 锯 数 设置 了 一 个 信号 处 理 函 数 〈《handler)， 只 要 进程 收 到 一 个 
SIGALRM 信和 号， 就 异步 地 调用 该 函数 ， 中 汤 main 程序 中 的 无 限 while 循环 。 当 handler 返回 时 ， 控 
制 传递 回 main AA, 它 就 从 当初 被 信号 到 达 时 中 断 了 的 地 方 继续 执行 。 设置 和 使 用 信和 号 处 理 程 序 可 
能 是 相当 微妙 的 ， 这 将 是 下 面 三 节 讨 论 的 主题 。 


8.5.3 ”接收 信号 

当 内 核 从 一 个 异常 处 理 程序 返回 ， 准 备 将 控制 传递 给 进程 p 时 ， 它 会 检查 未 被 阻塞 的 竺 处理 信 
号 的 集合 (pending& blocked )。 如 果 这 个 集合 为 宅 (通常 情况 )， 那 么 内 核 传递 控制 给 p 的 逻辑 控 
制 流 中 的 下 一 条 指令 (Low)。 

然而 ， 如 果 集 合 是 非 空 的 ， 那 么 内 核 选择 集合 中 的 某 个 信号 上 〈 通 常 是 最 小 的 上 7?， 并 且 强 制 p 
接收 信号 kk。 收 到 这 个 信和 号 会 触发 进程 的 某 种 行为 。 一旦 进程 完成 了 这 个 行为 ， 那么 控制 就 传递 回 p 
的 远 辑 控制 流 中 的 下 一 条 指令 (1,ww)。 每 个 信号 类 型 都 有 一 个 预定 义 的 默认 行为 : 

。 进程 终止 。 

。 进程 终止 并 转 储存 储 器 (dump core). 

。 进程 暂停 直到 被 SIGCONT 信号 重启 。 

。 进程 忽略 该 信号 。 

图 8.23 展示 了 与 每 个 信号 类 型 相关 联 的 默认 行为 。 比 如 ， 收 到 SIGKILL 的 默认 行为 就 是 终止 
接收 进程 。 另 外 ， 接 收 SIGCHLD 的 默认 行为 就 是 忽略 这 个 信和 号。 进程 可 以 通过 使 用 signal HE 
改 和 信和 与 相关 联 的 默认 行为 。 惟 一 的 例外 是 SIGSTOP 和 SIGKILL， 它 们 的 默认 行为 是 不 能 修改 的 。 


#include <signal.h> 
typedef void handler t (int) 


handler_t *signal(int signum, handler_t *handler) 


返回 : 知 成 功 则 为 指向 前 次 处 理 程序 的 指针 ， 若 出 错 则 为 SIG-ERR 不 设置 errno。 


signal 肖 数 可 以 通过 下 列 三 种 方法 之 一 来 改变 和 信号 signum 相关 联 的 行为 : 

。 UX handler 是 SIG_IGN， 那 么 忽 赂 类 型 为 signum 的 信号。 

。 UR handler 是 SIG_DFL， 那 么 类 型 为 signum 的 信号 行为 恢复 为 默认 行为 。 

。 MN, handler 就 是 用 户 定 义 的 函数 的 地 址 ， 称 为 信号 处 理 程序 (signal handier), R EHF 
接收 到 一 个 类 型 为 signum 的 信号 , 就 会 调用 这 个 程序 . 通过 把 处 理 程序 的 地 址 传递 到 signal 
函数 从 而 改变 默认 行为 ， 这 叫做 设置 信号 处 理 程 序 。 信 号 处 理 程序 的 调用 被 称 为 捕 提 信号 。 
信和 号 处 理 程序 的 执行 被 称 为 处 理 信 号 。 

汉 一 个 进程 捕 提 了 一 个 类 型 为 大 的 信号 时 ， 为 信号 大 设置 的 处 理 程序 被 调用 ， 同 时 惟一 一 个 整 

数 参数 被 设置 为 K。 这 个 参数 允许 同一 个 处 理 函 数 捕捉 不 同类 型 的 信号。 
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当 处 理 程序 执行 它 的 return 语句 时 ， 控 制 〈 通 和 常 ) 传递 回 控制 流 中 进程 被 信号 接收 中 断 位 置 处 
的 指令 。 我 们 说 “通常 ”是 因为 在 某 些 系统 中 ， 被 中 断 的 系统 调用 会 立即 返回 一 个 错误 ， 
图 8.27 展示 了 一 个 捕获 用 户 在 键盘 上 输入 ctrl-c 时 shell 发 送 的 SIGINT 信和 号 的 程序 。SIGINT 
的 默认 行为 是 立即 终止 该 进程 。 在 这 个 示例 中 ， 我 们 将 默认 行为 修改 为 捕 提 信号， 输出 一 条 信息 ， 
然后 终止 该 进程 。 
code/ecf/sigintl.c 


1 #include "csapp.h" 

2 

3 void handler(int sig) /* SIGINT handler */ 
4 { 

5 printf("Caught SIGINT\n"); 

6 ex1it(Q}; 

7 } 

8 

9 int main() 

10 { 

11 /* Install the SIGINT handler */ 

12 if (signal(SIGINT, handler) == SIG_ERR) 
13 unix_error ("signal error"); 
14 

15 pause (); /* wait for the receipt of a signal */ 
16 

17 exit (0); 

18 } 


code/ecf/sigint!.c 
图 8.27 一 个 捕捉 SIGINT 信号 的 程序 
处 理 程序 函数 定义 在 第 3~7 行 中 。 主 函数 在 第 12 一 13 行 设置 处 理 程序 ， 然 后 进入 休眠 状态 ， 


直到 接收 到 一 个 信号 (第 15 行 )。 当 收 到 SIGINT 信号 时 , 运行 处 理 程序 ,输出 一 条 信息 (第 5 行 )， 
然后 终止 这 个 进程 (第 6 行 )。 


练习 题 8.7 
编写 一 个 叫做 snooze 的 程序 ， 有 一 个 命令 行 参数 ， 用 这 个 参数 调用 习题 8.5 中 的 snooze 函数 ， 
然后 终止 。 编 写 程序 ， 使 得 用 户 可 以 通过 在 键盘 上 输入 ctrl-c 中 断 snooze BH, thw: 


unix> ./snooze 5 


Slept for 3 of 5 secs. User hits crtl-c after 3 seconds 
unix> 


8.5.4 ”信号 处 理 问 题 

对 于 只 捕 提 一 个 信号 并 终止 的 程序 来 说 ， 信 号 处 理 是 简单 直接 的 。 然 而 ， 当 -一 个 程序 要 捕 提 多 
个 信号 时 ， 一 些 细微 的 问题 就 产生 了 

。 待 处 理 信号 被 阻塞 。Unix 信号 处 理 程序 典型 地 会 阻塞 当前 处 理 程序 正在 处 理 的 类 型 的 待 处 
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理 信 号 。 比 如 ， 假 设 一 个 进程 捕捉 了 一 个 SIGINT 信和 号， 并且 当 前 正在 运行 它 的 SIGINT 处 
理 程序 。 如 果 另 一 个 SIGINT 信和 与 传递 到 这 个 进程 ， 那 么 这 个 SIGINT 将 变 成 竺 处 理 的 ， 但 
是 不 会 被 接收 ， 直 到 处 理 程序 返回 。 

。 待 处 理 信号 不 会 排队 等待 。 任 意 类 型 至 多 只 有 一 个 待 处 理 信和 号。 因此 ， 如 果 有 两 个 类 型 为 k 
的 信号 传送 到 一 个 县 的 进程 ， 而 由 于 虽 的 进程 当前 正在 执行 信号 k 的 处 理 程序 ， 所 以 信号 k 
是 阻塞 的 ， 那 么 第 二 个 信和 号 就 被 简单 地 于 弃 ， 它 不 会 排队 等 待 。 关 键 思 想 是 存在 一 个 符 处 
理 的 信号 仅仅 表明 至 少 已 经 到 达 了 一 个 信和 号 。 

。 系统 调用 可 以 被 中 断 。 像 read、write 和 accept 这 样 的 系统 调用 潜在 地 会 阻塞 进程 一 段 较 长 
的 时 间 ， 称 之 为 慢 速 系统 调用 。 在 某 些 系统 中 ， 当 处 理 程序 捕 损 到 一 个 信号 时 ， 被 中 断 的 
慢 速 系统 调用 在 信号 处 理 程 序 返 回 时 不 再 继续 ， 而 是 立即 返回 给 用 户 一 个 错误 条 件 ， 并 将 
ermo W AN EINTR. 

让 我 们 利用 一 个 简单 的 应 用 程序 更 深入 地 看 看 信号 处 理 的 细微 之 处 ， 这 个 应 用 程序 本 质 上 类 似 
于 shell 和 Web 服务 器 这 样 的 真实 程序 。 基本 的 结构 是 一 个 父 进程 创建 一 些 子 进 程 ， 这 些 子 进程 独 
也 运行 一 会 此 ， 然 后 终止 。 父 进程 必须 回收 子 进程 ， 以 避免 在 系统 中 留 下 僵 死 进程 。 但 是 我 们 也 想 
让 父 进程 在 子 进 程 运行 时 可 以 目 由 地 做 其 他 工作 。 所 以 ， 我 们 决定 用 SIGCHLD 处 理 程 序 回收 了 进 
Fe, TARE WASHERS IL. (ARF: 只 要 子 进 程 终 止 或 者 暂停 时 ， 内 核 就 会 发 送 一 个 
SIGCHLD 信和 与 给 父 进 程 。) 

到 8.28 展示 了 我 们 的 第 一 次 尝试 。 父 进程 设置 了 一 个 SIGCHLD 处 理 程 序 ， 然 后 创建 了 一 个 子 
进程 ， 其 中 每 个 子 进程 运行 1 秒 ， 然 后 终止 。 同 时 ， 父 进程 等 待 来 自 终端 的 一 个 输入 行 ， 随 后 处 理 
它 。 这 个 处 理 被 模型 化 为 一 个 无 限 循 环 。 当 每 个 子 进程 终止 时 ， 内 核 通过 发 送 一 个 SIGCHLD 信号 
通知 父 进程 。 父 进程 捕捉 这 个 SIGCHLD 信和 号 ， 回 收 一 个 子 进程 ， 做 一 些 其 他 的 清除 工作 (模型 化 
为 sleep(2) 语 名 )， 然 后 返回 。 

code/ecf/signall.c 


1 #include "csapp.h" 

2 

3 void handlerl(int sig) 

4 { 

5 pid_t pid; 

6 

7 if ({((pid = waitpid(-1, NULL, 0)) < 0) 
8 unix_error("waitpid error"); 

9 printf("Handler reaped child d\n", (int)pid); 
10 Sleep (2); 

11 return; 

12 } 

13 

14 int main() 

15 { 

16 int i, n; 


17 char buf [MAXBUF] ; 
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18 

19 if (signal(SIGCHLD, handlerl) == SIG_ERR) 
20 unix_error("Signal error"); 

21 

22 /* parent creates children */ 

23 for (i = 0; 1 < 3; itt) { 

24 if (Fork() == 0) { 

25 printf("Hello from child %d\n", (int)getpid()); 
26 Sleep(1); 

27 exit(0); 

28 } 

29 } 

30 

31 /* parent waits for terminal input and then processes it */ 
32 if ({n = read(STDIN_FILENO, buf, sizeof (buf)}) < 0) 
33 unix_error ("read"); 

34 

35 printf ("Parent processing input\n"); 
36 while (1) 

37 ; 

38 

39 exit (0); 

40 } 


code/ecf/signall.c 


图 8.28 signal 
这 个 程序 是 有 缺陷 的 ， 因 为 它 无 法 处 理 信号 会 阻塞 、 信 号 不 会 排队 等 待 和 系统 调用 可 以 被 中 斯 这 些 情况 。 


图 8.28 中 的 signall 程序 看 起 来 相当 简单 。 然 而 ， 当 我 们 在 Linux 系统 上 运行 它 时 ， 我 们 得 到 
如 下 输出 : 


linux> ./signall 

Hello from child 10320 
Hello from child 10321 
Hello from child 10322 
Handler reaped child 10320 
Handler reaped child 10322 
<Cr> 


Parent processing input 

从 输出 中 ， 我 们 注意 到 ， 尺 管 发 送 了 3 个 SIGCHLD 信号 给 父 进程 ， 但 是 上 只 有 其 中 的 两 个 信号 
被 接收 了 ， 因 此 父 进 程 只 是 回收 了 两 个 子 进程 。 如 果 我 们 挂 起 父 进程 ， 我 们 看 到 ， 实 际 上 ， 子 进程 
10321 没有 被 回收 ， 成 为 了 一 个 价 死 进程 : 


<ctrl-~z> 
Suspended 
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linux> ps 
PID TTY STAT TIME COMMAND 


10319 p5 T 0:03 signall 


10321 p5 Z 0:00 (signall <zombie>) 
10323 p5 R 0:00 ps 


哪里 出 钳 了 了 呢 ? 问题 就 在 于 我 们 的 代码 没有 解决 信号 可 以 阻塞 和 不 会 排队 等 待 这 样 的 事实 。 下 
面 是 所 发 生 的 情况 : 

父 进程 接收 并 捕捉 了 第 一 个 信号 。 当 处 理 程序 还 在 处 理 第 一 个 信号 时 ， 第 二 个 信号 就 传送 并 添 
加 到 了 待 处 理 信号 集合 里 。 然 而 ， 因 为 SIGCHLD 信号 被 SIGCHLD 处 理 程序 阻塞 了 ， 所 以 第 二 个 
信和 号 就 不 会 被 接收 。 此 后 不 入 ， 就 在 处 理 程 序 还 在 处 理 第 一 个 信号 时 ， 第 三 个 信号 到 达 了 。 因 为 已 
经 有 了 一 个 待 处 理 的 SIGCHLD， 第 三 个 SIGCHLD 信号 会 被 丢弃 。 一 段 时 间 之 后 ， 处 理 程 序 返 回 ， 
内 核 注 意 到 有 一 个 待 处 理 的 SIGCHLD 信和 号， 就 追 使 父 进 程 接 收 这 个 信号 。 父 进程 捕获 信号， 并 第 
二 次 执行 处 理 程序 。 在 处 理 程 序 完 成 对 第 二 个 信号 的 处 理 之 后 ， 已 经 没有 待 处 理 的 SIGCHLD 信和 与 
了 了， 而且 也 绝 不 会 再 有 ， 因 为 第 三 个 SIGCHLD 的 所 有 信息 都 已 经 丢失 了 。 由 此 得 到 的 重要 教训 是 ， 
信和 与 不 可 以 用 来 对 其 他 进程 中 发 生 的 事件 计数 。 

为 了 修正 这 个 问题 ， 我 们 必须 回想 一 下 ， 存 在 一 个 竺 处 理 的 信号 只 是 暗示 目 进 程 最 后 一 次 收 到 
一 个 信号 以 来 ， 至 少 已 丝 有 一 个 这 种 类 型 的 信号 被 发 送 了 。 所 以 我 们 必须 修改 SIGCHLD 处 理 程序 ， 
使 每 次 SIGCHLD 处 理 程序 被 调用 时 ， 回 收 尽 可 能 多 的 僵 死 子 进 程 。 图 8.29 展示 了 修改 后 的 


SIGCHLD 处 理 程序 。 
codefecf/signal2.c 
1 #include "csapp.h" 
2 
3 void handler2(int sig) 
4 { 
5 pid_t pid; 
6 
7 while ((pid = waitpid(-1, NULL, 0)) > 0) 
8 printf("Handler reaped child %d\n", (int)pid); 
9 1f (errno != ECHILD) 
10 unix_error ("waitpid error"); 
12 Sleep(2); 
12 return; 
13 } 
14 
15 int main() 
16 { 
17 int 1, n; 
18 Char buf [MAXBUF'’ ; 
19 


20 if (signal (SIGCHLD, handler2) == SIG_ERR) 
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21 unix_error("Signal error”); 
22 
23 /* parent creates children */ 
24 for (i = 0; i < 3; i++) { 
25 if (Fork() == 0) { 
26 printf ("Hello from child d\n", (int)getpid()); 
27 Sleep(1)}; 
28 exit{d); 
29 } 
30 } 
31 
32 /* parent waits for terminal input and then processes it */ 
33 if ((n = read(STDIN_FILENOC, buf, sizeof(buf))) < 0) 
34 unix _error("read error"); 
35 
36 printf("Parent processing input\n"); 
37 while (1) 
38 ; 
39 
AQ exit(0); 
41 } 
code/ecf/signal2.c 
图 8.29 signal? 


图 8.28 的 一 个 改进 版 本 ， 它 能 够 正确 解决 信号 会 阻塞 和 不 会 排队 等 待 的 情况 .然而 ， 它 没有 考虑 系统 调用 被 中 断 的 可 能 性 。 
当 我 们 在 Linux 系统 上 运行 signal2 时 ， 它 可 以 正确 地 回收 所 有 的 僵 死 子 进程 了 。 


linux> ./signal2 

Hello from child 10378 
Hello from child 10379 
Hello from child 10380 
Handler reaped child 10379 
Handler reaped child 10378 
Handler reaped child 10380 
<Cr> 


Parent processing input 


然而 ， 我 们 还 没有 完成 任务 。 如 果 我 们 在 Solaris 系统 上 运行 signal2 程序 ， 它 会 正确 地 回收 所 


有 的 价 死 子 进程 。 然 页， 现在， 被 阻塞 的 read 系统 调用 在 我 们 在 键盘 上 进行 输入 之 前 ， 提 前 返回 一 
个 错误 : 


solaris> ./signal2 

Hello from child 18906 
Hello from child 18907 
Hello from child 18908 
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Handler reaped child 18906 
Handler reaped child 18908 
Handler reaped child 18907 
read: Interrupted system call 


出 了 什么 问题 呢 ? 出 现 这 个 问题 是 因为 在 这 个 Solaris 系统 上 ， 诸 如 read 这 样 的 慢 速 系统 调用 
住 被 信和 号 发 送 中 汤 后 ， 是 不 会 自动 重启 的 。 相反 地 ， 和 Linux 系统 自动 重启 被 中 断 的 系统 调用 不 同 ， 
它们 会 提前 返回 给 调用 应 用 程序 一 个 错误 条 件 。 

为 了 编写 可 移植 的 信号 处 理 代码 , 我 们 必须 考虑 系统 调用 过 早 返 回 , 然后 手动 重启 它们 的 情况 。 
Pel 8.30 展示 了 对 signall 的 修改 ， 它 会 手动 地 重启 被 终止 的 read 调用 。ermo 中 的 EINTR 返回 代码 
表明 read 系统 调用 在 它 被 中 断后 提前 返回 了 。 


code/ecf/signal3.c 


1 #include "csapp.h" 

2 

3 void handler2(int sig) 

4 { 

5 pid_t pid; 

6 

7 while ((pid = waitpid(-1, NULL, 0)) > 0) 
8 printf("Handler reaped child $d\n", (int)pid); 
9 1f (errno != ECHILD) 

10 unix_error ("waitpid error"); 

11 Sleep (2); 

12 return; 

13 } 

14 

15 int main() { 

16 int i, n; 

17 char buf [MAXBUF]; 

18 pid_t pid; 

19 

20 if (signal(SIGCHLD, handler2) == SIG ERR) 
21 unix_error("signal error"); 

22 

23 /* parent creates children */ 

24 for (1 = 0; i < 3; i++) { 

25 pid = Fork():; 

26 if (pid == 0) { 

27 printf ("Hello from child %d\n", (int)getpid()); 
28 Sleep (1); 

29 exit(0); 

30 } 

31 } 
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33 /* Manually restart the read call if it is interrupted */ 
34 while ((n = read(STDIN_FILENO, buf, sizeof(buf))) < 0) 
35 if (errno != EINTR) 
36 unix error ("read error"); 
37 
38 printf ("Parent processing input\n"); 
39 while (1) 
40 ; 
41 
42 exit (0); 
4 3 
code/ecf/signal3.c 
Æ 8.30 signal 


图 8.29 的 一 个 改进 版 本 ， 它 正确 地 解决 了 系统 调用 可 能 被 中 断 的 情况 。 
当 我 们 在 一 台 Solaris 系统 上 运行 我 们 新 的 signal3 程序 时 ， 程 序 会 正确 运行 : 


solaris> ./signal3 

Hello from child 19571 
Hello from child 19572 
Hello from child 19573 
Handler reaped child 19571 
Handler reaped child 19572 
Handler reaped child 19573 
<CIr> 

Parent processing input 


8.5.5 ”可 移植 的 信号 处 理 

不 同系 统 之 间 ， 信 和 号 处 理 语义 的 差异 一 一 比如 一 个 中 断 慢 速 系 统 调 用 是 否 重启 或 者 永久 放 
弃 一 一 是 Unix 信和 号 处 理 的 一 个 缺陷 。 为 了 处 理 这 个 问题 ，Posix 标准 定义 了 sigaction 函数 ， 它 
允许 Posix 兼容 系统 的 用 户 ， 比 如 Linux 和 Solaris 的 用 户 ， 显 式 地 指定 他 们 想 要 的 信号 处 理 语 
Mo 


#include <signal.h> 


int sigaction(int signum, struct sigaction *act, struct sigaction *oldact); 


A: BRAMAO, SHRM A-1. 


sigaction PBA AFF) Z, 因为 它 要 求 用 户 设置 一 个 结构 的 项 目 (entry)。 一 个 更 简洁 的 方式 ， 
最 初 是 Stevens 提出 的 [81], 就 是 定义 一 个 包装 (wrapper) 函数 , BRN Signal, 它 为 我 们 调用 sigaction 。 
图 8.31 给 出 了 Signal 的 定义 ， 它 的 调用 方式 与 signal 函数 的 调用 方式 一 样 。Signal 包装 函数 设置 了 
一 个 信和 号 处 理 程 序 ， 其 信号 处 理 语义 如 下 : 

。 只 有 这 个 处 理 程 序 当前 正在 处 理 的 那 种 类 型 的 信号 被 阻塞 。 

。 和 和 所 有 信号 实现 一 样 ， 信 号 不 会 排队 等 待 。 
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只 要 可 能 ， 被 中 断 的 系统 调用 会 自动 重启 。 
一 旦 设置 了 信和 号 处 理 程序 , 它 就 会 一 直 保 持 ， 直 到 Signal 带 着 handler 参数 为 SIG_IGN 或 者 
SIG_DFL 被 调用 。( 一 些 比较 老 的 Unix 系统 会 在 一 个 处 理 程序 处 理 完 一 个 信号 之 后 ， 将 信 
号 行为 恢复 为 它 的 默认 行为 。) 

code/src/csapp.c 
handler_t *Signal(int signum, handiler_t *handler) 


{ 


Struct Sigaction action, old action; 


action.sa_handler = handler; 
Sigemptyset (&action.sa_mask); /* block sigs of type being handled */ 
action.sa_flags = SA_RESTART; /* restart syscalls if possible */ 


if (Sigaction(Signum, &action, &old action) < 0) 
unix_error("Signal error"); 
return (old_action.sa_handler) ; 


code/src/csapp.c 


图 8.31 Signal 


sigaction 的 - -TEAR RK., CEH Posix 兼容 系统 的 可 移植 信号 处 理 。 
图 8.32 展示 了 图 8.29 中 signal2 程序 的 一 个 版 本 ， 该 版 本 使 用 我 们 的 Signal 包装 函数 在 不 同 的 计算 


机 系统 上 获得 可 预测 的 信号 处 理 语义 。 惟 一 的 区 别 是 我 们 是 通过 调用 Signal 而 不 是 调用 signal 来 设置 处 
理 程 序 的 。 现 在 ， 程 序 既 可 以 在 Solaris 也 可 以 在 Linux 系统 上 正确 运行 了 ， 而 我 们 也 不 再 需要 手动 地 重 


月 被 中 断 的 read 系统 调用 了 。 
code/ecf/signalA.c 
1 #include "csapp.h" 
2 
3 void handler2 (int sig) 
4 { 
5 pid_t pid; 
6 
7 wnile ((pid = waitpid(-1, NULL, 0)) > 0) 
8 prantf ("Handler reaped child d\n", (int)pid); 
9 if (errno != ECHILD) 
10 unix_error("waitpid error"); 
11 Sleep (2); 
12 return; 
13 } 
14 
15 int main() 
16 { 
17 int i, n; 
18 char buf [MAXBUF]; 
19 pid_t pid; 
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20 

21 Signal (SIGCHLD, handler2); /* sigaction error-handling wrapper */ 
22 

23 /* parent creates children */ 

24 for (1 = O; 1 < 3; i++) { 

25 pid = Fork(); 

26 if (pid == 0) { 

27 printf("Hello from child %d\n", (int)getpidt()); 
28 Sleep(1); 

29 exit (0); 

30 } 

31 } 

32 

33 /* parent waits for terminal input and then processes it */ 

34 if ((n = read(STDIN_FILENO, buf, sizeof(buf))) < 0) 
35 unix_error("read error"); 

36 

37 printf (“Parent processing input\n"); 

38 while (1) 

39 ; 

AQ ex1t(0); 

41 } 


code/ecf/signald.c 
8.32 signal4 
图 8.29 的 一 个 版 本 ， 该 版 本 通过 使 用 我 们 的 Signal 包装 函数 得 到 可 移植 的 信号 处 理 语义 ， 
8.5.6” 显 式 地 阻塞 信号 
应 用 程序 可 以 使 用 sigpromask 函数 显 式 地 阻塞 和 取消 阻塞 选择 的 信和 号， 


#include <signal.h> 


int sigprocmask{int how, const sigset_t *set, sigset_t *oldset); 
int sigemptyset(sigset_t *set); 

int sigfillset(sigset_t *set); 

int sigaddset(sigset_t *set, int signum); 

int sigdelset(sigset_t *set, int signum); 


返回 : 如 果 成 功 则 为 0， 若 出 错 则 为 -1。 


int sigismember (const Sigset_t *set, int Signum); 

返回 : & signum 是 sef 的 成 员 则 为 1， 落 出 错 则 为 0. 
sigpromask 函数 改变 当前 已 阻塞 信和 号 的 集合 (blocked 位 向 量 在 8.5.1 节 中 描述 )。 具 体 的 行为 依 

iF how 的 值 ; 

。 SIG_BLOCK: 添加 set 中 的 信号 到 blocked 中 (blocked=blockedlset). 


e SIG_UNBLOCK: 从 blocked 中 删除 set 中 的 信号 Chlocked=blocked& set). 
e SIG_SETMASK: blocked=set. 


如 果 oldset JEF, blocked 位 向 量 以 前 的 值 会 保存 在 oldset 中 。 
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可 以 使 用 下 列 函数 操作 像 set 这 样 的 信号 集合 。sigemptyset 初始 化 set 为 空 集 。sigfillset 函数 将 
每 个 信号 添加 到 set 中 。sigaddset 函数 添加 signum 到 set, sigdelset 从 set 中 删除 signum, 如 果 signum 
是 set 的 成 员 ， 那 么 sigismember 返回 1， 反 之 则 返回 0。 

sigprocmask 六 数 对 于 同步 父子 进程 是 很 方便 的 。 比 如 , 考虑 图 8.33, 它 总 结 了 一 个 典型 的 Unix 
shell 的 结构 。 父 进程 在 一 个 作业 列表 中 记录 着 它 的 子 进程 。 当 父 进程 创建 一 个 新 的 子 进程 时 ， 它 就 
把 这 个 子 进程 添加 到 作业 列表 中 。 当 父 进程 在 SIGCHLD 处 理 程序 中 回收 一 个 终止 的 〈 便 死 ) 子 进 


程 时 ， 


1 
2 
3 
A 
5 
6 
7 
8 


9 

10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27] 
28 
29 
30 
31 
32 
33 
34 


它 就 从 作业 列表 中 删除 这 个 子 进 程 。 


code/ecf/procmask.c 
void handier(int sig) 
{ 
pid_t pid; 
while ((pid = waitpid(-1, NULL, 0)) > 0) /* Reap a zombie child */ 
deletejob(pid); /* Delete the child from the job list */ 
lt (errno != ECHILD) 
unix_error ("waitpid error"); 


} 


int main(int argc, char **argv) 
{ 

int pid; 

sigset_t mask; 


Signal (SIGCHLD, handler): 
initjobs(); /* Initialize the job list */ 


whiie (1) { 
Sigemptyset (&mask) ; 
Sigaddset (&mask, SIGCHLD); 
Sigprocmask(SIG_BLOCK, &mask, NULL); /* Block SIGCHLD */ 


/* Child process */ 

1f ((pid = Fork()) == 0) { 
Sigprocmask(SIG_ UNBLOCK, &mask, NULL); /* Unblock SIGCHLD */ 
Execve("/bin/ls", argv, NULL); 


/* Parent process */ 
addjob(pid); /* Add the child to the job list */ 


Sigprocmask (SIG _ UNBLOCK, &mask, NULL); /* Unblock SIGCHLD */ 
} 


exit(d); 


code/ecf/procmask.c 


图 8.33 用 sigprocmask 来 同步 进程 


这 个 示例 中 ， 父 进程 在 相应 的 deletejob 之 前 保证 执行 了 addjob. 
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SO RRNA USER OEE, AR ART RB AE PTL: 
© 父 进程 执行 fork RA, FFA A R Bel A TERE EEE T o 
。 在 父 进程 可 以 再 次 运行 之 前 ， 子 进程 会 终止 ， 并 变 成 一 个 便 死 进程 ， 使 得 内 核 传 递 一 个 
SIGCHLD 信号 给 父 进 程 。 
。 后 来 ， 当 父 进程 再 次 变 成 可 运行 但 又 在 它 执行 之 前 ， 内 核 注 意 到 符 处 理 的 SIGCHLD 信号， 
并 通过 在 父 进程 中 运行 处 理 程序 接收 这 个 信号 。 
。 处 理 程序 回收 终止 的 子 进程 ， 并 调用 deletejob， 这 个 函数 什么 也 不 做 ， 因为 父 进程 还 没有 把 
该 子 进 程 添加 到 列表 中 。 
。 在 处 理 程序 运行 完毕 后 ， 内 核 运 行 父 进程 ， 父 进程 从 fork 返回 ， 通 过 调用 addjob 错误 地 把 
(不 存在 的 ) 子 进程 添加 到 作业 列表 中 ， 
关键 问题 是 如 果 我 们 什么 都 不 做 ,那么 就 可 能 在 执行 addjob 之 前 ,执行 deletejob。 图 8.33 展示 
了 改正 这 个 问题 的 一 种 方法 。 通过 在 调用 fork 之 前 , 阻塞 SIGCHLD 信号 , 然后 在 我 们 调用 了 addjob 
之 后 就 取消 阻 窜 这 些 信 和 号， 我 们 保证 了 在 子 进程 被 添加 到 作业 列表 中 之 后 ， 回 收 该 子 进程 。 
注意 子 进程 继承 了 它们 父 进 程 的 被 阻塞 集合 ， 所 以 我 们 必须 在 调用 execve 之 前 ， 小 心地 解除 子 
进程 中 阻塞 的 SIGCHLD 信号 。 


8.6” 非 本 地 跳 转 


C 提供 了 一 种 形式 的 用 户 级 异常 控制 流 ， 称 为 非 本 地 跳 转 (nonlocal jump)， 它 将 控制 直接 从 一 
个 通 数 转移 到 另 一 个 当前 正在 执行 的 函数 ， 而 不 需要 经 过 正常 的 调用 -返回 序列 。 非 本 地 跳 转 是 通 
过 setimp 和 longimp MAKEN. 


#include <setjmp.h> 


int setjmp(jmp_buf env}; 


int sigsetjmp(sigjmp_buf env, int savesigs); 
返回 : setjmp i 


setjmp ARE env 缓冲 区 中 保存 当前 栈 的 内 容 ， 以 供 后 面 Iongjmp 使 用 ， 并 返回 0。 


#include <setjmp.h> 


void longjmp(jmp_buf env, int retval); 


void siglongj]mp(sigjmp_buf env, int retval); 


longimp 函数 从 env 缓冲 区 中 恢复 栈 的 内 容 ， 然 后 触发 一 个 从 最 近 一 次 初始 化 env 的 setimp 调 
用 的 返回 。 然 后 setjmp 返回 ， 并 带 有 非 零 的 返回 值 retval。 

第 一 眼看 过 去 ，setjmp 和 longjmp 之 间 的 相互 关系 令 人 迷惑 。setimp 函数 只 被 调用 一 次 ， 但 返 
加 多 次 一 一 一 次 是 当 第 一 次 调用 setjmp， 而 栈 的 上 下 文保 存在 缓冲 区 env 中 时 ;一 次 是 为 每 个 相应 
的 longjmp。 男 一 方面 ，longjmp 函数 只 被 调用 一 次 ， 但 从 不 返回 。 

非 本 地 跳 转 的 一 个 重要 应 用 就 是 允许 从 一 个 深层 髓 套 的 函数 调用 中 立即 返回 ， 通 常 是 由 检测 到 
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茶 个 铬 误 情况 引起 的 。 如 果 在 一 个 深层 髓 套 的 函数 调用 中 发 现 了 一 个 错误 情况 ， 我 们 可 以 使 用 非 本 
地 跳 转 百 接 返 回 到 一 个 普通 的 本 地 化 的 错误 处 理 程序 ， 而 不 是 费力 地 解 开 调用 栈 。 

图 8.34 展示 了 一 个 示例 ， 说 明 这 可 能 是 如 何 工作 的 。main 函数 首先 调用 setimp 以 保存 当前 栈 
的 上 上 下文， 然后 调用 肾 数 foo, foo FEA AIPA AY bare WR foo 或 者 bar 遇 到 一 个 销 误 ， 它 们 立即 通过 
一 次 longjmp 调用 从 setjmp 返回 。setjmp 的 非 零 退回 值 指明 了 和 销 误 类 型 ， 随 后 可 以 被 解 铝 ， 用 在 代 
码 中 的 某 个 位 置 进 行 处 理 。 

code/ecf/setjmp.c 
#include "csapp.h" 


jmp_buf buf; 


int error? = 1; 


1 

2 

3 

4 

5 int errorl = Q; 
6 

7 

8 void foolvoid), bar(void); 
9 


10 int main() 


11 { 

12 int rc; 

13 

14 re = setjmp (buf); 

15 if (re == Q0) 

16 foo(}; 

17 else if (re == 1) 

18 printf("Detected an errorl condition in foo\n"); 
19 else if {rc == 2) 

20 printfi"Detected an error2 condition in foo\n"); 
a1 else 

22 printf "Unknown error condition in foo\n"); 
23 ex1it(d); 

24 } 

25 

26 /* deeply nested function foo */ 

27 void foo(void) 

28 { 

29 if (errorl) 

30 longjmp(buf, 1); 

31 bar(); 

32 } 

33 

34 void bar (void) 

35 { 


36 if (error?) 
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37 longjmp(buf, 2); 
38 } 


code/ecf/setjmp.c 


8.34 非 本 地 跳 转 的 示例 
这 个 示例 表明 了 使 用 非 本 地 跳 转 来 从 深层 嵌 套 的 函数 调用 中 的 错误 情况 恢复 ， 而 不 需要 解 开 整 个 栈 的 基本 框架 。 


非 本 地 跳 转 的 另 一 个 重要 应 用 是 使 一 个 信号 处 理 程序 分 支 到 一 个 特殊 的 代码 位 置 ， 而 不 是 返回 
到 被 信号 到 达 中 断 了 的 指令 的 位 置 。 图 8.35 展示 了 一 个 简单 的 程序 ， 说 明了 这 种 基本 技术 。 当 用 户 
在 键盘 上 键入 ctrl-c 时 ， 这 个 程序 用 信号 和 非 本 地 跳 转 来 实现 软 重启 。sigsetjmp 和 siglongjmp 函数 
是 setjmp 和 longjmp 的 可 以 被 信号 处 理 程序 使 用 的 版 本 。 


code/ecf/restart.c 
#include "csapp.h" 


Slgjmp_buf buf; 


ft 


1 

2 

3 

4 

5 void handler (int sig) 
6 

7 Siglongjmp(buf, 1); 
8 


} 


9 

10 int main() 

11 { 

12 Signal (SIGINT, handler); 

13 

14 1f (!sigsetymp(buf, 1)) 

15 printf("starting\n"); 
16 else 

17 printf("restarting\n"); 
18 

19 while(1) { 

2C Sleep(1); 

21 printf ("processing... \n"); 
22 } 

23 exit (0); 

24 3} 


code/ecf/restart.c 
8.35 SHAWA ctrl-c 时 ， 一 个 使 用 非 本 地 跳 转 来 重启 动 它 本 身 的 程序 


在 程序 第 一 次 启动 时 ， 对 sigsetimp 函数 的 初始 调用 保存 了 栈 和 信和 号 的 上 下 文 。 随 后 ， 主 函数 进 
入 一 个 无 限 处 理 循 环 。 当 用 户 键入 ctrl-c 时 ，shell 发 送 一 个 SIGINT 信和 号 给 这 个 进程 ， 该 进程 捕获 
这 个 信号 。 不 是 从 信号 处 理 程 序 返回 ， 此 时 信和 号 处 理 程序 会 将 控制 返回 给 被 中 断 的 处 理 循环 ， 取 而 
代 之 的 是 ， 处 理 程序 执行 一 个 非 本 地 跳 转 ， 同 到 main 函数 的 开始 处 。 当 我 们 在 系统 上 运行 这 个 程序 


548 第 8 章 


unix> ./restart 

starting 

processing... 

processing... 

restarting user hits ctrl-c 
processing.. 

restarting User hits ctrl-c 
processing... 


旁 注 ，C++ 和 Java 中 的 软件 异常 

C++ 和 Java 提供 的 开 常 机 制 是 较 高 层次 的 ,是 C 的 setjmp # longjmp 总 数 的 更 加 结构 化 的 版 本 
你 可 以 把 try 语句 中 的 catch 子 多 看 做 是 setjmp 函数 的 类 似 物 . 相似 地 , throw 语句 就 类 似 于 longjmp 
函数 ， 


8.7 ”操作 进程 的 工具 


Unix 系统 提供 了 大 量 的 监控 和 操作 进程 的 有 用 工具 : 

strace: 打印 一 个 程序 和 它 的 子 进程 调用 的 每 个 系统 调用 的 轨迹 。 对 于 好 奇 的 学 生 而 言 , 这 是 一 
个 令 人 着 迷 的 工具 。 用 -static 编译 你 的 程序 ， 能 得 到 一 个 更 清楚 的 轨迹 ， 而 不 带 有 大 量 与 共享 库 相 
关 的 输出 ， 

ps: 列 出 系统 中 当前 的 进程 (包括 伟 死 进程 )， 

top: 打印 出 关于 当前 进程 资源 使 用 的 信息 。 

kil: 久 送 一 个 信号 给 进程 。 对 于 调试 带 信和 号 处 理 程序 的 程序 以 及 清除 难以 琢磨 的 进程 是 非常 有 
FA. 

[proc (Linux 和 Solaris): 一 个 虚拟 文件 系统 ， 以 ASCH 文本 格式 输出 大 量 内 核 数 据 结 构 的 内 
容 ， 用 户 程 序 可 以 读 取 这 些 内 容 。 比 如 ， 输 入 “cat /proc/loadavg”， 观 察 在 你 的 Linux 系统 上 当前 的 


8.8 人 小结 


开 曾 控制 流 发 生 在 计算 机 系统 的 各 个 层次 。 在 硬件 层 ， 异 常 是 由 处 理 器 中 的 事件 触发 的 控制 流 
中 的 突变 ， 控 制 流 传递 给 一 个 软件 处 理 程序 ， 该 处 理 程序 进行 一 些 处 理 ， 然 后 返回 控制 给 被 中 断 的 
控制 流 。 

有 四 种 不 同类 型 的 异常 ， 中 断 、 故 障 、 终 止 和 陷阱 。 当 一 个 外 部 的 WO 设备 ， 例 如 定时 器 芯片 
或 者 一 个 磁盘 控制 器 , 设置 了 处 理 器 芯片 上 的 中 断 管 脚 时 ，( 对 于 任意 指令 ) 中 断 会 异步 地 发 生 。 控 
制 返回 到 中 断 指令 “的 下 一 条 指令 。 执 行 一 条 指令 可 能 导致 故障 和 终止 的 发 生 。 故 障 处 理 程序 会 重 
新 开始 故障 指令 ， 而 终止 处 理 程序 从 不 将 控制 返回 给 被 中 断 的 流 。 最 后 ， 陷 阱 就 像 是 用 来 实现 系统 
调用 的 函数 调用 ， 系 统 调用 提供 给 应 用 到 操作 系统 代码 的 受 控 入 口 点 。 


2 原文 为 故障 指令 。 一 一 译 者 
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在 操作 系统 层 ， 内 核 提供 关于 一 个 进程 的 基础 性 概念 。 一 个 进程 提供 给 应 用 两 个 重要 的 抽象 ; 
山 逻 辑 控制 流 ， 它 提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 处 理 器 : @ 私 有 地 址 空间 ， 它 
提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 主 存 。 

在 操作 系统 和 应 用 之 间 的 接口 处 ， 应 用 可 以 创建 子 进程 ， 等 竺 它们 的 子 进 程 暂停 或 者 终止 ， 运 
行 新 的 程序 ， 并 捕 提 来自 其 他 进程 的 信号。 信号 处 理 的 语义 是 微妙 的 ， 并 且 随 系统 不 同 而 不 同 。 然 
而 ， 在 与 Posix 兼容 的 系统 上 存在 着 一 些 机 制 ， 允 许 程序 清楚 地 指定 期 望 的 信号 处 理 语义 。 

最 后 ， 在 应 用 层 ，C 程序 可 以 使 用 非 本 地 跳 转 来 规避 正常 的 调用 /返回 栈 规则 ， 并 且 直 接 从 一 个 
函数 分 文 到 另 一 个 函数 。 


参考 文献 说 明 

Intel 微 体 系 结构 规范 包含 对 Intel 处 理 器 上 的 天 营 和 中 断 的 详细 讨论 [18]。 操作 系统 教科 书 [70， 
75，83] 包 括 关 于 寞 常 、 进 程 和 信号 的 其 他 信息 。Stevens 的 经 典 著 作 [76]， 虽 然 有 点 过 时 了 , 但 是 仍 
然 包 含 一 些 有 价值 的 和 可 读 性 很 高 的 描述 ， 是 关于 如 何在 应 用 程序 中 处 理 进程 和 信和 号 的 。 


家 庭 作 业 

88 © 

在 这 一 章 里 ， 我 们 介绍 了 一 些 有 不 寻常 的 调用 和 返回 行为 的 函数 : setimp. longjmp. execve 和 
fork。 找 到 下 列 行 为 中 和 每 个 函数 相 匹 配 的 一 种 : 

A. 调用 一 次 ， 返 回 两 次 。 

B. 调用 一 次 ， 从 不 返回 。 

C. 调用 一 次 ， 返 回 一 次 或 者 多 次 。 


8.9 © 
下 面 程序 的 可 能 的 输出 是 什么 ? 
code/ecf/forkprob3.c 
1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 int x = 3; 
6 
7 if {Fork() != 0) 
8 printf("x=%d\n", +4+4x); 
9 
10 printf ("x=¢d\n", --x); 
11 exit(d); 
12 } 
code/ecf/forkprob3.c 
8.10 © 


下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 
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code/ecf/forkprobS.c 


1 #include "csapp.h" 
2 
3 void doit() 
4 { 
5 if (Fork() == 0) { 
6 Fork (); 
7 print£("*hello\n"); 
8 exit (0); 
9 } 
10 return; 
11 } 
12 
13 int main() 
14 { 
15 doit(); 
16 printf£("hello\n"); 
17 exit (0),; 
18 } 
code/ecf/forkprob5.c 
8.11 © 
下 和 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 
code/ecf/forkprob6.c 

1 # include "csapp.h" 
2 
3 void doit() 
4 { 
5 if {Fork() == 0) { 
6 Fork(); 
7 printfi*hello\n"); 
B return; 
9 } 
10 return; 
11 } 
12 
13 int main() 
14 { 
15 doit(); 
16 printf ("hello\n"); 
17 exit(0); 
18 } 


code/ecfforkprobG.c 


8.12 ¢ 
下 面 这 个 程序 的 输出 是 什么 ? 
1 #include "csapp.h" 
2 int counter = 1; 
3 
4 int main() 
5 { 
6 if (fork() == 0) { 
7 counter--; 
8 exit (0); 
9 } 
10 else { 
11 Wait (NULL); 
12 printf ("counter = %$d\n", 
13 } 
14 exit (0); 
15 } 
8.13 ©% 
列举 练习 题 8.4 中 程序 所 有 可 能 的 输出 。 
8.14 命令 
考虑 下 面 的 程序 ， 
1 #include "csapp.h" 
2 
3 void end(void) 
4 { 
5 printf ("2"); 
6 } 
7 
8 int main() 
9 
10 if (Fork() == 0) 
11 atexit (end); 
12 1f (Fork() == 0) 
13 printf("0"); 
14 else 
15 print£("1"); 
16 exit(0); 
17 } 
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++counter) ; 
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code/ecf/forkprob7.c 


code/ecf/forkprab7.c 


code/ecf/forkprob2.c 


oo code lec ffforkprob?.c 
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判断 下 面 哪个 答 出 是 可 能 的 。 注 意 : atexit 水 数 以 一 个 指向 函数 的 指针 为 输入 ， 并 将 它 添加 到 消 
数列 表 中 《初始 为 空 )， 当 exit 函数 被 调用 时 ， 会 调用 该 列表 中 的 沙 数 。 

A. 112002 

B. 211020 

C. 102120 

D. 122001 

E. 100212 


8.15 依依 

使 用 execve 编写 一 个 叫做 myls 的 程序 ， 该 程序 的 行为 和 mhbimls 程序 的 一 样 。 你 的 程序 应 该 接 
受 相同 的 命令 行 参数 ， 解 释 同 样 的 环境 变量 ， 并 产生 相同 的 输出 。 

is 程序 是 从 COLUMNS 环境 变量 中 获悉 屏 桥 的 宽度 的 。 如 果 没 有 设置 COLUMNS, WMA js 会 
假设 屏幕 宽 80 列 。 因 此 ， 你 可 以 通过 把 COLUMNS 环境 设置 得 小 于 80， 来 检查 你 对 环境 变量 的 处 
H. 


unix> setenv COLUMNS 40 
unlx> ./myis N 
. output is 40 columns wide 
unix> unsetenv COLUMNS 
unlix> ./myls 
. output is now 80 columns wide 
8.16 OO 
BAR 8.15 中 的 程序 ， 以 满足 下 面 两 个 条 件 ; 
1. 每 个 子 进程 在 试图 写 一 个 只 读 文 本 段 中 的 位 置 时 会 异常 终止 。 
2. 父 进 和 三 打印 和 下 面 所 示 相 同 〈 除 了 PID) 的 输出 : 
child 12255 terminated by signal 11: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 


提示 : 请 参考 wait(2) 和 psignal(3) 的 man 页 。 

8.17 000 

编写 你 上 自己 版 本 的 Unix system 函数 : 

int mysystem(char *command) ; 

mysystem PA Ci WV HY “/bin/sh -c command” KHT command， 然 后 在 command 完成 后 返回 。 
UR command 正常 退出 (通过 调用 exit 函数 或 者 执行 一 个 retum 语句 ), 那么 mysystem 返回 command 
的 退出 状态 。 比 如 ,如 果 command 通过 调用 exit(8) 终 止 , 那 么 mysystem 返回 值 8。 否 则 ,如 果 command 
Jef it, ASA mysystem 返回 由 shell 返回 的 状态 。 

8.18 ¢ 

你 的 一 位 同事 正在 考虑 使 用 信和 号 来 允许 一 个 父 进 程 计算 子 进 程 中 发 生 的 事件 数 。 基 本 思路 是 每 
次 一 个 事件 发 生 时 ， 通 过 发 送 一 个 信号 来 通知 父 进程 ， 并 且 让 父 进程 的 信号 处 理 程序 增加 全 局 变量 


异常 控制 流 


553 


counter， 父 进程 随后 可 以 在 子 进程 终止 时 检测 该 变量 。 然 而 ， 当 在 系统 上 运行 图 8.36 中 的 测试 程序 
时 ， 他 发 现 当 父 进程 调用 printf AY, counter 总 是 保持 一 个 值 2， 即 使 是 子 进程 已 经 发 送 了 5 个 信和 号 


给 父 进程 。 带 着 困惑 ， 他 来 向 你 求助 。 你 能 解释 一 下 这 个 程序 有 什么 错误 吗 ? 


#include "csapp.h" 


int counter = 0; 


{ 
counter++; 
sleep(1); /* do some work in the handler */ 
9 return; 


1 
2 
3 
4 
5 void handler (int sig) 
6 
7 
8 


10 } 
11 
12 int main() 
13 { 
l4 int i; 
15 
16 Signal (SIGUSR2, handler); 
18 if (Fork() == 0) { /* child */ 
19 for (i = 0; i < 5; i++) { 
20 Kill(getppid(), SIGUSR2); 
21 printf ("sent SIGUSR2 to parent\n"); 
22 } 
23 exit (0); 
24 } 
25 
26 Wait (NULL); 
27 printf ("counter=%d\n", counter); 
28 exit (0); 
29 } 
8.36 8.18 中 引用 的 技术 程序 
8.19 %0 o 


code/ecf/counterprob.c 


code/ecf/counterprob.c 


编号 fgets 图 数 的 一 个 版 本 ， 叫 做 tfgets， 它 5 秒 钟 后 会 超时 tfeets 函数 接收 和 fgets 相同 的 输 
Ao WRAP E 5 秒 内 不 键入 一 个 输入 行 , tfgets 返回 NULL. 否则 , 它 返 回 一 个 指向 输入 行 的 指针 。 


8.20 0009 


以 图 8.20 中 的 示例 作为 开始 点 ， 编 写 一 个 支持 作业 控制 的 shell 程序 。 你 的 shell 必须 具有 以 下 


特性 : 
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用 户 输入 的 命令 行 由 一 个 name、 零 个 或 者 多 个 参数 组 成 ， 所 有 的 都 是 由 一 个 或 者 多 个 空格 
a} RITA). WR name 是 一 个 内 置 命令 ， 那 么 shell 就 立即 处 理 它 ， 并 等 待 下 一 个 命令 行 ， 
UW, shell 就 假设 name 是 一 个 可 执行 的 文件 ， 在 一 个 初始 的 子 进程 (作业 ) 的 上 下 文中 加 
载 并 运行 它 。 作 业 的 进程 组 ID 与 子 进 程 的 PID 相同 。 

每 个 作业 是 由 一 个 进程 ID (PID) 或 者 一 个 作业 ID CID) 来 标识 的 ， 它 是 由 一 个 shell 分 
配 的 小 的 任意 正 整数 。JID 在 命令 行 上 用 前 缀 “%” 来 表示 。 比如,“%5” 表 示 JID5, 而 “5” 
表示 PID 5. 

OR a ST RRR 
Mb. 

输入 ctrl-c (ctrl-z)， 使 得 shell 发 送 一 个 SIGINT (SIGTSTP) 信和 号 给 前 台 进 程 组 中 的 每 个 进 
程 。 

A Ain jobs 列 出 所 有 的 后 台 作 业 。 

内 站 命令 bg <job> 通 过 发 送 一 个 SIGCONT 信和 号 重启 
可 以 是 一 个 PID， 也 可 以 是 一 个 JID。 

A ean fg <job> 通 过 发 送 一 个 SIGCONT 信和 号 重启 <job>， 然 后 在 前 台 运 行 它 。 

shell 回收 它 所 有 的 僵 死 子 进程 。 如 果 任 何 作 业 因 为 它 收 到 一 个 未 捕捉 的 信和 号 而 终止 ， 那 么 


那么 shell 就 在 后 台 运 行 这 个 作业 ， Ail, shell 在 前 台 运 行 这 个 作 


<job>， 然 后 在 后 台 运 行 <job> 参 数 


shell 束 输 出 一 条 信息 到 终 


图 8.37 展示 了 一 个 示例 的 shell 会 话 。 


unix> ./shell 
> bogus 
bogus: 
> foo10 


Job 5035 terminated by signal: 


> foo 100 & 

[1] 5036 foo 100 & 
> foo 200 & 

[2] 5037 foo 200 & 
> jobs 

[1] 
[2] 5037 Running 
> fe %l 
Job [1] 
> Jobs 

[1] 5036 
[2] 5037 
> bg 5035 
5035: No 
> bg 5036 
[1] 5036 foo 100 & 
> /bin/kill 5036 


9036 Running foo 


foo 
5036 stopped by 


stopped foo 


Running foo 


Such process 


Job 5036 terminated by signal: 


Command not found. 


Run your shell program 


Interrupt 


100 & 
200 & 
Signal: Stopped 


100 & 
200 & 


Terminated 


tn, ELS PEMA) PID 和 对 违规 信号 的 描述 。 


Execve can’t find executable User types ctrl-c 


User types ctrl-z 
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> Ig %2 Wait for fe job to finish. 
> quit 
unix> Back to the Unix shell 


8.37 习题 8.20 的 shell 交互 示例 
练习 题 答案 


练习 题 8.1 答案 

在 我 们 图 8.13 中 的 示例 程序 中 ， 父 子 进程 执行 无 关 的 指令 集合 。 然 而 ， 在 这 个 程序 中 ， 父 子 进 
程 执行 的 指令 集合 是 相关 的 ， 这 是 有 可 能 的 ， 因 为 父子 进程 有 相同 的 代码 段 。 这 会 是 一 个 概念 上 的 
障碍 ， 所 以 请 确认 你 理解 了 本 题 的 答案 。 

A. 子 进程 的 输出 是 什么 ? 这 里 的 关键 点 是 子 进程 执行 了 两 个 printf 语句 。 在 fork 返回 之 后 ， 
它 执行 了 第 8 行 的 printf。 然 后 它 从 证 语句 中 出 来 ,执行 了 第 9 行 的 printf 语句 。 下 面 是 子 进程 产生 
的 输出 : 

printfl: x=2 

printf{2: x=1 

B. 父 进程 的 输出 是 什么 昵 ? 父 进程 只 执行 了 第 9 行 的 printf: 

orintf£2: x=0 

练习 题 8.2 答案 


这 个 程序 和 图 8.14 Cc) 中 的 程序 有 相同 的 进程 图 。 一 共有 四 个 进程 ,每 个 打印 一 个 “helio” 行 。 
因此 ， 程 序 打 印 四 个 “helljo” 行 。 


练习 题 8.3 答案 

这 个 程序 和 图 8.14(c) 有 相同 的 进程 图 。 一 共有 四 个 进程 ， 每 个 输出 一 个 单独 的 “helio” 行 在 
doit F, 并 且 在 它 从 doit 返回 后 也 在 main 中 输出 一 个 “hello” 行 ,因此 ,这 个 程序 就 一 共有 八 个 “hello” 
行 输出 。 


练习 题 8.4 答案 

A. 每 次 我 们 运行 这 个 程序 ， 就 会 产生 六 个 输出 行 。 

B. 输出 行 的 顺序 根据 系统 不 同 而 不 同 ， 取 决 于 内 核 如 何 交 替 执 行 父子 进程 的 指令 。 一 般 而 言 ， 
下 图 的 任意 拓扑 排序 都 是 有 效 的 顺序 : 


_ rr 4 tF +3 for sre 
> 0 > 2 > Bye 父 进 程 


=--> 1 ‘14 F -> k ‘Bye’ F 子 进 程 


比如 ， 当 我 们 在 系统 上 运行 这 个 程序 时 ， 会 得 到 下 面 的 输出 ， 


unix> ./waitprobi 
Hello 
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在 这 种 情况 中 ， 父 进程 首先 运行 ， 在 第 8 行 打印 “Hello”， 在 第 10 行 打印 “0”。 对 wait 的 调用 
会 阻塞 ， 因 为 子 进程 还 没有 终止 ， 所 以 内 核 热 行 一 个 上 下 文 切换 ， 并 将 控制 传递 给 子 进 程 ， 子 进程 
在 第 10 行 打印 “1”， 在 第 16 行 打印 “Bye”， 然 后 在 第 17 行 终止 ， 退 出 状态 为 2。 在 子 进程 终止 
后 ， 父 进程 继续 ， 在 第 14 行 打印 子 进程 的 退出 状态 ， 在 第 16 行 打印 “Bye”。 


练习 题 8.5 答案 


code/ecf/snooze.c 


1 unsigned int snooze (unsigned int secs) { 
2 unsigned int re = sleep (secs); 
3 printf ("Slept for %u of %u secs.\n", secs - rc, secs); 
4 return rc; 
5 } 
code/ecf/snooze.c 
练习 题 8.6 答案 
code/ecf/myecho.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char *argv[], char *envp[]) 
4 { 
5 int i; 
6 
7 orintf("Command line arguments:\n"); 
8 for (1=0; argv[i] != NULL; i++) 
9 printf (" argv([$2d]: s\n", i, argv[i]); 
10 
11 printf("\n"); 
12 printf("Environment variables:\n"): 
13 for (1=0; envp[i] != NULL; i++) 
14 printf(" envp(%$2d]: s\n", i, envp[il]); 
15 
16 exit (0); 
17 
code/ecf/myecho.c 
练习 题 8.7 答案 


只 要 休眠 进程 收 到 一 个 未 被 忽略 的 信号 , sleep 函数 就 会 提前 返回 。 但 是 , 因为 收 到 一 个 SIGINT 
信号 的 默认 行为 就 是 终止 进程 (图 8.23)， 我 们 必须 设置 一 个 SIGINT 处 理 程序 来 允许 sleep 函数 返 
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上 回 。 处 理 程序 简单 地 捕 提 SIGNAL， 并 将 控制 返回 给 sleep ARM, HRMS Ww WRIA. 


code/ecf/snooze.c 


1 #include "csapp.h" 

2 

3 /* SIGINT handler */ 

4 void handler (int sig) 

5 { 

6 return; /* catch the signal and return */ 

7 ] 

8 

9 unsigned int snoozefunsigned int secs) { 

10 unsigned int rc = sleep(secs) ; 

11 printf("Slept for %u of %u secs.\n", secs - re, secs); 
12 return rc; 

13 } 

14 

15 int main(int argc, char **argv) { 

16 

17 1f (argc != 2) { 

18 fprintf(stderr, "usage: $s <secs>\n", argv[0]}); 
19 exit (0); 

20 } 

21 

22 if (signal(SIGINT, handler) == SIG_ERR) /* install SIGINT handler */ 
23 unix_error(“signal error\n"); 

24 (void) snooze (atoi(argv[1})); 

25 exit (0); 

26 } 


code/ecf/snooze.c 


HAPTER 
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人 们 经 常 问 的 一 个 问题 是 : “程序 X 在 机 器 Y 上 运行 得 有 多 快 ? ”一 -个 试图 优化 程序 性 能 的 各 
序 员 ， 或 者 一 个 想 要 决定 买 哪 台 机 器 的 顾客 ， 可 能 会 提出 这 样 的 问题 。 在 我 们 前 面 对 性 能 优化 的 讨 
论 中 (第 5 章 )， 我 们 假设 能 够 非常 准确 地 回答 这 个 问题 。 我 们 试图 把 程序 的 CPE (每 元 素 的 周期 
SO 测量 值 精确 到 小 数 点 后 两 位 。 对 一 个 CPE 为 10 的 过 程 ， 这 要 求 精 确 度 为 0.1%。 在 本 章 中 ， 我 
们 会 讲述 这 个 问题 ， 并 会 发 现 它 是 非常 复杂 的 。 

你 可 能 会 以 为 在 计算 机 系统 上 获得 几 近 完美 的 计时 测量 会 很 简单 。 毕 竟 ， 对 于 某 个 称 序 和 数据 
的 组 合 ， 机 器 会 执行 固定 的 指令 序列 。 指 令 的 执行 是 由 处 理 器 时 钟 控制 的 ， 而 处 理 器 时 钟 是 由 精度 
振荡 器 控制 的 。 不 过 ， 一 个 程序 的 执行 与 另 一 个 程序 的 执行 之 间 有 许多 因素 是 不 同 的 。 计 算 机 并 不 
问 时 只 执行 一 个 程序 。 它 们 不 停 地 从 一 个 进程 切换 到 另 一 个 ， 为 一 个 进程 执行 一 些 代 码 ， 然 后 每 移 
到 下 一 个 进程 。 对 一 个 程序 的 处 理 器 资源 的 准确 调度 依赖 于 这 样 一 些 因 素 ， 例 如 共享 系统 的 用 户 数 
量 、 网 络 流量 和 对 磁盘 操作 的 计时 。 对 高 速 缓存 的 访问 模式 不 仅仅 依赖 于 我 们 正在 试图 测量 的 程序 
的 引用 ， 还 依赖 于 同时 正在 执行 的 其 他 进程 。 最 后 ， 分 支 预 测 有 逻辑 会 根据 以 往 的 历史 猜测 是 否 会 选 
择 分 文 。 一 个 程序 每 次 执行 的 历史 都 不 相同 。 

住 本 章 中 , 我 们 描述 计算 机 用 来 记录 和 时间 流逝 的 两 种 基本 机 制 : 一 种 基于 低频 率 计 时 器 (timer)， 
它 会 周期 性 中 断 处 理 器 ， 另 一 种 基于 计数 器 (counter)， 每 个 时 钟 周期 计数 器 会 加 1。 应 用 程序 的 各 
序 员 可 以 通过 调用 库 函 数 获得 对 前 一 种 计时 机 制 的 访问 。 有 些 系统 上 ， 可 以 通过 库 明 数 访问 周期 计 
AY ae (cycle timer)， 但 是 有 些 系 统 上 需要 编写 汇编 代码 。 我 们 将 程序 计时 推迟 到 现在 才 计 论 ， 是 因 
为 程序 计时 需要 理解 CPU 硬件 和 操作 系统 管理 进程 执行 的 方式 。 

使 用 这 两 种 计时 机 制 ， 我 们 来 研究 获得 程序 性 能 的 可 靠 测量 值 的 方法 。 我 们 会 看 到 ， 由 于 上 下 
文 切换 引起 的 计时 变化 会 非常 大 ， 因 此 必须 消除 。 由 其 他 因素 引起 的 变化 ， 例如 融 速 缓存 和 分 支 撰 
测 ， 通 常 是 通过 在 精心 控制 的 条 件 下 执行 程序 操作 来 管理 的 。 一 般 来 说 ， 我 们 可 以 获得 对 于 非常 短 

(小 于 大 约 10ms ) 或 者 非常 长 (大 于 大 约 1s) 的 时 间 段 的 准确 测量 值 ， 即使 是 在 负载 很 重 的 机 器 
Eo 10ms~1s 之 间 的 时 间 要 想 准确 测量 需要 特殊 的 处 理 。 

许多 对 性 能 测量 的 理解 都 是 计算 机 系统 传说 的 一 部 分 。 不 同 的 小 组 和 个 人 开发 了 他 们 白 己 的 测 
量程 序 性 能 的 技术 ， 但 是 关于 这 个 主题 没有 广泛 流传 的 文献 。 那些 专业 性 能 测量 的 公司 和 研究 组 ， 
常常 建立 特殊 配置 的 机 器 ,使 得 造成 计时 不 规则 的 来 源 最 少 , 例如 ， 通过 限制 访问 或 者 关 掉 许 多 OS 
和 网 络 服务 。 我 们 希望 能 有 程序 员 在 普通 机 器 上 就 能 使 用 的 方法 ， 但 是 没有 这 样 的 广泛 可 获得 的 工 
上 共 。 所 以 ， 我 们 会 开发 我 们 自己 的 工具 。 

在 这 里 的 描述 中 ， 我 们 会 系统 地 讲述 这 些 问题 。 我 们 描述 大 量 实验 的 设计 和 评价 ， 这 些 实 验 帮 
助 我 们 获得 在 一 规模 系统 上 取得 准确 测量 的 方法 。 住 一 本 这 个 层次 的 书 中 找到 详细 的 实验 研究 还 是 
不 太 常 见 的 。 通 常 ， 人 们 只 想 要 最 后 的 答案 ， 而 不 想 知 道 是 怎样 确定 这 些 答案 的 。 不 过 ， 在 这 里 ， 
对 于 如 何在 任意 系统 上 测量 任意 程序 的 执行 时 间 ， 我 们 不 能 提供 确定 的 答案 。 有 太 多 的 计时 机 制 、 
操作 系统 行为 和 运行 时 环境 ， 不 可 能 有 一 个 惟一 的 、 简 单 的 解决 方案 。 相 反 ， 我 们 期 望 你 和 白 己 做 实 
验 ， 开 发 你 自己 的 性 能 测量 代码 。 我 们 希望 我 们 的 案例 研究 能 帮助 你 完成 这 项 任务 。 我 们 把 我 们 的 
发 现 以 协议 的 形式 总 结 出 来 ， 它 能 够 指导 你 的 实验 。 


TT rp 
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9.1 计算 机 系统 上 的 时 间 流 


计算 机 是 在 两 个 完全 不 同 的 时 间 尺 度 (time scale) 上 工作 的 。 在 微观 级 别 ， 它 们 以 每 个 时 钟 周 
期 一 条 或 多 条 指令 的 速度 执行 指令 ， 这 里 每 个 时 钟 周期 只 需要 大 约 Ins (AD) 或 者 10's. CEM 
尺度 上 ， 处 理 器 必须 响应 外 部 事件 ， 外 部 事件 发 生 的 时 间 尺 度 要 以 ms (毫秒 ) 或 者 107s 来 度量 。 
例如 ， 在 视频 播放 时 ， 大 多 数 计 算 机 的 图 形 显示 器 必须 每 33ms 刷新 一 次 。 保 持 世 界 记 录 的 打字 员 
敲 键 盘 的 速度 也 只 能 是 大 约 每 50ms 一 次 击 键 。 磁 盘 通 常 需要 大 约 10ms 来 甩 动 一 次 磁盘 传送 。 在 
宏观 时 间 尺 度 上 ， 处 理 器 不 停 地 在 许多 任务 之 间 切 换 ， 一 次 分 配给 每 个 任务 大 约 5 一 20ms。 以 这 样 
的 速度 ， 用 户 感觉 上 任务 是 在 同时 进行 的 ， 因 为 和 人 不 能 够 察觉 短 于 大 约 100ms 的 时 间 段 。 在 这 段 时 
同 内 ， 处 理 絮 可 以 执行 几 百 万 条 指令 。 

图 9.1 在 对 数 尺 度 上 男 出 了 各 种 事件 类 型 的 持续 时 间 ,微观 事件 的 持续 时 间 以 ns 为 单位 ,( 大 ) 
宏观 事件 的 符 续 时 间 以 ms 为 单位 .( 小 ) 宏 观 事 件 是 由 OS 例 程 来 管理 的 ,需要 大 约 5 000 一 200 000 
个 时 钟 周 期 。 这 些 时 间 范 围 是 以 us 来 测量 的 〈 微 秒 ， 这 里 hp 是 希腊 字符 “mu”)。 昕 上 去 好 像 是 很 
多 的 计算 ， 但 是 它 比 处 理 《 大 〉 宏 观 事 件 要 快 很 多 ， 以 至 于 这 些 例 程 只 给 处 理 器 增加 了 少量 的 负 
x. | 


Pf la] RAE C1 GHz 的 机 器 ) 


微观 的 宏观 的 
整数 加 法 磁盘 访问 
FP 乘法 eaten 屏幕 刷新 
Ins 1 ps 1 ms 1s 
1.E—09 1.E-—06 1.E-03 1.E+00 


时 间 (seconds ) 


图 9.1 计算 机 系统 事件 的 时 间 尺 度 

处 理 器 硬件 在 微观 时 间 尺 度 上 工作 ， 在 这 个 级 别 上 事件 的 持续 时 间 都 是 几 ns 量 级 的 。OS 必须 以 宏观 时 间 尺 度 来 处 理 持续 时 
TA JL ms 量 级 上 的 事件 。 

练习 题 9.1 

当 用 户 用 EMACS 这 样 的 实时 编辑 器 来 编辑 文件 时 ， 每 次 击 键 都 产生 一 个 中 断 信 号 。 然 后 ， 操 
作 系 统 必须 调度 编辑 器 进程 ， 对 这 次 击 键 采取 适当 的 行动 。 假 设 我 们 有 一 个 时 钟 为 1 GHz 的 系统 ， 
而 我 们 有 100 个 用 户 在 运行 EMACS， 他 们 以 每 分 钟 100 个 单词 的 速度 输入 。 假设 每 个 单词 平均 有 6 
个 字符 。 还 假设 处 理 击 键 的 OS 例 程 平均 需要 100 000 个 时 钟 周 期 / 键 。 对 所 有 这 些 击 键 的 处 理 占 用 
了 处 理 加 负载 的 百 分 之 多 少 ? 


注意 ， 这 是 对 键盘 使 用 造成 的 负载 非常 翡 观 的 分 析 。 很 难 想像 现实 生活 中 有 这 人 么 多 输入 如 此 快 
的 用 户 ，。 


1 原文 并 没有 区 分 《大 〉 宏 观 级 别 和 (小 〉 宕 观 级 别 ， 这 样 理解 本 段 将 很 困难 。 一 一 译 者 
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度 程 序 得 以 运行 ， 可 能 还 会 切换 到 另 一 个 进程 。 即 使 没有 这 样 的 事件 ， 我 们 也 希望 处 理 器 从 一 个 进 
程 切换 到 为 一 个 ， 这 样 用 户 看 上 去 就 好 像 处 理 噩 在 同时 执行 许多 程序 一 样 。 出 于 这 个 原因 ， 计 算 机 
有 一 个 外 部 计时 堪 ， 它 周期 性 地 问 处 理 嚣 发送 中 断 信 和 号。 这 些 中 朵 信号 之 间 的 时 间 被 称 为 间隔 时 间 
Cinterval time )。 汉 计时 器 中 岂 发 生 时 ， 操 作 系 统 调 度 程 序 可 以 选择 要 么 继续 当前 正在 执行 的 进程 ， 
要 么 切换 到 另 一 个 进程 。 这 个 间隔 必须 设置 得 足够 短 ， 以 保证 处 理 器 在 任务 间 切 换 得 足够 频繁 ， 能 
够 提供 在 同时 执行 多 个 任务 的 假象 。 男 一 方面 ， 从 一 个 进程 切换 到 另 一 个 进程 需要 几 千 个 时 钟 周 期 
来 保存 当前 进程 的 状态 ， 并 且 为 下 一 个 进程 准备 好 状态 ， 因 此 将 间隔 设置 得 太 短 会 导致 性 能 很 差 。 
根据 处 理 器 以 及 处 理 器 的 配置 情况 ， 典 型 的 计时 器 间隔 范围 是 1 ~~ 10ms. 
旁 注 ， 计 算 机 性 能 的 伸缩 

将 Digital Equipment Corporation 的 VAX-11/780 计算 机 的 性 能 比喻 成 一 个 现代 处 理 器 ， 这 是 很 
有 意思 的 。 这 种 机 器 是 在 1977 年 出 现 的 ， 每 台 售 价 大 约 是 200 000 美元 。 它 成 为 第 一 种 被 广泛 使 用 
的 运行 Unix 操作 系统 的 机 器 . 注意 ,这 种 机 器 上 的 计时 器 间隔 典型 地 被 设置 为 10ms, 即使 它 的 CPU 
比 现代 机 器 的 CPU RT 1 000 倍 。 虽 然 微 观 时 间 尺 度 变 化 得 飞快 ， 但 是 宏观 时 间 尺 度 并 没有 改变 太 
$. 


图 9.2 (a) 从 系统 的 角度 说 明了 在 计时 器 间隔 为 10ms 的 系统 上 一 个 假设 的 150ms 的 操作 。 在 
这 段 时 间 内 有 了 遇 个 活动 的 进程 : A 和 B。 处 理 器 交替 地 执行 进程 A 的 一 部 分 ， 然 后 再 执行 B 的 一 部 
分 ， 依 此 类 推 。 当 处 理 器 执行 这 些 进程 时 ， 它 要 么 运行 在 用 户 模式 ， 执 行 应 用 程序 的 指令 ， 要 么 运 
行 在 内 核 模式 ， 代 表 程 序 执行 操作 系统 本 数 ， 例 如 处 理 缺 页 、 输 入 或 者 输出 。 回 想 一 下， 内核 操作 
饮 认 为 是 每 个 普通 进程 的 一 部 分 ， 而 不 是 一 个 独立 的 进程 。 每 次 有 外 部 事件 或 者 计时 器 中 渐 时 ， 痢 
会 调用 操作 系统 调度 程序 。 在 图 中 ， 计 时 器 中 断 的 发 生 是 由 短线 标记 来 表示 的 。 这 意味 着 在 每 个 短 
线 标 已 处 都 有 一 些 内 核 活动 ， 但 是 为 了 简便 ， 在 图 中 我 们 没有 显示 。 

(a) 系统 角度 


FAP 
AL cn Sie 


(b) 应 用 A 的 角度 
| |] 活动 的 
Ce a 
图 9.2 系统 和 应 用 对 时 间 的 看 法 
系统 从 “个 进程 切换 到 另 -个 进程 ， 这 些 进 程 运行 在 用 户 模 式 或 者 内 核 模式 。 当 应 用 的 进程 在 用 户 模 式 中 执行 时 ， 应 用 才能 
完成 有 用 的 计算 。 

当 调 度 程 序 从 进程 A 切换 到 进程 B 时 ， 它 必须 进入 内 核 模式 保存 进程 A 的 状态 〈 仍 被 认为 是 
进程 A 的 一 部 分 )， 然 后 恢复 进程 B 的 状态 (被 认为 是 进程 B 的 一 部 分 )。 因 此 ， 在 每 次 从 一 个 进 
程 过 渡 到 为 一 个 进程 期 间 ， 是 有 内 核 活 动 的 。 在 其 他 时 候 ， 也 有 除了 切换 进程 之 外 的 内 核 活动 ， 例 
如 当 通 过 使 用 一 个 已 经 在 存储 器 (memory) 中 的 页 来 满足 缺 页 时 。 
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从 应 用 程序 的 角度 出 发 , 可 以 把 时 间 流 看 成 两 种 时 间 段 的 交 蔡 , 一 种 时 间 段 里 程序 是 活动 的 (在 
执行 它 的 指令 )》， 另 一 种 时 间 段 里 程序 是 不 活动 的 《等 竺 被 操作 系统 调度 )。 当 应 用 的 进 竹 运 行 在 用 
户 模式 中 时 ， 应 用 才能 执行 有 用 的 计算 。 图 9.2 (b) 说 明了 程序 A 是 如 何 看 待 时 间 流 的 。 在 深 灰 色 
区 域内 应 用 是 活动 的 ， 此 时 进程 A 正在 用 户 模式 中 执行 ;否则 它 是 不 活动 的 。 

作为 一 种 量化 在 活动 和 不 活动 时 间 段 之 间 交 替 的 方法 ， 我 们 写 了 一 个 程序 “， 它 不 断 地 监视 它 
自己 ， 确 定 什 么 时 候 有 长 的 不 活动 时 间 。 然 后 它 产生 一 个 trace (跟踪 文件 )， 显 示 出 在 活动 和 不 活 
动 时 间 段 之 间 的 交替 ， 本章 后 面 会 描述 这 个 程序 的 细节 。 图 9.3 展示 了 一 个 这 样 的 trace 示例 ， 是 在 
一 个 时 钟 周 期 大 约 为 550 MHz 的 Linux 机 器 上 运行 时 产生 的 。 每 个 时 间 段 都 标记 为 活动 的 “A”) 
或 者 不 活动 的 《I”)。 时 间 段 被 编号 为 0 一 9， 用 来 标识 。 对 于 每 个 时 间 段 ， 给 出 了 开始 时 间 〈 相 对 
于 trace 的 开始 ) 和 持续 时 长 。 以 时 钟 周 期 和 ms 来 表示 时 间 。 这 个 trace 一 共 显 示 了 20 个 时 间 段 (10 
个 活动 的 ，10 个 不 活动 的 )， 总 共 的 持续 时 间 是 66.9 ms。 在 这 个 例子 中 ， 不 活动 时 间 段 相当 短 ， 最 
长 的 是 0.50 ms。 大 多 数 不 活动 时 间 段 是 由 计时 器 中 断 半 成 的 。 被 监视 的 总 时 间 中 ， 大 约 95.1% 的 时 
间 这 个 进程 都 是 活动 的 。 图 9.4 展示 了 图 9.3 所 示 的 trace 的 图 形 化 表示 。 注 意 ， 灰 色 三 角形 指明 了 


活动 时 间 段 之 间 边 界 的 规则 间 隐 。 这 些 边界 是 由 计时 器 中 渐 造 成 的 。 


AO 


AY fel] 


0 


(0. 


00 ms), 


PES Hf HY 


3726508 (6.776448 ms) 
I0 时 间 3726508 (6.78 ms), 持续 时 间 275025 (0.500118 ms) 
Al MWR 4001533 (7.28 ms), FF LE AF [4] 0 (0.000000 ms) 
Tl 时间 4001533 (7.28 ms), 持续 时 间 7598 (0.013817 ms) 
A2 Ml] 4009131 (7.29 ms), FFÆ BHI] 5189247 (9.436358 ms) 
I2 时间 9198378 (16.73 ms), 持续 时 间 251609 (0.457537 ms) 
A3 MR] 9449987 (17.18 ms), APSE IA] 2250102 (4.091686 ms) 
I3 时 间 11700089 (21.28 ms), 持续 时 间 14116 (0.025669 ms) 
A4 ff] 11714205 (21.30 ms), FFM TET 2955974 (5.375275 ms) 
14 时 间 14670179 (26.68 ms), 持续 时 间 248500 (0.451883 ms) 
A5 AJE] 14918679 (27.13 ms), FPR A HY 5223342 (9.498358 ms) 
T5 时间 20142021 (36.63 ms), 持续 时 间 247113 (0.449361 ms) 
A6 fli] 20389134 (37.08 ms), FFA IY 5224777 (9.500967 ms) 
I6 时 间 25613911 (46.58 ms), 持续 时 间 254340 (0.462503 ms) 
A7 JÄ] 25868251 (47.04 ms), FPA TE] 3678102 (6.688425 ms) 
I7 了 时间 29546353 (53.73 ms), 持续 时 间 8139 (0.014800 ms) 
A8 Mf] 29554492 (53.74 ms), FEM BHE 1531187 (2.784379 ms) 
I8 时间 31085679 (56.53 ms), 持续 时 间 248360 (0.451629 ms) 
AQ fl 31334039 (56.98 ms), AA] 5223581 (9.498792 ms) 
I9 时 间 36557620 (66.48 ms), 持续 时 间 247395 (0.449874 ms) 
图 ?.3 显示 活动 时 间 段 的 示例 trace 


从 应 用 程序 的 角度 来 看 ， 处 理 器 操作 是 在 程序 活动 执行 《以 斜体 表示 的 ) 和 不 活动 之 间 交 替 进 行 的 。 这 个 trace 展示 了 一 个 程 
序 在 66.9 ms 时 间 段 内 两 种 时 间 段 的 日 志 记 录 。 有 95.1% 的 时 间 程 序 是 活动 的 。 


图 9.5 展示 了 一 个 trace 的 一 部 分 ， 此 时 还 有 另 一 个 活动 进程 在 共享 处 理 器 。 图 9.6 中 展示 了 这 


2 即 下 文 提 到 的 跟踪 进程 。 一 一 译 者 


564 


第 9 章 


个 trace 的 图 形 化 表示 。 注 意 ， 两 幅 图 中 的 时 间 尺 度 不 一 样 ， 因 为 我 们 显示 的 这 部 分 trace 是 从 跟踪 
进程 的 349.40 ms 处 开始 的 。 在 这 个 例子 中 ， 我 们 可 以 看 到 ， 在 处 理 某 些 计 时 器 中 渐 时 ，OS 也 会 决 


定 从 一 个 进程 切换 上 下 文 到 男 一 个 进程 。 因此， 每 个 进程 只 会 在 大 约 50% 的 时 间 里 是 活动 的 。 


图 9.4 


计时 器 中 断 是 由 灰色 三 角形 来 指示 的 。 
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这 个 问题 是 关于 图 9.5 所 示 trace 的 一 部 分 的 解释 的 。 
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时 号 
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aF] 
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时 间 
HFE] 
时 间 
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191514104 
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图 9.3 A trace 的 图 形 化 表示 

(349.40 ms), F&A] 5224961 
(358.93 ms), 持续 时 间 247557 
(359.38 ms), HAAR 858571 
(360.95 ms), 持续 时 间 8297 
(360.97 ms), dA 4357437 
(368.91 ms), Stat] 5718758 
(379.35 ms), dA] 2047118 
(383.08 ms), 持续 时 间 7153 
(383.10 ms), aR 3170650 
(388.88 ms), 持续 时 间 5726129 
(399.33 ms), dBA 5217543 
(408.85 ms), 持续 时 间 5718135 
(419.28 ms), BHM] 2359281 
(423.58 ms), 持续 时 间 7096 
(423.60 ms), dBA] 2859227 
(428.81 ms), 持续 时 间 5718793 


AIS 显示 有 负载 机 器 上 的 活动 时 间 段 的 示例 trace 
当 还 有 其 他 活动 进程 存在 时 ， 跟 踪 进程 会 较 长 时 间 不 活动 。 这 个 trace 展示 了 一 个 程序 在 总 长 为 89.8ms 的 时 间 段 内 的 日志 。 
跟踪 进程 在 53.0% 的 时 间 内 都 是 活动 的 。 


练习 题 9.2 
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A. 在 这 部 分 trace 中 ,什么 时 候 发 生 了 计时 器 中 断 ? (其 中 有 些 时 间 点 能 够 直接 从 trace 中 提取 


出 来 ， 而 有 些小 须 用 播 值 法 估计 。) 


B. 这 些 计时 器 中 断 中 ， 哪 些 是 在 跟踪 进程 活动 时 发 生 的 ， 哪 些 是 在 它 不 活动 时 发 生 的 ? 
C 为 什么 最 长 的 不 活动 时 间 段 比 最 长 的 活动 时 间 段 要 长 呢 ? 
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D. 根据 这 个 trace 中 活动 和 不 活动 时 间 段 的 模式 ， 你 预计 在 更 长 的 时 间 范 围 内 ， 跟 踪 进程 处 于 
不 活动 状态 的 时 间 百 分 比 会 是 多 少 ? 
活动 时 间 段 ， 负 载 = 2 


QO 10 20 30 40 50 60 70 80 
时 间 (ms) 


图 9.6 图 9.5 中 troce 的 活动 时 间 段 的 图 形 化 表示 
计时 器 中 断 是 由 灰色 三 角形 来 指示 的 。 


| | 活动 的 


| | 不 活动 的 


9.2 通过 间隔 计数 (interval counting) 来 测量 时 间 


操作 系统 也 用 计时 器 (timer) 来 记录 每 个 进程 使 用 的 累计 时 间 ， 这 种 信息 提供 的 是 对 程序 执行 
时 间 不 那么 准确 的 测量 值 。 图 9.7 提供 了 如 何 对 图 9.2 中 所 示 的 系统 操作 示例 进行 这 种 记 账 
(Caccounting ) 的 图 形 化 说 明 , 在 这 里 的 讨论 中 , 我 们 称 只 有 一 个 进程 在 执行 的 一 段 时 间 为 时 间 段 (time 


segment) “。 


Ca) 间隔 计时 
eT 6 T A 110 + 08 
B 70u + 30s 
hu Au Au AS Bu Bs Bu Bu Bu Bu AS Au Au Au Au Au Bs Bu Bu Bs Au An Au As As 


(b) 实际 时 间 
A TT A | A | A 120.00 + 38.38 
Ts 


| | | I | | t | ! | ! i ! i ! 
O 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 


图 9.7 通过 间隔 计数 (interval counting) 来 对 进程 计时 
计时 器 间隔 为 10ms 时 ， 每 10ms 时 间 段 被 分 配给 一 个 进程 ， 作 为 它 的 用 户 时 间 (u) 或 者 系统 时 间 〈s) 的 : -部 分 。 这 样 的 记 
IK (accounting) 提供 的 只 是 程序 执行 时 间 的 一 个 粗略 的 测量 值 。 


92.1 操作 

操作 系统 维护 着 每 个 进程 使 用 的 用 户 时 间 量 和 系统 时 间 量 的 计数 值 ， 当 计时 器 中 汤 发 生 时 ， 操 
作 系 统 会 确定 哪个 进程 是 活动 的 ， 并 且 对 那个 进程 的 一 个 计数 值 增加 计时 器 间隔 时 间 。 如 果 系 统 是 
在 内 核 模式 中 执行 的 ， 那 么 就 增加 系统 时 间 ， 否 则 就 增加 用 户 时 间 。 图 9.7 (a) 所 示 的 例子 表明 了 
对 两 个 进程 的 这 种 记 账 《accounting)。 短 线 标记 表明 发 生 了 计时 器 中 断 。 每 个 计时 器 中 断 都 由 被 增 
加 的 计数 值 来 标识 : 或 者 是 进程 A 的 用 户 或 系统 时 间 Au 或 As， 或 者 是 进程 B 的 用 户 或 系统 时 间 


3 通常 称 为 时 间 片 。 一 一 译 者 
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Bu 或 Bs。 每 个 短线 标记 是 根据 紧 挨 着 它 的 左边 的 活动 来 标识 的 。 最 后 的 记 账 表明 进程 A 总 共 使 用 
了 150ms: 110ms 的 用 户 时 间 和 40ms 的 系统 时 间 ， 进 程 B 总 共 使 用 了 100ms: 70ms 的 用 户 时 间 和 和 
30ms 的 系统 时 间 。 


9.2.2 ”该 进程 的 计时 器 

当 从 Unix shell 执行 一 个 命令 时 ， 用 户 可 以 在 命令 前 加 上 单词 “time”, 来 测量 命令 的 执行 时 间 。 
这 个 命令 使 用 的 值 是 用 上 面 描述 的 记 账 方法 计算 出 来 的 。 例 如 ， 为 了 计算 命令 行 参数 为 -n 17 HE 
序 prog 的 执行 时 间 ， 用 户 只 要 简单 地 输入 命令 : 

unix> fime prog -n 17 

在 程序 执行 完毕 之 后 ，shell 会 打印 出 总 结 运 行 时 间 数 据 的 一 行 ， 就 像 下 面 的 这 样 : 

2.230u 0.260s 0:06.52 38.1% 0+0k 04+010 80pf+0w 

这 一 行 中 显示 的 头 三 个 数字 是 时 间 。 前 两 小 是 用 户 和 系统 时 间 的 秒 数 。 注 意 这 两 个 数字 的 小 数 
点 后 第 :位 都 是 0。 计 时 器 间隔 为 10 ms， 所 有 的 计时 都 是 百 分 之 一 秒 的 倍数 。 第 一 个 数字 是 总 共 经 
过 的 时 间 ， 以 分 钟 和 秒 的 形式 表示 。 我 们 注意 到 系统 和 用 户 时 间 加 起 来 是 2.49s， 比 总 共 经 过 的 时 间 
6.52s 的 一 半 还 要 少 , 这 表明 处 理 器 同时 还 在 执行 其 他 的 进程 。 百分比 表明 用 户 和 系统 时 间 的 和 占 经 
过 时 间 的 比例 ， 例 如 ，(2.23 + 0.26)/6.52= 0.381。 剩 下 的 统计 数据 总 结 了 页 面 调 度 和 LO 行为 。 

程序 员 还 可 以 通过 调用 库 函 数 times 来 读 进程 的 计时 器 ， 这 个 函数 的 声明 如 下 : 


#include <sys/times.h> 


struct tms { 


clock_t tms_utime; /* user time */ 
clock_t tms_stime; /* system time */ 


clock_t tms_cutime; /* user time of reaped children */ 
clock_t tms_cstime; /* system time of reaped children */ 
}; 


clock_t times({(struct tms *buf); 


返回 : 自 系 统 启 动 以 来 经 过 的 时 钟 滴答 数 ， 

这 些 时 间 测 量 值 是 以 时 钟 滴答 (clock tick) 为 单位 来 表示 的 。 定 义 的 常数 CLK_TCK 指明 每 秒 
的 时 钟 滴答 数 。 数 据 类 型 clock_t 通常 定义 为 长 整 型 。 指 明子 时 间 的 字段 给 出 的 是 已 经 终止 了 并 且 被 
回收 了 的 子 进程 使 用 的 累积 时 间 。 因 此 ，times 不 能 用 来 监视 任何 正在 进行 的 子 进程 所 使 用 的 时 间 。 
作为 返回 值 , times 返回 的 是 从 系统 启动 开始 已 经 经 过 的 时 钟 滴答 总 数 。 因 此 我 们 可 以 通过 两 次 调用 
times, FAITE PARE, 来 计算 一 个 程序 执行 中 两 个 不 同 点 之 间 的 总 时 间 《 以 时 钟 滴答 为 单 
位 )。 

ANSI C 标准 还 定义 了 一 个 clock 函数 ， 它 测量 当前 进程 使 用 的 总 时 间 : 


#include <time.h> 


Clock_t clock(void); 


返回 : 进程 使 用 的 总 时 间 。 
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时 然 它 的 返回 值 和 函数 times 使 用 的 一 样 ， 都 声明 为 clock t 类 型 ， 但 是 通常 这 两 个 消 数 表达 时 
同 的 单位 是 不 一 样 的 。 要 将 clock 函数 报告 的 时 间 变 成 秒 数 ， 必 须 把 它 除 以 定义 好 的 常数 CLOCKS_ 
PER_SEC。 这 个 常数 值 不 一 定 要 和 常数 CLK_TCK 相同 。 


9.2.3 ”进程 计时 器 的 准确 性 

如 图 9.7 所 示 的 示例 ， 这 个 计时 机 制 只 是 近似 的 。 图 9.7 (b) 展示 了 两 个 进程 实际 使 用 的 时 间 。 
进程 A 总 共 执 行 了 153.3ms, 其 中 用 户 模 式 120.0 ms, 内 核 模式 33.3ms。 进程 B 总 共 执行 了 96.7ms， 
其 中 用 户 模 式 73.3ms， 内 核 模式 23.3ms。 采 用 间隔 计数 的 记 账 〈interval accounting) 方法 并 不 会 比 
vt AY aS ES (timer interval) 方法 更 好 地 解决 时 间 问 题 。 


练习 题 9.3 
操作 系统 会 息 样 报告 下 面 所 示 执 行 序列 的 用 户 和 系统 时 间 ? 假设 计时 器 间隔 为 10 ms. 


A | 8 | A] _ A | 


练习 题 9.4 

在 一 个 计时 器 间隔 为 10 ms 的 系统 上 ， 进 程 A 的 某 一 个 时 间 段 被 记录 为 需要 70 ms, BIKAR 
和 用 户 时 间 。 这 个 片段 使 用 的 最 大 和 最 小 实际 时 间 是 多 少 ? 

练习 题 9.5 

对 于 图 9.3 中 所 示 的 trace， 间 隔 计 数 器 (counter) 记录 的 系统 和 用 户 时 间 会 是 多 少 ? 这 个 时 间 
与 进程 处 于 活动 状态 的 实际 时 间 之 比 为 多 少 ? 


对 于 运行 时 间 是 够 长 的 程序 (至 少 要 几 秒 钟 )， 这 种 方法 中 的 不 准确 性 就 能 相互 弥补 了 。 一 些 时 
间 段 的 执行 时 间 被 低估 了 ， 而 男 一 些 被 高 估 了 。 在 许多 时 间 段 上 一 平均 ， 期 望 的 误差 就 接近 于 0 了。 
不 过 ， 从 理论 的 第 度 来 看 ， 对 于 这 种 测量 值 与 真实 运行 时 间 的 差距 有 多 大 ， 并 没有 确切 的 界限 。 

为 了 测试 这 种 计时 方法 的 准确 性 ， 我 们 运行 了 一 系列 实验 ， 比 较 相 同样 本 计算 下 操作 系统 所 测 
量 的 值 Tn 和 如 果 系 统 资源 只 用 来 执行 这 个 计算 时 我 们 估计 的 时 间 T.。 一 般 而 言 ，T. 与 Tu 不 相同 有 
以 下 见 个 原因 ; 

1. 间隔 计数 方法 本 身 固有 的 不 准确 性 可 以 导致 T, 比 TT 小 或 者 大 。 

2. 计时 器 中 断 导 致 的 内 核 活动 占用 了 总 CPU 周期 的 4% 一 5%， 但 是 对 这 些 周期 的 计数 不 是 很 
适当 。 正 如 从 图 9.4 所 示 的 trace 中 可 以 看 到 的 那样 ， 这 个 活动 在 下 一 次 计时 器 中 断 之 前 结束 ， 因 此 
没有 显 式 地 被 算 进 去 。 相 反 ， 它 只 简单 地 减少 了 下 一 个 时 间 间 隔 内 执行 进程 的 可 用 周期 数 。 相 对 于 
T.， 这 就 增加 了 Tne 

3， 当 处 理 器 从 一 个 任务 切换 到 男 一 个 任务 时 ， 在 一 个 短暂 的 时 间 内 ， 高 速 缓存 可 能 会 执行 效率 
很 兰 ， 直 到 新 任务 的 指令 和 数据 被 加 载 到 高 速 缓存 中 。 因 此 ， 当 处 理 器 在 我 们 的 程序 与 其 他 活动 之 
间 切 换 时 ， 它 的 执行 效率 没有 连续 执行 我 们 程序 时 的 效率 高 。 相 对 于 T.， 这 个 因素 会 增加 了 T,。 

在 本 章 后 向， 我 们 将 讨论 如 何 确定 我 们 示例 计算 的 T. 值 。 

图 9.8 给 出 了 在 两 种 不 同 的 负载 条 件 下 运行 这 个 试验 的 结果 。 这 些 曲 线 图 展示 了 我 们 的 误差 率 
的 测量 值 , EELK TARR - TXT。 的 值 。 当 T, 估计 的 低 于 T. 时 , 这 个 误差 测量 值 为 负 ， 
当 Th 估计 的 高 于 T< 时 ， 它 为 正 。 两 组 数据 显示 的 是 在 两 种 不 同 负载 条 件 下 测量 的 值 。 标 号 为 “ 负 
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载 1” 的 那 组 数据 显示 的 是 执行 示例 计算 的 进程 是 惟一 活动 进程 时 的 情况 。 标 号 为 “人 负载 11” 的 导 
组 数据 显示 的 是 另外 还 有 10 个 进程 也 在 试图 进行 同样 的 计算 时 的 情况 .后 者 代表 的 是 一 个 负载 非常 
重 的 情况 ， 系 统 对 击 键 和 其 他 服务 请 求 的 响应 明显 慢 了 。 注 意 ， 这 幅 图 中 显 术 的 误差 值 汉 围 很 人 ， 
一 般 而 言 ， 只 有 在 真实 值 土 10% 范 围 内 的 测量 值 才 是 可 接受 的 ， 因 此 我 们 只 希望 误差 变化 冰 围 为 人 
约 -0.1 一 +0.1。 
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图 ?9.8 Sle) Rite (inferval counting) 的 准确 性 
当 测量 活动 短 于 大 约 100 ms 〈10 个 计时 器 间隔 ) 时 ， 误 差 会 不 可 接受 得 高 。 此 外 ， 无 论 是 运行 在 负载 非常 软 〈 负 载 1) 的 机 
器 上 上 ， 还 是 在 负载 非常 重 的 机 器 上 《负载 1t)， 误 差 率 通常 都 小 于 10%. 

低 于 大 约 100ms (10 个 计时 器 间隔 )， 由 于 计时 方法 很 粗粮 ， 测 量 完全 不 准确 。 间 隔 计 数 只 对 测 
量 相 对 较 长 的 计算 一 一 100 000 000 个 时 钟 周期 或 更 多 -一 -有 用 。 除 此 之 外 ， 我 们 还 看 到 误 闭 通 委 在 : 
0.0 一 0.1 之 间 ， 也 就 是 ， 最 多 有 10% 的 误差 。 两 种 不 同 的 负载 情况 之 间 没 有 明显 的 区 曾 。 为 外 还 上 
JER, REAIEMA: 对 于 所 有 T。 宇 100 ms 的 测量 值 ， 平 均 误差 为 1.04， 这 是 因为 计时 器 中 断 占 
用 了 大 约 4% 的 CPU 时 间 。 

这 些 实验 表明 进程 计时 器 只 对 获得 程序 性 能 的 近似 值 有 有 用。 它们 的 粒度 太 粗 ， 不 能 用 于 持续 时 
间 小 于 100ms 的 测量 。 在 这 台 机 器 上 ， 这 些 进程 计时 器 有 系统 偏差 ， 过 高 地 估计 计算 时 间 ， 平 均 大 
约 4%。 这 种 计时 机 制 的 主要 优点 是 它 的 准确 性 不 是 非常 依赖 于 系统 负载 。 


9.3 周期 计数 器 
为 了 给 计时 测量 提供 更 高 的 精确 度 ， 许 多 处 理 器 还 包含 一 个 运行 在 时 钟 周期 级 的 计时 器 。 这 个 
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因此 ， 程序 员 无 法 用 统一 的 、 与 平台 无 关 的 接口 使 用 这 些 计数 器 。 男 一 方面 ， 只 用 少量 的 汇编 代码 ， 
通常 很 容易 夭 为 某 个 特定 的 机 项 创建 一 个 程序 接 只 。 


9.3.1 1432 周期 计数 器 

到 目前 为 止 , 我 们 已 经 报告 的 所 有 计时 值 都 是 用 IA32 周期 计数 器 (cycle counter) 测量 出 来 的 。 
在 IA32 体系 结构 中 ， 周 期 计数 器 是 与 “P6” 微 体系 结构 (PentiumPro 及 其 后 续 产 品 ) 一 起 提出 来 
的 。 周 期 计数 器 是 一 个 64 位 无 符号 数 。 对 于 一 个 运行 时 钟 为 1 GHz 的 处 理 器 ， 只 有 在 每 1.8 X10" 
秒 ， 或 者 每 570 年 ， 这 个 计数 器 才 会 从 2” - 1 线 回 到 0。 另 一 方面 ， 如 果 我 们 只 考虑 这 个 计数 器 的 
低 32 位 ， 把 它 看 成 一 个 无 符号 整数 ， 那 么 这 个 值 会 大 约 每 4.3 秒 就 绕 回 来 。 因 此 ， 我 们 就 明白 了 为 
什么 IA32 的 设计 者 会 决定 实现 一 个 64 位 的 计数 器 。 

IA32 计数 器 是 用 rdtsc (read time stamp counter, iY TR] Ri a) 指令 来 访问 的 。 这 条 指令 没 
有 参数 。 它 将 寄存 器 %edx 设置 为 计数 器 的 高 32 位 ， 而 寄存 器 %eax 设置 为 低 32 位 ， 为 了 提供 一 个 
C 程序 接口 ， 我 们 想 把 这 个 指令 包装 到 一 个 过 程 中 : 


这 个 过 程 应 该 将 位 置 hi 设置 成 计数 器 的 高 32 位， 将 lo 设置 成 低 32 位 。 使 用 3.15 节 中 描述 的 
GCC HURRAY Se FTE., SEER access counter 很 简单 。 其 代码 如 图 9.9 所 示 。 


code/perficlock.c 
1 /* Ynitialize the cycle counter */ 
2 static unsigned cyc_hi = Q; 
3 static unsignec cyc_lo = 0; 
A 
5 
6 /* Set *hi and *lo to the high and low order bits of the cycle counter. 
7 Implementation requires assembly code to use the rdtsc instruction. */ 
8 void access _counter(unsigned *hi, unsigned *1lo) 
9 
10 asm("rdtsc; movl %%edx,%0; movl %%eax,%1" /* Read cycle counter */ 
11 : "er" (*hi), "sr" (*1o} /* and move results to */ 
12 : /* No input */ /* the two outputs */ 
13 : "$edx", "%eax"); 
14 } 
15 
16 /* Record the current value of the cycle counter. */ 
17 vold start_counter () 
18 { 
19 


access_counter (&cyc_hi, &cyc_lo); 


} 


NO M 
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22 /* Return the number of cycles since the last call to start_counter. */ 
23 double get_counter() 


24 { 

25 unsigned neyc_hi, necyc_lo; 

26 unsigned hi, lo, borrow; 

27 double result; 

28 

25 /* Get cycle counter */ 

3C access_counter(&ncyc_hi, &ncyc_lo); 

31 

32 /* Do double precision subtraction */ 

33 lo = ncyc lo - cyc_lo; 

34 borrow = lo > ncyc_lo; 

35 hi = ncyc hi - cyc_hi - borrow; 

36 result = (double) hi * (1 «<< 30) * 4 + lo; 
37 if (result < 0) 1 

38 fprintf(stderr, "Error: counter returns neg value: %.05\n", result); 
39 } 

40 return result; 

42 } 


code/perf/clock.c 


图 9.? 实现 IA32 周期 计数 器 的 程序 接口 的 代码 
需要 汇编 代码 来 使 用 计数 器 读 指令 。 


基于 这 个 例 程 ， 现 在 我 们 能 够 实现 两 个 郊 数 ， 可 以 用 它们 来 测量 任意 两 个 时 间 点 之 闻 经 过 的 时 
EF Je SF Ash BX 


#include “clock.h" 
void start_counter(); 


dcuble get_counzer(); 


返回 : 自 最 后 一 次 调用 局 动 计 数 器 所 经 过 的 周期 数 。 
我 们 返回 的 时 间 是 double 类 型 的 ， 以 避免 只 使 用 32 位 整数 可 能 引起 的 溢出 问题 。 这 两 个 例 程 
的 代 但 也 显示 在 图 9.9 中 。 它 是 建立 在 我 们 对 执行 双 精 度 减法 和 将 结果 转换 成 double 类 型 的 无 符 号 
运算 的 理解 的 基础 上 的 。 


94 用 周期 计数 器 来 测量 程序 执行 时 间 


周期 计数 器 (cycle counter) 提供 了 一 个 非常 精确 的 工具 ， 可 以 测量 一 个 程序 执行 中 两 个 不 同 点 
之 间 经 过 的 时 间 。 不 过 ， 上 典型 地 ， 我 们 对 测量 执行 某 段 特殊 代码 所 需要 的 时 间 感 兴趣 。 我 们 的 周期 
计数 器 例 程 计 算 调 用 start_counter 和 调用 get_counter 之 间 总 的 周期 数 。 这 些 例 程 不 记录 哪个 进程 使 
用 这 些 周期 ， 或 者 处 理 器 是 在 内 核 还 是 在 用 户 模式 中 运行 的 。 在 使 用 这 样 的 测量 设备 来 确定 执行 时 
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作为 一 个 使 用 周期 计数 器 的 代码 示例 ， 图 9.10 中 的 例 程 提 供 了 一 个 确定 处 理 器 时 钟 频率 的 方 
法 。 在 几 个 系统 上 ， 以 参数 sleeptime 等 于 1 来 测量 这 个 函数 ,测量 值 表明 它 报 告 的 时 钟 频 率 在 该 处 
理 器 评测 性 能 的 1.0% 范 围 之 内 。 这 个 示例 清楚 地 表明 我 们 的 例 程 测量 的 是 经 过 的 时 间 ， 而 不 是 茶 个 
进程 使 用 的 时 间 。 当 我 们 的 程序 调用 sleep 时 ， 操 作 系统 不 会 继续 这 个 进程 ， 直 到 ls 的 睡眠 时 间 到 
达 。 这 期 间 经 过 的 周期 是 被 其 他 进程 执行 的 。 


code/perf/clock.c 
1 /* Estimate the clock rate by measuring the cycles that elapse */ 
2 /* while sleeping for sleeptime seconds */ 
3 double mhz {int verbose, int sleeptime) 
4 { 
5 double rate; 
6 
7 start_counter(); 
8 sleep (sleeptime) ; 
9 rate = get_counter({) / (le6*sleeptime)  ; 
10 f (verbose) 
11 printf ("Processor clock rate ~= %.1f MHz\n", rate); 
12 return rate; 
13 } 

code/perf/clock.c 


图 9.10 函数 mhz: 确定 一 个 处 理 器 的 时 钟 频 率 


9.4.1 ”上下文 切换 的 影响 
测量 菜 个 过 程 P 的 运行 时 间 的 一 种 简单 方法 就 是 用 周期 计数 器 来 对 P 的 一 次 执行 进行 计时 ， 就 
1 double time_P() 
2 { 

3 start_counter (); 

4 P(); 

5 return get_counter(); 

6 


} 

如 朱 在 两 次 调用 计数 器 例 程 之 间 ， 有 另外 某 个 进程 执行 了 ， 那 么 这 段 代 码 就 很 容易 产生 邻 人 误 
解 的 结 采 。 如 果 机 器 负载 很 重 , 或 者 如 果 P 的 运行 时 间 特 别 长 ， 这 就 特别 成 问题 。 图 9.11 说 明了 这 
一 现象 。 图 中 展示 了 反复 测量 一 个 程序 的 结果 ， 这 个 程序 计算 的 是 一 个 131 072 个 整数 的 数组 的 和 。 
时 间 被 转换 成 了 以 ms 为 单位 。 注 意 总 的 运行 时 间 是 36 ms， 比 计时 器 间隔 值 大 “。 我 们 进行 两 组 测 
量 ， 每 组 对 园 一 个 过 程 测量 18 次 。 标 号 为 “负载 1” 的 那 组 数据 说 明 的 是 在 负载 很 轻 的 机 器 上 的 运 
行 时 间 ， 此 时 机 器 上 只 有 一 个 进程 在 运行 。 所 有 的 测量 值 都 在 最 小 运行 时 间 的 3.4% 范 围 之 内 。 标 号 


4 操作 系统 根据 计时 器 间隔 的 值 来 执行 进程 调度 。 一 一 译 者 
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为 “负载 4” 的 那 组 数据 表明 的 是 当 另 外 还 有 三 个 频繁 使 用 CPU 和 存储 器 系统 的 进程 在 运行 时 的 运 
行 时 间 。 头 七 个 样本 的 时 间 在 负载 1 样本 中 最 快 的 时 间 的 2% 范 围 之 内 , 但 是 其 他 的 时 间 比 4.3 倍 还 
多 。 

下 如 这 个 示例 说 明 的 那样 ， 上 下 文 切换 导致 执行 时 间 差 异 极 大 。 如 果 一 个 进程 被 交换 出 去 “， 
那么 它 束 会 沙 后 百 万 条 指令 。 显 然 ， 我 们 设计 的 任何 测量 程序 执行 时 间 的 方法 都 必须 避免 这 样 大 的 


TRAE o 


测量 示例 : 大 数组 


Y 

= 

e" fi x 1 
口 负 

和 
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1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 
样本 


图 ?.11 在 不 同 的 负载 情况 下 ， 对 长 持续 时 间 的 过 程 的 测量 

在 “个 负载 很 轻 的 系统 上 ， 各 个 样本 的 结果 是 - - 致 的 ， 但 是 在 一 个 负载 很 重 的 系统 上 ， 许 多 测量 值 都 比 真实 的 执行 时 间 估 计 
得 高 了 。 
9.4.2 高速 缓存 和 其 他 因素 的 影响 

局 速 缓存 和 分 支 预测 造成 的 计时 变化 比 上 下 文 切换 造成 的 要 小 一 些 。 作 为 一 个 例 了 ,图 9.12 展 
未 了 一 组 类 似 于 图 9.11 中 的 测量 值 ， 区 别 在 于 数组 要 小 4 倍 ， 得 到 的 执行 时 间 大 约 是 8ms。 这 些 执 
行 时 间 比 计时 器 间隔 要 短 ， 因 此 执行 不 太 可 能 受 上 下 文 切 换 的 影响 。 我 们 看 到 测量 值 有 变化 ， 但 是 
这 些 变化 的 程度 都 没有 上 下 文 切换 造成 的 变化 那么 大 ， 

图 9.12 所 示 的 变化 主要 是 由 高 速 缓存 造成 的 。 执 行 一 个 代码 块 的 时 间 可 以 非常 依赖 于 在 开始 执 
行 时 ， 这 个 代码 使 用 的 数据 和 指令 是 否 在 数据 和 指令 高 速 缓存 中 ， 

作为 一 个 示例 ， 我 们 写 了 两 个 一 样 的 程序 proca 和 procB， 输 入 为 一 个 类 型 为 double * 的 指针 ， 
并 且 将 从 这 个 指针 开始 的 8 个 连续 的 元 素 设置 为 0.0。 我 们 测量 以 三 个 不 同 的 指针 bl b2 和 b3 对 
这 个 过 程 进行 调用 的 时 钟 周期 数 。 调 用 序列 和 得 到 的 测量 值 如 图 9.13 所 示 。 即 使 这 些 调 用 执行 的 是 
完全 相同 的 计算 ， 计 时 的 变化 也 几乎 有 4 倍 。 因 为 这 段 代 码 中 没有 条 件 分 支 ， 所 以 我 们 可 以 断定 这 
些 变化 是 受 高 速 缓 存 所 影响 。 


5 原文 是 time interval， 而 我 们 认为 是 timer interval, ——i*## 
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图 ?.12 在 不 同 的 负载 情况 下 ， 对 短 持 续 时 间 的 过 程 的 测量 
变化 程度 没有 图 9.11 中 的 变化 那么 大 ， 但 是 还 是 大 得 不 可 接受 。 


procA(bi) 
procA(b2) 


procA(b3} 
procA (b1) 
procBib1) 
procBt(b2) 


图 9.13 ”相同 的 过 程 在 相同 的 数据 集 上 的 测量 序列 

这 些 测 量 值 中 的 变化 主要 是 由 指令 和 数据 高 速 缓存 中 不 同 的 不 命中 情况 造成 的 。 

练习 题 9.6 

c 表示 如 果 没 有 高 速 缓存 不 命中 ， 调 用 proca 或 者 procB 所 需 的 周期 数 。 对 于 每 次 计算 ， 由 于 
高 速 缓存 不 命中 浪费 的 周期 可 以 分 摊 到 每 个 需要 取出 来 放 到 高 速 缓存 中 的 孝 据 上 : 

© 实现 测量 代码 的 指令 ( 例如 start_counter、get_counter 等 等 )。 设 这 些 指令 所 需 周期 数 为 m. 

。 实现 被 测量 过 程 的 指令 (proca 或 者 procB )， 设 这 些 指令 所 需 周 期 数 为 p。 

© 被 更 新 的 数据 位 置 (由 bl、b2 或 b3 指示 )。 设 这 些 指令 所 需 周 期 数 为 d。 

根据 图 9.13 所 示 的 测量 值 ， 给 出 c、m、P 和 的 估计 值 . 


给 出 这 些 测量 所 示 的 变化 ， 和 人们 很 自然 地 会 问 :“ 哪 一 个 是 对 的 呢 ? ”不 幸 地 是 ， 对 这 个 问题 没 
有 简单 的 答案 。 这 取决 于 我 们 的 代码 实际 使 用 的 情况 ， 以 及 我 们 能 够 获得 可 靠 测量 值 的 情况 。 一 
问题 是 测量 值 每 次 运行 都 不 相同 。 图 9.13 所 示 的 测量 表 显 示 的 只 是 一 次 测量 的 数据 。 在 反复 的 测量 
中 ,我 们 看 到 测量 1 ACA 317~606, 而 测量 5 的 范围 为 301~326。 另外， 其 他 四 次 测量 每 次 运 
行 的 变化 只 有 几 个 周期 。 

ER. WE 1 合计 过 高 ， 因 为 它 包括 了 将 测量 代码 和 数据 结构 加 载 到 高 速 组 存 中 的 开销 。 进 一 
步 来 说 ， 它 的 变化 程度 最 容易 大 。 测 量 5 包括 了 将 procB 加 载 到 高 速 缓存 中 的 开销 。 它 的 变化 程度 
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也 容易 比较 大 。 在 大 多 数 实 际 应 用 中 ， 同 样 的 代码 会 被 反复 执行 。 因 此 ， 将 代码 加 载 到 指令 高 速 组 
存 中 的 时 间 相 对 而 言 不 太 重要 。 我 们 的 示例 测量 有 点 人 为 的 痕迹 ， 因 为 指令 高 速 缓存 不 命中 的 影响 
比 实 际 应 用 中 的 要 大 一 些 。 

为 了 测量 过 程 P 所 需 的 时 间 ， 在 过 程 P 中 指令 高 速 缓存 不 命中 的 影响 已 经 减 小 到 最 低 了 ， 我 们 
可 以 执行 下 列 代码 ， 


1 double time_P_warm({) 

2 

3 P(); /* Warm up the cache */ 
4 start_counter (}; 

5 P(); 

6 return get_counter(); 
F 


} 


在 开始 测量 之 前 执行 一 次 P， 会 将 P 所 用 的 代码 放 入 到 指令 高 速 缓存 中 。 

这 段 代码 也 使 数据 高 速 缓存 不 命中 的 影响 降低 到 最 小 ， 因 为 第 一 次 执行 P 也 将 P 访问 的 数据 放 
入 到 数据 高 速 缓存 中 。 对 于 过 程 procA 和 procB, time_P_warm 的 测量 会 得 到 100 个 周期 。 如 果 我 
们 预想 代码 会 重复 地 访问 同样 的 数据 ， 那 么 这 就 是 测量 的 正确 条 件 。 不 过 对 于 一 些 应 用 ， 我 们 更 可 
能 龙 每 次 执行 都 访问 新 的 数据 。 例 如 ， 一 个 过 程 将 数据 从 存储 器 的 一 个 区 域 拷贝 到 另 一 个 区 域 ， 很 
可 能 调用 时 没有 块 被 缓存 。 过 程 time_P_warm 倾向 于 低估 这 样 一 个 程序 的 执行 时 间 。 对 于 proca 或 
者 procB, 它 会 得 到 100 个 周期 , 而 不 是 当 过 程 被 应 用 到 未 缓存 的 数据 上 时 测 出 的 132 一 134 个 周期 。 

为 了 使 计时 代码 测量 一 个 初始 时 没有 数据 被 缓存 了 的 过 程 ， 我 们 可 以 在 执行 实际 的 测量 之 前 ， 
清空 高 速 缓存 中 所 有 有 用 的 数据 。 下 面 的 过 程 就 是 为 一 个 高 速 缓 存 大 小 不 大 于 512KB 的 系统 完成 这 
一 功能 的 : 


code/perf/time_p.c 


1 /* Number of bytes in the largest cache to be cleared */ 
2 #define CBYTES (1<<19) 

3 #define CINTS (CBYTES/sizeof (int) ) 
4 

5 /* A large array to bring into cache */ 

6 static int dummy [CENTS]; 

7 volatile inz sink; 

8 

9 /* Evict the existing blocks from the data caches */ 
10 void clear_cache() 

11 { 

12 int l; 

13 int sum = 0; 

14 

15 for (1 = 0; 1 < CINTS; i++) 

16 dummy [i] = 3; 


17 for (1 = 0; i < CINTS; i++) 
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18 Sum += dummy [i]; 
19 sink = sum; 
20 } 


code/perf/time_p.c 


这 个 过 程 只 是 在 一 个 非常 大 的 数组 dummy 上 执行 一 个 计算 ， 有 效 地 从 高 速 缓存 中 清除 出 所 有 
其 他 的 东西 。 这 个 代码 有 儿 个 特殊 的 性 质 ， 用 来 避免 常见 的 错误 。 它 将 值 存 储 到 dummy 中 ， 并 且 
把 它们 读 出 来 ， 这 样 无 论 高 速 缓存 分 配 策略 是 怎样 的 ， 都 会 缓存 这 个 数组 。 这 段 代 码 用 数组 的 值 执 
行 一 个 计算 ， 并 将 结果 存储 到 一 个 全 局 整数 中 《声明 为 volatile 就 表明 对 这 个 变量 的 任何 更 新 都 必 
须 被 执行 )， 这 样 使 得 聪明 的 优化 编译 器 不 会 优化 掉 这 部 分 代码 。 

使 用 这 个 过 程 ， 我 们 可 以 获得 在 P 的 指令 都 被 缓存 而 数据 没有 被 缓存 的 情况 下 P 的 一 个 测量 


值 : 
1 double time_P_cold{) 
< 
3 P()}; /* Warm up instruction cache */ 
4 clear _cache(); /* Clear data cache */ 
5 start_counter(); 
6 P({); 
7 return get_counter({); 


8 } 


当然 ， 这 个 方法 也 有 和 缺点。 在 一 个 有 统一 L2 高 速 缓存 的 机 器 上 ， 过 程 clear_cache 会 导致 P 的 
所 有 指令 都 被 清除 。 幸 运 的 是 ，L1 指令 高 速 缓存 中 的 指令 还 会 保存 。 过 程 clear_cache HEMMER 
缓存 中 清除 出 大 部 分 运行 时 栈 ， 导致 过 高 地 估计 了 在 更 加 真实 的 条 件 中 了 所 需要 的 时 间 。 

正如 这 里 的 讨论 说 明 的 那样 ， 高 速 缓存 的 影响 为 性 能 测量 增加 了 特殊 的 困难 。 程 序 员 几乎 不 能 
控制 什么 指令 和 数据 会 被 加 载 到 高 速 缓存 中 ， 而 当 必 须 加 载 新 值 时 又 该 清除 什么 指令 和 数据 。 最 好 
的 情况 下 ， 我 们 能 够 设置 好 测量 条 件 ， 通 过 一 些 清 空 和 加 载 高 速 缓存 的 组 合 ， 使 得 测量 条 件 与 我 们 
应 用 期 望 的 条 件 相 匹配 。 

正如 前 面 提 到 过 的 ， 分 文 预 测 逻 辑 也 会 影响 程序 性 能 ， 因 为 当 分 支 方 向 和 目的 都 预测 正确 时 ， 
分 文 指令 引起 的 时 间 处 罚 要 小 得 多 。 这 个 逻辑 是 根据 已 经 执行 过 的 分 支 指令 的 历史 记录 来 进行 预测 
的 。 当 系统 从 一 个 进程 切换 到 另 一 个 时 ， 开 始 时 新 进程 中 的 分 支 预测 是 根据 前 一 个 进程 中 执行 的 分 
文 指令 来 进行 的 。 不 过 ， 实 际 上 ， 这 些 影 响 对 程序 的 每 次 执行 只 会 造成 很 小 的 性 能 变化 。 预 测 主要 
依赖 于 最 近 的 分 支 ， 因 此 一 个 进程 对 另 一 个 进程 的 影响 非常 小 。 


943 KK 次 最 优 测量 方法 

虽然 我 们 使 用 周期 计时 器 测量 容易 受 由 上 下 文 切 换 、 高 速 缓存 操作 和 分 支 预测 引起 的 误差 的 影 
啊 ， 但 是 一 个 重要 的 特性 就 是 这 些 误差 总 是 导致 过 高 地 估计 真实 的 执行 时 间 。 处 理 器 做 的 事情 都 不 
会 人 为 地 加 速 一 个 程序 的 执行 。 即 使 上 下 文 切换 和 其 他 影响 会 引起 测量 值 不 一 致 ， 我 们 仍然 可 以 利 
用 这 个 属性 来 获得 执行 时 间 可 靠 的 测量 值 。 

假设 我 们 重复 地 执行 一 个 过 程 ， 用 time_P_warm 或 者 time_P_cold 来 测量 周期 数 。 我 们 记录 K 
(例如 3) 次 最 快 的 时 间 。 如 果 我 们 发 现 这 种 测量 的 误差 e 很 小 (如 0.1%)， 那 么 用 测量 的 最 快 值 
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来 表示 过 程 的 真实 执行 时 间 就 是 合理 的 。 作 为 一 个 示例 ， 假 设 对 于 图 9.11 所 示 的 那些 次 测量 ， 我 们 
RAREN 1.0%。 那么 负载 1 的 最 快 的 六 个 而 量 值 在 这 个 误差 范围 之 内 ,而 信 载 4 最 快 的 一 个 测量 
值 在 这 个 误差 沁 围 之 内 。 因 此 我 们 可 以 得 出 结论 说 运行 时 间 分 别 为 35.98 ms Al 35.89 ms。 对 于 负载 
4 的 情况 ， 我 们 还 可 以 看 到 测量 值 集中 在 125.3 ms 附近 ， 有 六 个 大 约 为 155.8 ms， 但 是 我 们 安全 地 
丢弃 了 这 些 过 高 的 估计 值 。 

我 们 称 这 种 方法 为 “K 次 最 优 (K-Best) 方法 ”。 它 要 求 设置 三 个 参数 ; 

K: 我 们 要 求 在 某 个 接近 最 快 值 范 围 内 的 测量 值 数量 。 

Ee: 这 些 出 量 必 须 有 多 大 程度 的 接近 。 也 就 是 ， 如 果 测 量 值 按照 升序 标号 为 YI，va，…，Vi，… 
那么 我 们 要 求 (1 + g)vi > Vx。 

M: 在 我 们 中 止 之 前 ， 测 量 值 的 最 大 数量 。 

我 们 的 实现 进行 了 一 系列 尝试 ， 并 且 按 照排 序 的 方式 维护 着 一 个 K 个 最 快 时 间 的 数组 。 对 十 每 
个 新 的 测量 值 , 它 会 检查 这 个 值 是 否 比 当前 数组 位 置 K 中 的 值 更 快 。 如 果 是 , 它 会 替换 数组 元 素 K， 
然后 执行 一 系列 相 邻 数组 位 置 之 间 的 交换 ， 将 这 个 值 移 到 数组 中 适当 的 位 置 。 继 续 这 个 过 程 ， 直 到 
误差 标准 满足 ， 此 时 我 们 称 测 量 值 已 经 “ 收 你 了 ”， 或 者 我 们 超过 了 界限 M， 此 时 我 们 称 测 量 值 不 
REC a o 

试验 评价 

我 们 进行 了 一 系列 试验 来 测量 K 次 最 优 测量 方法 的 准确 性 。 下 面 是 一 些 我 们 想 要 解决 的 问 
题 ; 

1， 这 个 方法 产生 的 是 准确 的 测量 值 吗 ? 

2. 什么 时 候 测量 值 会 收敛 ， 收 和 敛 得 有 多 快 呢 ? 

3. 这 个 方法 能 够 确定 它 自 己 的 测量 值 的 准确 性 吗 ? 

设计 这 样 的 试验 的 一 个 挑战 是 要 知道 我 们 正在 试图 测量 的 程序 的 实际 运行 时 间 。 只 有 这 样 ， 我 
们 才能 确定 我 们 测量 的 准确 性 。 我 们 知道 ， 只 要 我 们 正在 测量 的 计算 不 被 中 断 ， 我 们 的 周期 计时 器 
就 能 够 给 出 准确 的 结果 。 对 于 比 计 数 器 间隔 “ 短 很 多 的 计算 ， 运 行 在 负载 很 轻 的 机 器 上 时 ， 被 中 断 
的 可 能 性 很 小 。 我 们 利用 这 些 属性 来 获得 对 真实 运行 时 间 的 可 靠 估 计 值 。 

根据 我 们 的 测量 目标 ， 我 们 使 用 了 一 个 过 程 ， 它 反复 地 往 一 个 2048 个 整数 的 数组 中 写 值 ， 然 后 
再 读 出 来 ， 类 似 于 clear_cache 的 代码 。 通 过 设置 重复 的 次 数 r， 我 们 可 以 创建 需要 一 定时 间 的 计算 。 
自 和 匈 ， 我 们 设 这 个 过 程 期 望 的 运行 时 间 为 r 的 一 个 函数 ， 用 T(t) 来 表示 ,fr 从 1 变 到 10， 对 运行 时 
国 计 时 《得 到 的 时 间 为 0.09 一 0.9ms)， 执 行 最 小 二 乘 方 拟 合 ， 找 到 形 如 TOn = mr +b 的 公式 。 通 过 
使 用 小 的 T 值 ， 对 每 个 r 的 值 执行 100 次 测量 ， 并 且 在 一 个 负载 很 轻 的 系统 上 运行 测量 ， 我 们 能 够 
获得 一 个 非常 准确 的 To 的 描述 。 我 们 的 最 小 二 乘 方 分 析 表 明 公 式 T(r) = 49273.4r + 166 (单位 为 时 
钟 周 期 ) 拟 合 这 些 数 据 ， 最 大 误差 小 于 0.04% 。 这 使 得 我 们 有 信心 能 够 准确 预测 这 个 过 程 的 实际 计 
算 时 间 ， 这 个 时 间 是 7 了 的 一 个 函数 。 

然后 ， 我 们 用 K 次 最 优 方法 来 测量 性 能 ， 参 数 K = 3、e = 0.001， 而 M = 30。 我 们 对 大 量 r 的 
值 进行 这 个 测量 ， 获 得 的 预期 运行 时 间 的 范围 是 0.27~50ms。 对 于 得 到 的 每 个 测量 值 M(r)， 我 们 用 
E(t) = (M(r) - T(r)YT(7) 来 计算 测量 误差 EnD M 9.14 展示 了 在 一 个 Intel Pentium II 上 运行 Linux 


6 实际 上 就 是 操作 系统 分 配 适合 一 个 进程 的 时 间 段 。 一 一 译 者 
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的 系统 中 ， 对 KK 次 最 优 方法 的 一 个 试验 验证 。 在 这 张 图 中 ， 我 们 给 出 了 作为 TD 的 一 个 函数 的 测量 
RÆ Em(r)， 这 里 我 们 给 出 的 T(r) 的 单位 为 ms。 注意 ， 我 们 是 以 对 数 尺度 来 显示 EON: 每 条 水 平 
线 代 表 测 量 误差 的 一 个 数量 级 。 为 了 使 准确 率 在 1% 之 内 ， 我 们 必须 让 误差 在 0.01 以 下 。 我 们 不 试 
图 显示 任何 小 于 0.001 ERE 0.1%) 的 误差 ， 因 为 我 们 的 测试 环境 不 提供 这 么 高 的 精度 。 
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测量 值 : 预期 的 时 间 


预期 的 CPU 时 间 


A914 k 次 最 优 测量 方法 在 Linux 系统 上 的 验证 
当 执 行 时 间 最 高 为 8 ms 时 ， 我 们 一 直 都 能 获得 非常 准确 的 测量 值 GREASE 0.1% )。 而 除 此 以 外 ， 在 负载 很 轻 的 机 器 上 ， 
我 们 遇 到 的 系统 过 高 估计 大 约 是 4%~6%， 而 在 负载 比较 重 的 机 器 上 ， 结 果 就 更 差 。 


这 三 组 数据 表明 的 是 在 三 种 不 同 负载 情况 下 的 误差 。 我 们 看 到 ， 在 所 有 三 种 情况 中 ， 运 行 时 
间 小 于 大 约 7.5 ms 的 测量 都 非常 准确 。 因此 ， 我 们 的 方法 可 以 用 来 在 负载 很 重 的 机 器 上 测量 相对 
比较 短 的 执行 时 间 。“ 负 和 载 1” 那 组 数据 表明 的 是 只 有 一 个 活动 进程 的 情况 。 对 于 大 于 10ms 的 执 
THT, WEE T, 全 都 会 过 高 估计 计算 时 间 T。 KA 4% 一 6%。 过 高 估计 是 因为 花 了 时 间 来 处 理 
计时 器 中 断 。 这 些 数据 与 图 9.3 所 示 的 trace 一 致 ， 这 个 trace 表明 即使 是 在 一 台 负 载 很 轻 的 机 器 
E, 一 个 应 用 程序 也 只 能 执行 9$% 一 96% 的 时 间 。“ 负载 2” 和 “负载 11” 那 两 组 数据 展示 的 是 还 
有 其 他 进程 在 执行 时 的 人 性能。 在 这 两 种 情况 中 ， 对 于 超过 大 约 7 ms 的 执行 时 间 测 量 值 不 准确 得 离 
W. Æa, RE 10 就 意味 着 Tu 是 T。 的 两 倍 ， 而 误差 10.0 就 意味 着 了 ,是 IT. 的 11 倍 。 很 明显 ， 
操作 系统 调度 每 个 活动 进程 一 个 计时 器 间隔 '。 当 有 n 个 活动 进程 时 ， 每 个 进程 只 获得 1m 的 处 理 
4m HY fB). 

根据 这 些 结果 ， 我 们 可 以 得 出 结论 说 ，K 次 最 优 方法 提供 了 对 非常 短 时 间 计 算 的 准确 结果 。 对 
于 测量 超过 大 约 7 ms 的 执行 时 间 ， 这 种 方法 真 的 不 够 好 ， 特 别 是 还 有 其 他 活动 进程 时 。 

不 辛 的 是 ， 我 们 发 现 我 们 的 测量 程序 不 能 可 靠 地 确定 它 是 否 获得 了 准确 的 测量 值 。 我 们 的 测量 
过 程 计 算 它 的 误差 为 RG) = (Ve - Viv1， 这 里 wm 是 第 i 个 最 小 的 测量 值 。 也 就 是 ， 它 计算 的 是 这 个 


7 原文 是 time interval， 而 我 们 认为 是 timer interval. 
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过 程 到 达 我 们 收敛 标准 的 程度 如 何 。 我 们 发 现 这 些 估计 值 过 于 乐观 了 。 即 使 是 对 于 负载 11 EI, 
测量 值 的 偏 移 达 到 了 10 倍 ， 程 序 却 一 直 估 计 它 的 误 震 小 于 0.001. 


设置 K 的 值 


在 我 们 前 面 的 试验 中 ， 我 们 任意 选择 参数 K 的 值 为 3， 即 为 了 结束 整个 测量 过 程 ， 在 我 们 的 测 
量 结果 中 至 少 有 3 次 的 测量 值 相 比 于 最 快 测量 值 间 的 误差 在 一 个 指定 因子 内 。 为 了 更 仔细 地 衡 基 这 
个 因素 的 影响 ， 我 们 使 人 的 值 从 1 变化 到 5， 并 进行 了 一 组 测量 ， 如 图 9.15 所 示 。 我 们 进行 这 些 测 
量 的 执行 时 间 范 围 到 了 9 ms， 因 为 这 是 我 们 的 方法 能 够 获得 有 用 结果 有 的 时 | 旧 上 限 。 


预期 的 时 间 


测量 值 : 


预期 的 时 间 


测量 值 ; 
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预期 的 CPU 时 间 (ms) 
图 9.15 k 次 最 优 方法 中 不 同 K 值 的 效果 


要 想 有 合理 的 准确 性 ，K 必须 至 少 为 2。 当 程 序 时 间接 近 于 计时 器 间隔 时 ， 在 负载 很 重 的 系统 上 ， 大 于 2 的 值 会 有 帮助 -- 些 。 


测量 程序 执行 时 间 579 


Intel Pentium Hl, Linux 


—_ 
— 


Ix’ 

£ 

$ 

TN 

ra 

= MIRAREA 
i 

R i | NEHE 
1 ah | i i 
| on 

预期 的 CPU 时 间 (ms) 
Pentium ft, Linux 
K = 5 
100 

应 

t 

e 

EN 

sa 

an 

ie 

E 


预期 的 CPU 时 间 (ms) 


2.15 kk 次 最 优 方 法 中 不 同 k 值 的 效果 (8) 
当天 = 1 时 ， 在 进行 一 次 测量 后 ， 过 程 就 返回 。 这 样 得 到 的 结果 非常 个 规律 ， 特 别 是 当 机 器 负 
载 很 重 的 时 候 。 如 果 刚 好 发 生 了 计时 器 中 断 ， 结 果 就 更 不 准确 了 。 即 使 没有 发 生 这 样 的 灾难 ， 测 量 
值 也 容易 受 很 多 因素 的 影响 ， 变 得 不 准确 。 将 K 设置 为 2 就 极 大 地 改善 了 准确 性 。 对 于 小 于 5ms 
的 执行 时 间 ， 我 们 得 到 的 准确 性 都 大 于 0.1%。K 设置 得 越 大 ， 结 果 的 一 致 性 和 准确 性 就 越 好 ， 直 到 
大 约 8ms 的 上 限 。 这 些 试 验 表明 我 们 最 初 猜 想 的 K = 3 是 个 合理 的 选择 。 
补偿 对 计时 器 中 断 的 处 理 
计时 右 中 断 的 发 生 是 可 预测 的 ,在 我 们 的 执行 时 间 超 过 大 约 7 ms 的 测量 中 , 计时 器 中 断 会 导致 
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人 很 大 的 系统 误差 。 通 过 从 一 个 程序 测量 出 的 运行 时 间 中 减 去 一 个 花 在 处 理 计 时 器 中 断 上 的 时 间 的 估 
计 值 ， 除 去 这 个 偶 差 是 很 好 的 。 这 需要 确定 两 个 因素 : 

1， 我 们 几 须 确定 处 理 一 个 计时 器 中 断 需 要 多 少时 间 。 为 了 保持 我 们 从 不 低估 过 程 的 执行 时 间 这 一 
属性 , 我 们 应 该 确定 处 理 一 个 计时 咒 中 断 所 需 的 最 小 时 钟 周期 数 。 这 样 的 话 , 我 们 永远 不 会 过 度 补 偿 。 

2. 我 们 必须 确定 在 我 们 测量 的 时 间 段 内 发 生 了 多 少 次 计时 器 中 断 。 

使 用 类似 于 产生 图 9.3 和 图 9.5 中 所 示 trace 的 方法 ， 我 们 可 以 发 现 不 活动 的 时 间 段 ， 并 确定 它 
们 的 持续 时 间 。 这 些 不 活动 时 间 段 ， 有 些 是 由 计时 器 中 断 造 成 的 ， 有 些 是 由 其 他 系统 事件 造成 的 。 
我 们 可 以 确定 使 用 times 过 程 是 否 会 发 生计 时 器 中 断 ， 因 为 每 次 发 生计 时 器 中 断 时 ， 它 的 返回 值 会 
增加 一 个 滴答 。 我 们 对 100 个 不 活动 周期 进行 这 样 一 个 评估 ， 发 现 最 小 的 计时 器 中 断 处 理 时 间 段 需 
要 251 466 个 周期 。 为 了 确定 我 们 正在 测量 的 程序 执行 期 间 发 生 的 计时 器 中 断 次 数 ， 我 们 简单 地 调 
用 times 孙 数 两 次 一 一 一 次 在 程序 之 前 ， 一 次 在 程序 之 后 ， 然 后 计算 它们 的 差 。 

图 9.16 展示 了 这 种 改进 过 的 测量 方法 所 获得 的 结果 。 如 图 中 所 示 ， 现 在 在 负载 很 轻 的 机 器 上 ， 
即使 是 对 执行 多 个 时 间 间 隐 的 程序 ， 我 们 也 可 以 得 到 非常 准确 (在 1.0% 之 内 ) 的 测量 值 了 。 通 过 去 
挤 计 时 器 中 断 的 系统 误差 ， 现 在 我 们 有 了 一 个 非常 可 靠 的 测量 方法 。 另 一 方面 ， 我 们 可 以 看 到 这 种 
休 楼 对 运行 在 负载 很 重 的 机 器 上 的 程序 没有 帮助 . 
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预期 的 CPU 时 间 (ms) 
图 9.16 补偿 计时 器 中 断 开销 的 测量 
这 种 方法 极 大 地 提高 了 在 负载 很 轻 的 机 器 上 持续 时 间 较 长 的 测量 的 准确 性 。 
在 其 他 机 器 上 的 评估 


因为 我 们 的 方法 极 大 地 依赖 于 操作 系统 的 调度 策略 ， 所 以 我 们 还 在 其 他 三 种 系统 配置 上 进行 了 
试验 


l. 运行 Linux 内 核 较 老 版 本 (2.0.36 Al 2.2.16) 的 Intel Pentium III. 
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2. 运行 Windows-NT 的 Intel Pentium IIU。 虽 然 这 个 系统 使 用 的 是 IA32 处 理 器 ， 但 是 这 个 操作 
系统 与 Linux 完全 不 同 。 

3. 运行 Tru64 Unix 的 Compaq Alpha。 它 使 用 的 是 一 个 非常 不 同 的 处 理 器 ， 但 是 操作 系统 类 似 
F Linux. 

如 图 9.17 所 示 ， 在 较 老 版 本 的 Linux 下 的 性 能 特性 非常 不 同 。 在 负载 很 轻 的 机 器 上 ， 对 于 几乎 
任意 持续 时 间 的 程序 ， 测 量 值 的 准确 性 都 在 0.2 旬 以 内 。 我 们 发 现 ， 使 用 这 个 版 本 的 Linux， 处 理 器 
处 理 一 个 计时 器 中 世上 只 花费 了 大 约 3 500 个 周期 。 即 使 是 在 负载 很 重 的 机 器 上 ， 它 允许 进程 一 次 最 
多 运行 大 约 180ms。 这 个 试验 表明 操作 系统 的 内 部 细节 会 极 大 地 影响 系统 性 能 和 我 们 获得 准确 测量 
值 的 能 力 。 
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7.17 上 次 最 优 测 量 方法 在 使 用 较 老 内 核 版 本 的 IA32/Linux 系统 上 的 试验 验证 
在 这 个 系统 上 ， 即 使 是 对 有 较 长 执行 时 间 的 程序 ， 特 别 是 在 负载 很 轻 的 机 器 上 ， 我 们 也 能 获得 更 准确 的 测量 值 。 


图 9.18 展示 了 在 Windows-NT 系统 上 的 结果 。 总 地 来 说 ， 这 些 结果 类 似 于 那些 较 老 Linux 系统 的 
结果 。 对 于 短 时 间 的 计算 ， 或 者 在 负载 很 轻 的 机 器 上 ， 我 们 可 以 获得 准确 的 测量 值 。 在 这 种 情况 中 ， 
我 们 的 准确 度 是 大 约 0.01 (也 就 是 1.0%), 而 不 是 0.001。 不 过 , 对 于 大 多 数 应 用 来 说 ,这 就 足够 好 了 。 
男 外 ， 在 负载 很 重 的 机 器 上 ， 我 们 可 靠 的 和 不 可 靠 的 测量 值 之 亲 的 门限 值 大 约 是 48ms。 一 个 有 趣 的 
特性 是 ， 有 时 候 在 负载 很 重 的 机 器 上 ， 即 使 是 对 最 长 245 ms 的 计算 ， 我 们 也 能 够 获得 准确 的 测量 值 。 
EA: NT 的 调度 器 有 时 候 会 允许 进程 保持 活动 较 长 的 一 段 时 间 ， 但 是 我 们 不 能 依靠 这 个 属性 。 

Compaq Alpha 的 结果 如 图 9.19 所 示 。 我 们 再 次 发 现 ， 在 负载 很 轻 的 机 器 上 ， 几 乎 任意 持续 时 
则 的 程序 测量 出 来 的 误差 都 小 于 1.0%。 在 负载 很 重 的 机 器 上 ， 只 有 持续 时 间 小 于 大 约 10ms 的 程序 
才能 被 准确 测量 。 


582 第 9 章 
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2.18 K 次 最 优 测量 方法 在 Windows-NT 系统 上 的 试验 验证 


人 在 负载 很 轻 的 机 器 上 ， 我 们 总 是 能 获得 准确 的 测量 值 ( 误 差 大 约 为 1.0% )。 在 负载 很 重 的 机 器 上 ， 对 于 时 长 大 于 大 约 48ms 的 
测量 ， 准 确 性 变 得 非常 差 。 
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预期 的 CPU 时间 (ms) 
9.19 上 次 最 优 测量 方法 在 Compaq Alpha 系统 上 的 试验 验证 


对 于 负载 很 轻 的 系统 ， 我 们 总 是 能 获得 准确 (误差 < 1.0%) 的 测量 值 。 对 于 负载 很 重 的 系统 ， 大 于 10ms 的 持续 时 间 就 不 能 
被 准确 地 测量 了 。 


练习 题 9.7 
假设 我 们 希望 测量 一 个 需要 tms 的 过 程 。 机 器 的 负载 很 重 ， 因 此 不 允许 我 们 的 测量 进程 一 次 运 
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行 超过 50ms. 

A. 每 次 试验 都 包括 测量 这 个 过 程 的 一 次 执行 . 假设 一 次 试验 从 50 ms 时 间 段 中 某 个 任意 时 间 点 
开始 ， 允 许 这 次 试验 运行 完成 而 不 会 被 交 撞 出 来 的 概率 是 多 少 ? 将 你 的 答案 表示 成 ¢ 的 一 个 函数 ， 
考虑 所 有 可 能 的 t 的 值 。 

B. 为 了 使 其 中 的 三 次 测量 是 这 个 过 程 的 可 靠 测量 (也 就 是 , 那些 在 一 个 时 间 段 之 内 完成 的 运行 )， 
预期 所 需 的 测量 次 数 是 多 少 ? 将 你 的 答案 表示 成 t 的 一 个 函数 。 你 预测 t = 20 fot = 40 时 这 些 值 应 该 
是 多 少 ? 

观察 

这 些 试 验证 明 K 次 最 优 测量 方法 在 多 种 机 器 上 都 工作 得 相当 好 。 对 于 负载 很 轻 的 处 理 器 ， 在 大 
多 数 机 器 上， 即使 是 对 长 持续 时 间 的 计算 ， 它 总 是 能 得 到 准确 的 结果 。 只 有 较 新 版 本 的 Linux 会 导 
致 非常 高 的 计时 器 中 断 开 销 ， 严 重 影 响 测 量 的 准确 性 。 对 于 这 个 系统 ， 补 偿 这 种 开销 会 极 大 地 提高 
测量 的 准确 性 。 

在 负载 很 重 的 机 器 上 ， 当 执行 时 间 变 得 比较 长 时 ， 获 得 准确 的 测量 值 变 得 很 困难 。 大 多 数 系 统 
都 有 某 个 最 大 执行 时 间 ， 当 最 大 执行 时 间 超 出 了 测量 界限 ， 那 么 准确 度 会 变 得 非常 糟 米 。 这 个 门限 
值 高 度 依赖 于 系统 ， 但 是 通常 是 在 10 一 200ms 之 间 。 


9.5 基于 gettimeofday 函数 的 测量 


我 们 对 IA32 周期 计数 器 的 使 用 提供 了 高 精度 计时 测量 ， 但 是 它 有 个 缺陷 ， 那 就 是 只 能 工作 在 
IA32 系统 上 。 最 好 是 有 一 个 可 移植 性 更 好 的 解决 方法 。 我 们 看 到 库 函 数 times Al clock 是 用 间隔 计 
数 器 来 实现 的 ， 因 此 不 是 十 分 准确 。 

万 一 个 可 能 性 是 使 用 库 函 数 gettimeofday。 这 个 函数 查询 系统 时 钟 (system clock) 以 确定 当前 
的 日 期 和 时 间 。 


#include "time.h" 


struct timeval { 
long tv_sec; /* Seconds */ 
long tv_usec; /* Microseconds */ 


} 


int gettimeofday(struct timeval *tv, NULL); 


返回 : 若 成 功 则 为 0， 落 失败 则 为 -1。 


这 个 疼 数 把 时 间 写 入 到 一 个 调用 者 传递 过 来 的 结构 中 ， 这 个 结构 包括 一 个 单位 为 s 的 字段 ， 还 
有 一 个 单位 为 hs 的 字段 。 第 一 个 字段 存放 的 是 自从 1970 年 1 月 1 日 以 来 经 过 的 总 秒 数 (对 于 所 有 
的 Unix 系统 来 说 , 这 都 是 一 个 标准 的 参考 点 )。 注意 , 在 Linux 系统 上 , gettimeofday 的 第 二 个 参数 ， 
应 该 简单 地 置 为 NULL， 因 为 它 指向 一 个 未 被 实现 的 执行 时 区 校正 的 特性 。 


在 一 个 32 ) 位 机 器 上 ， 到 什么 日 期 gettimeofday 写 入 到 tv_sec 字段 的 值 会 是 页 数 ? 
如 图 9.20 所 示 ， 我 们 可 以 用 gettimeofday 来 创建 两 个 计时 器 水 数 start_timer 和 get_timer， 它 们 
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类 似 于 我 们 的 周期 计时 函数 ， 除 了 它们 的 测量 时 间 是 以 秒 为 单位 ， 而 不 是 以 时 钟 周期 为 单位 的 。 


code/perf/tod.c 
1 #include <sys/time.h> 
2 #inciude <unistd.h> 
3 
4 static struct timeval tstart; 
9 
6 /* Record current time */ 
7 void start_timer () 
8 
9 gettimeofday (&tstart, NULL); 
10 } 
11 
12 /* Get number of seconds since last call to start_timer */ 
13 double get_timer() 
14 { 
15 struct timeval tfinish; 
16 long sec, usec: 
1? 
18 gettimeofday(&tfinish, NULL); 
19 sec = tfinish.tv_sec - tstart.tv_sec; 
20 usec = tfinish.tv_usec - tstart.tv_usec; 
21 return sec + le-6*usec; 
22 } 

code/perf/tod.c 


9.20 使 用 Unix gettimeofday 的 计时 过 程 
这 段 代码 可 移植 性 非常 好 ， 但 是 它 的 准确 性 依赖 于 时 钟 是 如 何 实现 的 。 


这 种 计时 机 制 依赖 于 gettimeofday 是 如 何 实现 的 , 而 gettimeofday 的 实现 是 随 系 统 的 不 同 而 不 
HH. BRAR EA Ayus 为 单位 的 测量 值 看 上 去 非常 好 ， 但 是 事实 证 明 测量 值 并 不 总 是 那么 
准确 .图 9.21 展示 了 在 几 个 不 同 的 系统 上 测量 这 个 函数 的 结果 。 我 们 定义 函数 的 分 辨 度 (resolution ) 
为 计时 器 可 以 分 辨 的 最 小 时 间 值 。 我 们 通过 反复 调用 gettimeofday 直到 写 到 第 一 个 参数 的 值 改 变 
了 ， 来 计算 这 个 值 。 那 么 ， 分 辨 度 就 是 它 改 变 了 的 hs 数 。 正 如 这 张 表 所 示 ， 有 些 实现 实际 上 可 以 
分 辨 hs 级 的 时 间 ， 而 另 一 些 就 没 那 么 精确 了 。 有 这 样 一 些 差别 ， 是 因为 有 些 系统 用 周期 计数 器 来 
实现 这 个 水 数 ， 而 其 他 系统 是 用 间隔 计数 的 。 在 前 者 那 种 情况 中 ， 分 辨 度 可 以 非常 高 一 一 潜在 地 
局 于 数据 表示 提供 的 Ims 的 分 辨 度 。 在 后 面 那 种 情况 中 ， 分 辨 度 会 很 糟糕 一 一 几乎 和 函数 times 
和 clock 提供 的 相当 。 


图 9.21 还 展示 了 在 各 种 系统 上 调用 get_timer 所 需 的 执行 时 间 (latency )。 这 个 属性 表明 了 调用 
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这 个 函数 所 需要 的 最 小 时 间 。 我 们 通过 反复 调用 这 个 函数 直到 经 过 了 ls, HAL 除 以 调用 的 次 数 ， 
来 计算 这 个 值 。 正 如 看 到 的 那样 ， 在 大 多 数 系 统 上 ， 这 个 函数 调用 需要 大 约 tms， 而 在 其 他 系统 上 
需要 几 个 ms。 相 比 之 下 ， 我 们 的 过 程 get_counter 每 次 调用 只 需要 大 约 0.2ms。 一 般 而 言 ， 系 统 调用 
比 普通 的 函数 调用 需要 更 多 的 开销 。 这 个 执行 时 间 还 限制 了 我 们 测量 的 精确 度 。 即 使 数据 结构 允许 
以 更 高 分 辨 度 的 单位 来 表达 时 间 ， 但 是 当 每 次 测量 引起 这 么 长 时 间 的 延迟 时 ， 我 们 还 是 不 清楚 能 够 
多 么 准确 地 测量 时 间 。 


Pentium Il, Windows-NT 


Compaq Alpha 


Pentium IH Linux ] 
Sun UltraSparc 2 
9.2) gettimeofday 实现 的 特性 


有 些 实现 使 用 的 是 间 隐 计数 ， 而 其 他 的 使 用 的 是 周期 计时 器 。 这 极 大 地 影响 了 测量 的 精确 性 。 
图 9.22 展示 了 我 们 从 一 个 使 用 gettimeofday 而 不 是 我 们 自己 的 孙 数 来 访问 周期 计数 器 的 K 次 
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图 9?.22 使 用 gettimeofday 函数 的 K 次 最 优 测量 方法 的 试验 验证 


Linux 是 用 周期 计数 器 来 实现 这 个 函数 的 ， 所 以 精确 度 与 我 们 的 计时 例 程 一 样 。Windows-NT 用 间隔 计数 来 实现 这 个 函数 的 ， 
因此 精确 度 很 低 ， 特 别 是 对 于 短 的 持续 时 间 来 说 。 
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最 优 测 量 方 法 的 实现 得 到 的 性 能 。 我 们 展示 了 在 两 个 不 同 机 器 上 的 结果 ， 以 说 明 时 间 分 辨 度 对 精 
确 性 的 影响 。 在 Windows-NT 系统 上 的 测量 值 表明 的 特性 类 似 于 我 们 在 Linux 系统 上 使 用 times 
时 友 现 的 特性 (图 9.8)。 因 为 gettimeofday 是 用 进程 计时 器 来 实现 的 ， 所 以 误差 可 能 是 负 的 ， 也 
可 能 是 正 的 ， 对 于 短 持 续 时 间 的 测量 ， 尤 其 不 规律 。 对 于 较 长 的 持续 时 间 ， 准 确 性 有 所 改进 ， 直 
到 对 于 超过 200ms 的 持续 时 间 误 差 小 于 2.0% 时 。 在 Linux 系统 上 测量 值 给 出 的 结果 类 似 于 直接 使 
用 周期 计数 硒 时 得 到 的 结果 。 通 过 比较 图 9.14 中 负载 1 结果 的 测量 值 (没有 进行 补偿 ) 和 图 9.16 
中 结果 的 测量 值 (进行 了 补偿 )， 可 以 看 出 这 一 点 。 使 用 了 补偿 ， 即 使 是 对 长 达 300ms 的 测量 ， 
我 们 也 可 以 获得 好 于 0.04% 的 准确 度 。 因 此 ，gettimeofday 与 直接 访问 这 台 机 器 上 的 周期 计数 器 完 
成 得 一 样 好 。 


9.6 a: 一 个 实验 协议 


我 们 可 以 以 协议 的 形式 总 结 一 下 我 们 的 试验 发 现 ， 来 确定 如 何 回 答 这 个 问题 :“ 程 序 X 在 机 器 
Y 上 运行 得 有 多 快 ? ” 

。 WA X 预期 的 运行 时 间 很 长 (例如 ， 大 于 1.0s)， 那 么 间隔 计数 应 该 就 工作 得 足够 好 了 ， 而 
日 对 处 理 器 负载 不 敏感 。 

。 A XX 预期 的 运行 时 间 在 范围 大 约 0.01 一 1.0s 之 间 ， 那 么 在 负载 很 轻 的 系统 上 ， 使 用 准确 
的 、 基 于 周期 的 计时 来 进行 测量 就 很 重要 了 。 我 们 应 该 执行 gettimeofday 库 函 数 的 测量 ， 
来 确定 它 在 机 器 Y 上 的 实现 是 基于 周期 的 ， 还 是 基于 间隔 的 。 
。 如 末 函 数 是 基于 周期 的 ， 那 么 用 它 作 为 次 最 优 计 时 函数 的 基础 。 
© 如 采 男 数 是 基于 间隔 的 ， 那 么 我 们 必须 找到 一 些 使 用 机 器 的 周期 计数 器 的 方法 。 这 可 

能 会 需要 汇编 语言 编码 。 

。 如 未 XX 预期 的 运行 时 间 小 于 大 约 0.01s， 那 么 只 要 使 用 的 是 基于 周期 的 计时 ， 即 使 是 在 负载 
很 重 的 机 器 上 ， 也 可 以 完成 精确 的 测量 。 那 么 ， 我 们 着 手 用 gettimeofday 或 直接 访问 机 器 
的 周期 计数 器 ， 来 实现 一 个 K 次 最 优 计时 函数 。 


9.7 展望 未 来 


系统 中 引入 了 几 个 对 性 能 测量 有 很 大 影响 的 特性 : 

© 与 进程 相关 的 周期 计时 。 对 于 操作 系统 来 说 ， 管 理 周期 计数 器 相对 比较 容易 ， 所 以 它 指明 
了 茶 个 进程 经 过 的 周期 数 。 那 么 ， 当 进程 重新 变 为 活动 时 ， 周 期 计数 器 被 设置 为 当 进 程 上 
(RAF) (deactivated) 时 它 的 值 ， 在 进程 不 活动 时 有 效 地 冻结 了 计数 器 。 当 然 ， 计 数 器 还 
在 会 受 和 内核 操 作 开销 和 高 速 缓存 的 影响 的 ， 但 是 至 少 其 他 进程 的 影响 不 会 很 严重 。 已 经 有 
一 些 系统 支持 这 个 特性 了 。 根 据 我 们 的 协议 ， 这 人 允许 我 们 使 用 基于 周期 的 计时 来 获得 大 于 
大 约 0.01s 持续 时 间 的 准确 测量 值 ， 即 使 是 在 负载 很 重 的 机 器 上 。 

© 频率 变化 的 时 钟 . 为 了 降低 功 耗 ， 未 来 的 系统 会 改变 时 钟 频率 ， 因 为 功 耗 直接 与 时 钟 频 
率 相 关 。 在 那 种 情况 中 ， 我 们 不 会 有 时 钟 周期 与 ns 之 间 的 一 个 简单 的 转换 。 甚 至 于 很 
难 知 道 应 该 用 哪个 单位 来 表达 程序 性 能 。 对 于 代码 优化 器 ， 通 过 计算 周期 ， 我 们 能 获得 
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更 多 的 了 解 ， 但 是 对 于 实现 带 实 时 性 能 限制 的 应 用 的 人 来 说 ， 实 际 运行 时 间 会 更 重要 一 
些 。 
98 ”现实 生活 : K 次 最 优 测 量 方法 
我 们 创建 了 一 个 库 函 数 fgyce， 它 使 用 区 次 最 优 方 法 来 测量 范 数 人 所 需要 的 时 人 钟 周期 数 ， 


#include "clock.h" 


#include "“fcyc.h" 


typedef void (*test_funct) (int *); 


double fcyc(test_funct f, int *params) ; 


返回 : 运行 参数 params 的 函数 f 所 使 用 的 周期 数 . 


参数 params 是 一 个 指 问 整数 的 指针 。 一 般 而 言 ， 它 可 以 指向 一 个 整数 数组 ， 这 个 数组 是 被 测量 
的 函数 的 参数 。 例 如 ， 当 测量 大 小 写 转换 了 消 数 lowerl 和 lower? 时 ， 我 们 传递 一 个 指向 一 个 int 的 指 
针 作 为 参数 ， 它 是 要 转换 的 字符 串 的 长 度 。 在 产生 存储 器 山 〈 第 6 章 ) 时 ， 我 们 可 能 要 传递 一 个 指 
回 大 小 为 2 的 数组 的 指针 ， 其 中 包括 大 小 积 步 长 。 

有 很 多 控制 测量 的 参数 ,例如 KK、E 和 M 的 值 ， 以 及 在 每 次 测量 之 前 是 和 否 要 清除 高 速 缓存 。 可 
以 用 同样 在 这 个 库 中 的 孔 数 来 设置 这 些 参 数 〈 详 情 请 参见 文件 fcyc.h)。 


9.9 得 到 的 经 验 教训 


通过 设计 一 种 准确 计时 方法 ， 以 及 在 许多 不 同 的 系统 上 评价 这 种 方法 的 性 能 的 努力 ， 我 们 学 到 

© 每 个 系统 都 是 不 同 的 。 关 于 硬件 、 操 作 系 统 和 库 函 数 实 现 的 细节 对 可 以 测量 哪 种 程序 以 及 
精确 度 可 以 达到 多 少 都 有 很 大 的 影响 。 

。 试验 可 以 是 非常 有 启迪 性 的 . 通过 运行 简单 试验 以 产生 活动 trace 的 方法 ， 我们 获得 了 对 操 
作 系 统 调度 程序 的 深入 了 解 。 这 产生 了 补偿 方法 ， 它 极 大 地 提高 了 在 负载 很 轻 的 Linx 系 
统 上 的 准确 性 。 一 个 系统 与 另 一 个 系统 是 不 同 的 ， 即 使 是 一 个 OS 内 核 也 与 下 一 个 版 本 的 
人 不同 ， 能 够 分 析 和 理解 影响 一 个 系统 性 能 的 各 个 方面 是 很 重要 的 。 

。 在 负载 很 重 的 系统 上 获得 准确 的 计时 特别 困难 。 大 多 数 系统 研究 者 在 专门 的 基准 系统 上 进 
行 他 们 所 有 的 测量 。 他 们 常常 关 掉 系统 的 许多 OS 和 网 络 特性 ， 以 减少 会 引起 不 可 预测 活 
动 的 因素 。 不 辛 的 是 ， 普 通 的 程序 员 没 有 这 么 奢侈 。 他 们 必须 与 其 他 用 户 共 享 系统 。 即 使 
是 在 负载 很 重 的 系统 上 ， 我 们 的 K 次 最 优 方法 对 于 测量 短 于 计时 器 间隔 的 持续 时 间 来 说 ， 
也 是 相当 健壮 的 。 


。 试验 建立 必须 控制 一 些 造成 性 能 变化 的 因素 .高 速 缓存 能 够 极 大 地 影响 一 个 程序 的 执行 时 
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闻 。 传 统 的 技术 是 在 计时 开始 之 前 ， 清 空 高 速 缓存 中 的 所 有 有 用 的 数据 ， 或 是 在 开始 时 ， 
把 通 弟 会 在 高 速 组 存 中 的 所 有 数据 部 加 载 进来 。 


9.10 JZ 


ASH aN eh oe a: “PE X 在 机 器 Y 上 运行 得 有 多 快 ? ” PME, tt 
算 机 系统 用 来 同时 运行 多 个 进程 的 机 制 使 得 很 难 获 得 程序 性 能 可 靠 的 测量 值 。 系 统 活动 倾向 于 在 两 
个 不 同 的 时 间 人 尺度 上 进行 。 在 微观 级 别 上 ， 每 条 指令 执行 的 时 间 是 以 ns 来 衡量 的 。 和 在 宏观 级 刚 上 ， 
输入 /输出 交互 发 生 的 延迟 是 以 ms 来 衡量 的 。 计 算 机 系统 通过 不 断 地 从 一 个 任务 切换 到 另 一 个 任务 
来 利用 这 种 差异 ， 一 次 运行 若干 ms。 

计算 机 系统 有 两 种 完全 不 同 的 记录 时 间 流 逝 的 方法 。 从 宏观 角度 来 看 ， 计 时 器 中 断 〈timer 
interrupt) 友 生 的 频率 似乎 很 快 , 但 是 从 微观 的 角度 来 看 却 很 慢 。 通 过 间 隅 计数 (interval counting), 
系统 能 够 获得 对 程序 执行 时 间 的 非常 粗略 的 测量 值 。 这 种 方法 只 对 长 持续 时 间 (至 少 1s) 的 测量 
有 有 几 。 周 期 计数 器 (cycle counter) 非常 快 ， 可 以 得 到 在 微观 尺度 上 很 好 的 测量 值 。 对 于 测量 绝对 
时 间 的 周期 计数 器 ， 上 下 文 切换 的 影响 能 够 导致 很 小 〈 在 负载 很 轻 的 系统 上 ) 到 很 大 (在 负载 很 
重 的 系统 上 ) 的 误差 。 因 此 ， 没 有 方法 是 完美 的 。 理 解 在 一 个 特殊 的 系统 上 能 够 获得 的 准确 度 是 
很 重要 的 。 

取决 于 前 面 存储 器 引用 和 条 件 分 支 的 历史 ， 高 速 缓存 和 分 支 预 测 的 影响 可 以 导致 执行 代码 
的 茶 个 片段 所 需 的 时 间 每 次 者 不同。 通过 事先 运行 某 些 将 高 速 缓存 设置 为 可 预测 状态 的 代码 ， 
我 们 可 以 部 分 地 控制 引起 这 种 变化 的 因素 ， 但 是 在 有 上 下 文 切换 发 生 时 ， 这 些 党 试 就 没有 用 了 。 
因此 ， 我 们 必须 进行 多 次 测量 ， 分 析 结 果 ， 以 确定 真实 的 执行 时 间 。 幸 运 的 是 ， 所 有 引起 变化 
的 因素 的 效果 都 是 增加 执行 时 间 ， 因 此 只 需 分 析 确 定 测 出 的 时 间 的 最 小 值 是 否 是 一 个 准确 的 测 
量 值 。 
通过 一 系列 的 试验 ， 我 们 能 够 设计 并 旦 验证 K 次 最 优 计 时 方法 ， 这 里 我 们 反复 进行 测量 ， 直 到 
最 快 的 K 个 值 都 在 某 个 互相 接近 的 范围 之 内 了 。 在 一 些 系 统 上 ， 我 们 能 够 使 测量 用 库 函 数 来 确定 时 
间 。 在 另 一 些 系统 上 ， 我 们 必须 通过 汇编 代码 来 访问 周期 计数 器 。 


参考 文献 说 明 

关于 程序 计时 的 文献 出 奇 得 少 。Stevens 的 Unix 编程 著作 f81] 记 录 了 程序 计时 的 所 有 各 种 库 对 
数 。Wadleigh 和 Crawford 的 关于 软件 优化 的 著作 [8$] 描 述 了 代码 剖析 和 标准 计时 函数 。 
REE 
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根据 图 9.3 所 示 trace 回答 下 列 问题 。 我 们 的 程序 估计 时 钟 频率 为 549.9MHz。 然 后 ， 通 过 周 
期 计数 值 来 计算 trace 中 的 毫秒 计时 值 。 也 就 是 说 ， 对 于 一 个 以 周期 来 表示 的 时 间 ce， 程 序 计算 毫 
Aur MEA c/$49900。 不 幸 的 是 ， 程 序 估计 时 钟 频率 的 方法 不 完善 ， 因 此 有 些 毫秒 计时 值 不 太 准 
确 。 

A. 这 个 机 器 的 计时 器 间隔 为 10ms。 这 些 时 间 段 中 的 哪些 是 由 计时 器 中 断 发 起 的 ? 

B. 根据 这 个 race， 操 作 系统 服务 一 个 计时 器 中 断 所 需 的 最 小 时 钟 周 期 数 是 多 少 ? 
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C. 根据 这 些 trace RHE, FATT AT SIA A EGE E 10.0ms， 你 推断 真实 的 时 钟 频 率 是 多 少 ? 

9.10 Oo 

ey SEPP, e 18 FS FE Ba BX sleep 和 times 来 确定 每 秒 时 钟 滴 符 的 近似 次 数 。 试 着 在 多 种 系统 
上 编译 并 运行 这 个 程序 。 试 着 找 出 两 个 不 同 的 系统 ， 它 们 产生 的 结果 至 少 相 差 两 倍 ， 

9.11 ©% 

我 们 可 以 用 周期 计数 器 来 生成 活动 的 trace, Rt REY 9.3 和 9.5 所 未 的 那样 。 使 用 图 数 start_counter 
和 get_counter 来 编写 一 个 图 数 : 


#include "clock.h" 


int inactiveduration(int thresh); 


返回 : 非 活 动 的 周期 数 ， 


这 个 际 数 不 断 地 检查 周期 计数 器 ， 并 察觉 什么 时 候 两 个 连续 的 读 之 间 相 差 多 于 thresh 个 周 
期 ， 这 表明 这 个 进程 已 经 处 于 不 活动 状态 了 。 返 回 这 个 不 活动 状态 的 持续 时 间 〈 以 时 钟 周 期 为 单 
位 )。 

912 © 

假设 我 们 以 参数 sleeptime 等 于 2 HARA mhz( 图 9.10)。 系 统 的 计数 器 间隔 为 10ms .假设 sleep 
是 按照 下 面 这 样 的 方法 来 实现 的 。 处 理 器 维护 一 个 计数 器 ， 每 次 发 生计 数 嚣 中断 时 ， 它 都 加 1。 当 
系统 执行 sleep(x) 时 ， 且 当 这 个 计数 器 达到 t+ 100x 时 ， 系 统 调度 这 个 进程 重新 启动 ， 这 里 t 是 计数 
器 的 当前 值 。 

A. Bw 表示 由 于 调用 sleep， 我 们 的 进程 处 于 不 活动 状态 的 时 间 。 忽 略 函 数 调用 、 计 时 器 中 断 
等 各 种 开销 ，w 的 取 值 范围 是 多 少 ? 

B. 假设 一 次 调用 mhz 得 到 1000.0。 再 次 忽略 各 种 开销 ， 真 实 的 时 钟 频率 可 能 的 范围 是 多 少 ? 
练习 题 答案 


练习 题 9.1 答案 

一 开始 ， 中 断 CPU， 并 执行 100 000 个 周期 只 为 了 处 理 一 次 击 键 ， 看 上 去 很 荒唐 。 不 过 ， 当 你 
仔细 研究 一 下 这 些 数据 ， 就 会 清楚 CPU 上 的 整个 负载 是 相当 轻 的 。 

100 WPM 对 应 于 每 秒 10 次 击 键 。100 个 输入 者 每 秒 使 用 的 周期 总 数 会 是 10 x 10x10 = 10'， 
也 就 是 处 理 器 能 够 提供 的 总 周期 数 的 10%。 


练习 题 9.2 答案 

这 个 问题 需要 和 仔细 地 研究 这 个 trace， 这 样 就 会 预期 出 模式 的 类 型 。 

A. 它们 每 9.98 一 9.99ms 发 生 一 次 : 358.93, 368.91, 378.89, 388.88, 398.86, 408.85, 418.83, 
428.81。 注 意 ， 没 有 用 和 斜体 表示 的 那些 数字 是 由 前 面 一 个 时 间 加 上 9.98 得 到 的 。 

B. “A” 中 用 射 体 表 示 那 些 时 间 。 它 们 引起 一 个 新 的 不 活动 周期 。 

C. 除了 花 在 执行 其 他 进程 上 的 时 间 以 外 ， 不 活动 时 间 还 包括 花 在 服务 两 个 中 断 上 的 时 间 。 
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D. 我 们 的 进程 每 20.0ms 会 活动 大 约 9.5ms， 也 就 是 总 时 间 的 47.5%. 


练习 题 9.3 答案 
这 道 题 就 是 简单 地 根据 正在 执行 的 进程 标 出 执行 顺序 ， 并 确定 这 个 进程 是 在 用 户 模 式 中 还 是 在 
内 核 模 式 中 。 
PAT Bo | A [I B | A | A 100u+40s 


B 80u + 30s 
Au AU AS Bu Bu Bu Bu Bs Bu As Au Au Au Au Bs Bu Bu Bu BS AU As Au Au Au As 


练习 题 9.4 答案 
这 是 个 很 有 趣 的 思考 题 。 它 帮助 你 推导 出 能 够 导致 一 个 给 定 的 间隔 计数 的 可 能 的 时 间 范 围 。 
下 图 说 明了 两 种 情况 : 


0 10 20 30 40 50 60 70 80 
对 于 最 小 的 情况 ， 片 断 刚 好 在 时 间 10 处 的 那个 中 断 之 前 开始 ， 刚 好 在 时 间 70 处 的 于 个 中 断 发 


生 时 结束 , 得 到 总 时 间 刚 好 超过 60ms。 对 于 最 大 的 情况 , 片断 刚好 在 时 间 0 处 的 那个 中 断 之 后 开始 ， 
并 且 一 真 持续 到 时 间 80 处 的 那个 中 断 之 前 结束 ， 得 到 总 时 间 刚 好 小 于 80ms。 


练习 题 9.5 答案 

这 个 习题 要 求 思考 的 是 记 账 (accouning) 方法 工作 得 如 何 。 当 进程 是 活动 时 ， 发 生 了 7 次 计数 
器 中 断 。 在 实际 的 trace 中 ， 进 程 在 用 户 模式 中 运行 了 63.7ms， 而 在 内 核 模式 中 运行 了 3.3ms。 计 数 
谐 过 高 地 估计 了 真实 的 执行 时 间 70/(63.7 + 3.3) = 1.04X。 

练习 题 9.6 答案 


这 个 习题 要 求 推 理 出 程序 中 各 种 导致 延迟 的 因素 ， 以 及 在 什么 情况 中 这 些 因素 会 起 作用 。 
根据 这 些 测量 值 ， 我 们 得 到 下 列 结论 : 
c+m+p+d= 399 
c+d=133+1 
c+p=317 
根据 这 些 结论 ， 我 们 可 以 断定 c= 100. d=33. p=217, fi m= 49. 


练习 题 9.7 答案 

这 违 题 要 求 将 概率 论 应 用 到 一 个 简单 的 进程 调度 模型 上 .。 它 说 明 当 时 间接 近 于 进程 时 间 极 限时 ， 
获得 准确 的 测量 值 变 得 非常 困难 。 

A. 对 于 上 过 50， 运 行 在 一 个 时 间 段 内 的 概率 是 1-W50。 对 于 1>50， 这 个 概率 是 0， 

B. 对 于 上 > $0， 我 们 永远 也 不 可 能 得 到 一 次 试验 ， 它 在 一 个 进程 时 间 段 内 执行 完毕 。 对 于 < 
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50， 成 功 的 概率 是 p = (50-0/50, Ale HA 3/p = 1$0(S0-0 次 运行 。 对 于 上 = 20, RMA 
要 5 次 运行 ， 而 对 于 上 = 40， 我 们 预期 需要 15 次 。 


练习 题 9.8 答案 

这 是 Unix 版 本 的 Y2K 问题 。 有 些 人 预测 当时 钟 绕 回来 时 会 是 一 场 全 面 的 灾难 。 就 像 对 待 Y2K 
一 样 ， 我 们 相信 这 些 恐 眉 是 没有 根据 的 。 

这 样 的 事情 会 在 1970 年 1 月 1 日 后 2” 秒 后 发 生 。 那 会 是 2038 年 1 月 19 ARR 3:14。 
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一 个 系统 中 的 进程 是 与 其 他 进程 共享 CPU 和 主 存 资源 的 。 然 而 ， 共 学 主 存 会 形成 一 些 特殊 的 挑 
战 。 随 着 对 CPU 需求 的 增长 ， 进 程 以 某 种 合理 的 平滑 方式 慢 了 下 来 。 但 是 如 果 太 多 的 进程 需要 太 多 
的 存储 器 (memory )， 那 么 它们 中 的 一 些 将 简单 地 根本 无 法 运行 。 当 一 个 程序 超出 空间 时 ， 它 就 会 
成 为 那个 运气 不 好 的 程序 。 

存储 器 还 很 容易 被 破坏 。 如 果 某 个 进程 不 小 心 写 了 另 一 个 进程 使 用 的 存储 器 ， 那 么 进程 可 能 以 
某 种 完全 和 程序 逻辑 碟 关 的 令 人 迷惑 的 方式 失败 。 

为 了 更 加 有 效 地 管理 存储 器 并 且 少 出 错 ， 现 代 系 统 提供 了 一 种 对 主 存 的 抽象 概念 ， 叫 做 虚拟 存 
储 器 〈(VM)。 虚 拟 存 储 器 是 硬件 异常 、 硬 件 地 址 翻译 、 主 存 、 磁 盘 文 件 和 内 核 软件 的 完美 交互， 它 
为 每 个 进程 提供 了 一 个 大 的 、 一 致 的 、 私 有 地址 空间 。 通 过 一 个 很 清晰 的 机 制 ， 虚 拟 存 储 器 提供 了 
三 小 重要 的 能 力 : 它 将 主 存 看 成 是 一 个 存储 在 磁盘 上 的 地 址 空间 的 高 速 缓存 ， 在 主 存 中 只 保存 活动 
区 域 ， 并 根据 需要 在 磁盘 和 主 存 之 间 来 回 传 送 数据 ， 通 过 这 种 方式 ， 它 高 效 地 使 用 了 主人 存 ; 它 为 每 
个 进程 提供 了 一 致 的 地 址 空间 ， 从 而 简化 了 存储 器 管理 ， 它 保护 了 每 个 进程 的 地 址 空间 不 被 其 他 进 
程 破坏 。 

虚拟 存储 器 是 计算 机 系统 最 重要 的 概念 之 一 。 它 成 功 的 一 个 主要 原因 就 是 因为 它 是 沉默 地 、 自 
动 地 工作 的 ， 不 震 要 应 用 程序 员 的 任何 干涉 。 婚 然 虚 极 存 储 器 在 幕后 工作 得 如 此 之 好 ， 为 什么 程序 
员 还 需要 理解 它 呢 ? ALA FLARA: 

© 虚拟 存储 器 是 中 心 的 。 虚 拟 和 存储 器 遍及 计算 机 系统 的 所 有 层面 ， 在 硬件 异常 、 汇 编 器 、 链 

接 雪 、 加 载 由 、 共 享 对 象 、 文 件 和 进程 的 设计 中 扮演 着 重要 角色 。 理 解 虚 拟人 存储 器 将 帮助 
你 更 好 地 理解 系统 通常 是 如 何 工 作 的 。 

。 虚拟 存储 器 是 强大 的 。 虚 拟 存 储 器 给 予 应 用 程序 强大 的 能 力 ， 可 以 创建 和 破坏 存储 器 块 、 
将 存储 器 抉 映射 到 磁盘 文件 的 某 个 部 分 ， 以 及 与 其 他 进程 共享 存储 器 。 比 如 ， 你 知道 你 可 
以 通过 谈 写 存储 器 位 置 读 或 者 修改 一 个 磁盘 文件 的 内 容 吗 ? 或 者 是 你 可 以 加 载 一 个 文件 的 
内 容 到 存储 器 中 ， 而 不 需要 进行 任何 显 式 地 拷贝 吗 ? 理解 虚拟 存储 器 将 帮助 你 利用 它 的 强 
大 功能 在 你 的 应 用 程序 中 添加 动力 。 

e。 虚拟 存储 器 是 危险 的 。 每 次 应 用 程序 引用 一 个 变量 、 间 接 引用 一 个 指针 ， 或 者 调用 一 个 庄 
如 malloc 这 梓 的 动态 分 配 包 程序 时 ， 它 就 会 和 虚拟 存储 器 发 生 交 互 。 如 果 虚 拟人 存储 器 使 用 
不 当 ， 应 用 将 过 到 复杂 险恶 的 与 存储 器 有 关 的 错误 。 例 如 ， 一 个 带 有 错误 指针 的 程序 可 以 
SPANAIR “BRR” RA “RRP RR”, 它 可 能 在 裔 省 之 前 还 默默 地 运行 了 几 个 小 时 ， 戈 
者 古 最 令 人 慰 民 地 ， 运 行 完成 ， 却 产生 不 正确 的 结果 。 理 解 虚 拟 存 储 器 ， 以 及 诸如 malloc 
之 类 的 管理 虚拟 存储 器 的 分 配 程序 包 ， 可 以 帮助 你 避免 这 些 错 误 。 

这 一 草丛 两 个 角度 来 讨论 虚拟 存储 器 。 本 章 的 前 一 部 分 描述 虚拟 存储 器 是 如 何 工 作 的 ， 后 一 部 
分 的 述 的 是 应 用 程序 如 何 使 用 和 管理 虚拟 存储 器 。 无 可 避免 的 事实 是 虚拟 存储 器 很 复杂 ， 本 章 很 多 
地 方 部 反映 了 这 一 点 。 好 消息 就 是 如 果 你 掌握 这 些 细 节 ， 你 就 能 够 手工 模拟 一 个 小 系统 的 虚拟 存储 
器 机 制 ， 而 有 旦 虚拟 存储 器 的 概念 将 永远 不 再 神秘 。 

第 二 部 分 是 建立 在 这 种 理解 之 上 的 ， 向 你 展示 了 如 何在 程序 中 使 用 和 管理 虚拟 存储 器 。 你 将 学 
会 如 何 通过 显 式 的 存储 器 映射 和 对 像 malloc 程序 包 这 样 的 动态 存储 分 配 程 序 的 调用 , 来 管理 虚拟 存 
fies. MER T HSC 程序 中 的 一 大 群 常见 的 与 存储 器 有 关 的 错误 ， 并 学 会 如 何 避 免 它们 的 出 现 。 


虚拟 存储 器 595 


10.1 ”物理 和 虚拟 寻 址 


计算 机 系统 的 主 存 被 组 织 成 一 个 由 M 个 连续 的 字 节 大 小 的 单元 组 成 的 数组 。 每 字 节 都 有 一 个 惟 
一 的 物理 地 址 (physical address，PA )。 第 一 个 字 节 的 地 址 为 0， 接 下 来 的 字 市 地 址 为 1， 和 再 下 一 个 
为 2， 依 此 类 推 。 给 定 这 种 简单 的 结构 ，CPU 访问 存储 器 的 最 自然 的 方式 就 是 使 用 物理 地 址 。 我 们 
把 这 种 方式 称 为 物理 寻 址 (physical addressing)。 图 10.1 展示 了 一 个 物理 寻 址 的 示例 ， 该 示例 的 上 
下 文 是 一 条 加 载 指 令 ， 读 取 从 物理 地 址 4 处 开始 的 字 。 


PNAN 


10.1 一 个 使 用 物理 寻 址 的 系统 


当 CPU 执行 这 条 加 载 指 令 时 ， 它 会 生成 一 个 有 效 的 物理 地 址 ,通过 存储 器 总 线 ， 把 它 传递 给 主 
人 存 。 主 存 取出 从 物理 地 址 4 处 开始 的 4 字 节 的 字 ， 并 将 它 返回 给 CPU CPU 会 将 它 存 放 在 一 个 寄存 
器 里 。 


早期 的 PC 使 用 物理 寻 址 ,而 且 诸 如 数字 信号 处 理 器 、 髓 入 式微 控制 器 以 及 Cray 超级 计算 机 这 
样 的 系统 仍然 继续 使 用 这 种 寻 址 方式 。 然 而 ， 为 通用 计算 设计 的 现代 处 理 器 使 用 的 是 虚拟 寻 址 


(virtual addressing), Æ WK 10.2. 


JONNA WH © 


BET 
图 10.2 一 个 使 用 虚拟 寻 址 的 系统 
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根据 虚拟 寻 址 ，CPU 通过 生成 一 个 虚拟 地 址 (virtual address, VA) 来 访问 主 存 ， 这 个 虚拟 地 址 
在 被 送 到 存储 器 之 前 先 转换 成 适当 的 物理 地 址 。 将 一 个 虚拟 地 址 转换 为 物理 地 址 的 任务 叫做 地 址 翻 
“ (address translation)。 就 像 异常 处 理 一 样 ， 地 址 翻译 需要 CPU 使 件 和 操作 系统 之 间 的 紧密 合作 。 
CPU 心 睛 上 叫做 MMU (memory management unit， 存 储 器 管理 单元 ) 的 专用 硬件 ,利用 存放 在 主 存 
中 的 查询 表 来 动态 翻译 虚拟 地 址 ， 该 表 的 内 容 由 操作 系统 管理 的 。 


10.2 ”地 址 空间 


地 址 空间 (address space ) 是 一 个 非 负 整数 地 址 的 有 序 集合 : 
{O, 1, 2, =°} 
如 果 地 址 空间 中 的 整数 是 连续 的 ， 邦 么 我 们 说 它 是 一 个 线性 地 址 空间 (linear address space). 
为 了 简化 我 们 的 讨论 ， 我 们 总 是 假设 使 用 的 是 线性 地 址 空间 。 在 一 个 带 虚拟 存储 器 的 系统 中 ，CPU 
从 一 个 有 N=2 "个 地 址 的 地 址 空间 中 生成 虚拟 地 址 ， 这 个 地 址 空间 称 为 虚拟 地 址 空间 (virtual address 
space): 
{O, 1, 2, =, N-l}. 
一 个 地 址 空间 的 大 小 是 由 表示 最 大 地 址 所 需要 的 位 数 来 描述 的 。 例如， 一 个 包含 N=2" 个 地 址 的 
虚拟 地 址 空间 就 叫做 一 个 n 位 地 址 空间 。 现代 系统 典型 地 都 支持 32 位 或 者 64 位 虚拟 地 址 空间 。 
一 个 系统 还 有 一 个 物理 地 址 空间 (physical address space )， 它 与 系统 中 物理 存储 器 的 M 个 字 节 
相对 应 : 
(0, 1, 2, «=, M-l}. 
MARREK, 但 是 为 了 简化 讨论 ， 我 们 假 没 M=2". 
地 址 空间 的 概念 是 很 重要 的 ， 内 为 它 清楚 地 区 分 了 数据 对 象 〈 字 节 ) 和 它们 的 属性 地址)。 
一 旦 我 们 认识 到 了 这 种 区 别 ， 那么 我 们 就 可 以 概括 总 结 ， 人 允许 每 个 数据 对 象 有 多 个 独立 的 地 址 ， 其 
中 每 个 地 址 都 选 自 一 个 不 同 的 地 址 空间 。 这 就 是 虚拟 存储 器 的 基本 思想 。 主 存 中 的 每 字 节 都 有 一 个 
选 目 虚拟 地 址 空间 的 虚拟 地 址 ， 和 一 个 选 自 物理 地 址 空间 的 物理 地 址 。 


练习 题 10.1 
完成 下 面 的 表格 ， 填 写 缺失 的 条 目 ， 并 且 用 适当 的 整数 取代 每 个 问号 。 利 用 下 列 单位 ， 天 =210 
(F) M=2 ( 兆 ， 百 万 ) G=2” (FR. H), 了 = 240 ( 万 亿 )， 已 =2” (FFX), E=2 


(FRA). 
HALLE CN) 最 大 可 能 的 虚拟 地 址 


HAH HeLa Cn) 
ie i 2 S e 
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10.3 ”虚拟 存储 器 作为 缓存 的 工具 


概念 上 而 言 ， 虚 拟 存储 器 (VM) 被 组 织 为 一 个 由 存放 在 磁盘 上 的 N 个 连续 的 字 节 大 小 的 单元 
组 成 的 数组 。 每 字 市 都 有 一 个 惟一 的 虚拟 地 址 ， 这 个 惟一 的 虚拟 地 址 是 作为 到 数组 的 索引 的 。 磁 盘 
土 数组 的 内 容 被 缓存 在 主 存 中 。 和 存储 器 层次 结构 中 其 他 缓存 一 样 ， 磁 盘 〈 较 低层 ) 上 的 数据 被 分 
割 成 块 ， 这 些 块 作为 磁盘 和 主 存 〈 较 高 层 ) 之 间 的 传输 单元 。VM 系统 通过 将 虚拟 存储 器 分 割 为 称 
为 虚拟 页 (virtual page, VP) 的 大 小 国定 的 块 ， 来 处 理 这 个 问题 。 每 个 虚拟 页 的 大 小 为 P= 27 字 节 。 
类 似 地 ， 物理 存储 器 被 分 割 为 物理 页 (physical page，PP)， 大 小 也 为 P 字 节 (物理 页 也 被 称 为 页 帧 ， 
page frame ) 。 

在 任意 时 刻 ， 虚 拟 页 面 的 集合 都 分 为 三 个 不 相交 的 子 集 ; 

© AAEM: VM 系统 还 林 分 配 (或 者 创建 ) 的 页 。 未 分 配 的 块 没有 任何 数据 和 它们 相关 联 ， 

因此 也 就 不 占用 任何 磁盘 空间 ， 

。 缓存 的 当前 缓存 在 物理 存储 器 中 的 已 分 配 页 。 

。 未 缓存 的 ， 没有 缓存 在 物理 存储 器 中 的 已 分 配 页 。 

图 10.3 的 示例 展示 了 一 个 有 8 个 虚拟 页 的 小 虚拟 存储 上 器。 虚拟 页 0 一 3 还 没有 被 分 配 ， 因 此 在 
磁 租 上 还 不 存在 。 虚 拟 页 1、4 和 6 被 缓存 在 物理 存储 器 中 。 页 2、5 和 7 已 经 被 分 配 了 ， 但 是 当前 
并 未 缓存 在 主 存 中 。 

虚拟 存储 器 物理 存储 器 
VP 0[_ 秒 分 本 的 ] ° 

a | 


-p_ 
JPP2m-p 1 


缓存 在 DRAM 中 
PRERA EA 的 物理 页 (PP) 
10.3 ”一 个 虚拟 存储 器 系统 是 如 何 使 用 主 存 作为 缓存 的 


10.3.1. DRAM 高 速 缓 存 的 组 织 结构 

为 了 帮助 我 们 清晰 理解 存储 层次 结构 中 不 同 的 缓存 概念 , 我 们 将 使 用 术语 SRAM 缓存 来 表示 位 
于 CPU 和 主 存 之 则 的 Ll M L2 高 速 缓存 ， 并 且 用 术语 DRAM 缓存 来 表示 虚拟 存储 器 系统 的 缓存 ， 
它 在 主 存 中 缓存 虚拟 页 。 

在 存储 层次 结构 中 ，DRAM 缓存 的 位 置 对 它 的 组 织 结 构 有 很 大 的 影响 。 回 想 一 下 ，DRAM 比 
SRAM 要 慢 大 约 10 倍 , i Re Ett DRAM 慢 大 约 100 000 多 倍 .因此 ,DRAM 缓存 中 的 不 命中 (miss ) 
比 起 SRAM 缓存 中 的 不 命中 要 晶 贵 得 多 ， 因 为 DRAM 缓存 不 命中 要 由 磁盘 来 服务 ， 而 SRAM 缓存 
不 命中 通常 是 由 基于 DRAM 的 主 存 来 服务 的 。 而且, 从 磁盘 的 一 个 扇 区 读 取 第 一 字 节 的 时 间 开 销 比 
起 谈 这 个 扇 区 中 后 面 的 字 节 要 慢 大 约 100 000 倍 。 归 根 到 底 ，DRAM 缓存 的 组 织 结构 完全 是 由 巨大 
的 不 命中 开销 驱动 的 。 
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因为 大 的 不 命中 处 罚 和 访问 第 - 字 节 的 开销 ， 虚 拟 页 趋向 于 很 大 ， 典 型 地 是 4~8KB. HFA 
的 不 命中 处 罚 ，DRAM 缓存 是 全 相 联 的 ， 也 就 是 说 ， 任 何 虚拟 页 都 可 以 放置 在 任何 的 物理 页 中 。 不 
命中 时 的 松 换 策略 也 很 重要 ， 因 为 替换 错 了 虚拟 页 的 处 罚 也 非常 之 高 。 因 此 ， 比 起 硬件 对 SRAM 组 
Fo 操作 系统 对 DRAM 缓存 使 用 了 更 复杂 精密 的 替换 算法 (这些 替 换算 法 超出 了 我 们 的 讨论 范围 )。 
最 后 ， 因 为 对 磁盘 的 访问 时 间 很 长 ，DRAM 缓存 总 是 使 用 写 回 〈 write-back )， 而 不 是 直 写 


(write-through ) 。 


10.3.2 Wie 

同 任何 缓存 一 样 ,虚拟 存储 器 系统 必须 有 某 种 方法 来 判定 一 个 虚拟 页 是 否 存放 在 DRAM 中 的 某 
个 地 方 。 如 果 是 ， 系 统 还 必须 确定 这 个 虚拟 页 存放 在 哪个 物理 页 中 。 如 果 不 命中 ， 系 统 必须 判断 这 
个 虚拟 页 存放 在 磁盘 的 哪个 位 置 ， 在 物理 存储 器 中 选择 一 个 牺牲 页 ， 并 将 虚拟 页 从 磁盘 拷贝 到 
DRAM 中 ， 迄 换 这 个 牺牲 页 。 

这 些 功能 是 由 许多 软 硬 件 联合 提供 的 ， 包 括 : 操作 系统 软件 、MMU (存储 器 管理 单元 ) 中 的 地 
址 翻译 便 件 ， 和 一 个 存放 在 物理 存储 器 中 叫做 页 表 〈page table) 的 数据 结构 。 页 表 将 虚拟 页 映射 到 
物理 页 。 每 次 地 址 翻译 硬件 将 一 个 虚拟 地 址 转换 为 物理 地 址 时 ， 都 会 读 取 页 表 。 操 作 系 统 负责 维护 
页 表 的 内 容 ， 以 及 在 磁盘 与 DRAM 之 间 来 回 传送 页 。 

图 10.4 展示 了 一 个 页 表 的 基本 组 织 结构 。 页 表 就 是 一 个 PTE (page table entry， 页 表 条 目 ) 的 
数组 。 虚拟 地 址 空间 中 的 每 个 页 在 页 表 中 的 一 个 固定 偏 移 量 处 都 有 一 个 PTE。 为 了 我 们 的 目的 ， 我 
们 将 假设 每 个 PTE 是 由 一 个 有 效 位 (valid bit) 和 一 个 mn 位 地 址 字段 组 成 的 。 有 效 位 表明 了 该 虚拟 
页 当前 是 个 被 缓存 在 DRAM 中 。 如 果 设 置 了 有 效 位 ， 那 么 地 址 字段 就 表示 DRAM 中 相应 的 物理 页 
的 起 始 位 置 ， 这 个 物理 页 中 缓存 了 该 虚拟 页 。 如 果 没 有 设置 有 效 位 ， 那 么 有 一 个 室 地 址 表示 这 个 虚 
拟 页 还 未 被 分 配 。 否 则 ， 这 个 地 址 就 指向 磁盘 上 虚拟 页 的 起 始 位 置 。 


物理 页 号 或 者 磁盘 地 址 物理 存储 器 (DRAM) 


常 六 存储 器 的 页 表 = “… [VP2 | 
(DRAM) s [Me ] 
~o Lo VvP4 | 

图 10.4 AR 


10.4 中 的 示例 展示 了 一 个 有 8 个 虚拟 页 和 4 个 物理 页 的 系统 的 页 表 。 四 个 虚拟 页 (VP1、VP2、 
VP4 和 VP7) 当前 被 缓存 在 DRAM 中 。 两 个 页 (VPO 和 VPS) 还 未 被 分 配 ， 而 剩 下 的 页 (Vp3 和 
VPO) 已 经 税 分 配 了 ， 但 是 当前 还 未 被 缓存 。 图 10.4 中 有 一 个 要 点 要 注意 ， 因 为 DRAM 缓存 是 全 
相 联 的 ， 任 意 物理 页 都 可 以 包含 任意 虚拟 页 。 
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练习 感 10.2 
确定 下 列 虚 拟 地 址 大 小 《n) 和 页 大 小 (已 ) 的 组 合 所 需要 的 PTE 数量 : 


10.3.3 页 命中 
考虑 一 下 当 CPU 读 虚 拟 存 储 器 的 一 个 字 时 ， 它 被 VP2 包含 且 被 缓存 在 PRAM 中 ， 会 发 生 什 么 
(参见 图 10.5)。 使 用 我 们 将 在 10.6 节 中 详细 描述 的 一 种 技术 ， 地 址 翻译 硬件 将 虚拟 地 址 作为 一 个 
索引 ， 来 定位 PTE2， 并 从 存储 器 中 读 取 它 。 既 然 设 置 了 有 效 位 ， 那 么 地 址 翻译 硬件 就 知道 VP2 是 
缓存 在 存储 器 中 的 了 ,所 以 它 使 用 PTE 中 的 物理 存储 器 地 址 (该 地 址 指向 PP0 中 缓存 页 的 起 始 位 置 )， 
构造 出 这 个 字 的 物理 地 址 。 


虚拟 地 址 物理 页 号 或 者 物理 存储 器 (DRAM) 


WEE Bg 
的 页 表 (DRAM) ~ 


10.5 VM 页 命中 
对 VP2 中 一 个 字 的 引用 就 命中 了 。 


10.3.4 RT 

在 虚拟 存储 器 的 习惯 说 法 中 ，PRAM 缓存 不 命中 称 为 缺 页 〈page fault). K 10.6 em SER 
之 前 我 们 的 示例 页 表 的 状态 。CPU 引用 了 VP3 中 的 一 个 字 ， 这 个 字 并 未 缓存 在 DRAM 中 。 地 址 翻 
详 便 件 从 存储 器 中 读 取 PTE3， 从 有 效 位 推断 出 VP3 未 被 缓存 ， 并 且 触 发 一 个 缺 页 异常 。 

ORO Se FS W FAN AP PR OS PR, 该 程序 会 选择 一 个 牺牲 页 , 在 此 例 中 就 是 存放 在 PP3 
中 的 VP4。 如 果 VP4 已 经 被 修改 了 ， 那 么 内 核 就 会 将 它 拷贝 加 磁盘 。 无 论 哪 种 情况 ， 内 核 都 会 修改 
VP4 的 页 表 条 日， 反映 出 VP4 不 再 缓存 在 主 存 中 这 一 事实 ， 

接 下 来 ， 内 核 从 磁盘 拷贝 YP3 到 存储 器 中 的 PP3， 更 新 PTFE3， 随 后 返回 。 当 异常 处 理 程序 返 
加 时 ， 它 会 重新 启动 导致 缺 页 的 指令 ， 该 指令 会 把 导致 缺 页 的 虚拟 地 址 重 发 送 到 地 址 翻译 硬件 。 但 
是 现在 , VP3 已 经 缓存 在 主 存 中 了 , 那么 页 命中 也 能 由 地 址 翻译 硬件 正常 处 理 了 , 就 像 我 们 在 图 10.5 
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中 看 到 的 那样 。 图 10.7 展示 了 在 缺 页 之 后 我 们 的 示例 页 表 的 状态 。 


虚拟 地 址 物理 页 号 或 者 物理 存储 器 (DRAM ) 
— Bpo 


虚拟 存储 器 (磁盘 ) 


PTE 7.1 [| Ver] 
常 驻 存储 器 的 页 表 En A VP 3 | 
come ~ CW 
“wee 


图 10.6 VM 人 缺 页 (之 前 ) 
对 VP3 中 的 字 的 引用 不 命中 ， 从 而 触发 了 缺 页 。 


虚拟 地 址 物理 页 号 或 者 物理 存储 器 (DRAM) 


有 效 位 磁盘 也 址 as VP 1 PPO 


虚拟 存储 器 磁盘 ) 
[vPI | 
qa [|__vP2 ] 

常 驻 存储 器 的 页 表 VPS] 


(DRAM ) ~| VP4 | 
TT VP6 | 
图 10.7 VM 缺 页 (之 后 ) 
缺 页 处 理 程序 选择 VP4 作为 牺牲 页 ， 并 从 磁盘 上 用 VP3 的 拷贝 取代 它 。 在 缺 页 处 理 程序 重新 启动 导致 缺 页 的 指令 之 后 ， 该 指 
令 将 从 存储 器 中 正常 地 读 取 字 ， 而 不 会 再 产生 异常 。 


虚拟 存储 器 是 在 20 世纪 60 年 代 早期 发 明 的 ， 远 在 CPU- 和 存储 器 之 间 差 距 的 加 大 引发 产生 
SRAM 绥 存 之 前 。 因 此 ， 虚 拟 存储 器 系统 使 用 了 和 SRAM 组 存 不 同 的 术语 ， 即使 它们 的 许多 概念 
是 相似 的 。 在 虚拟 存储 器 的 习惯 说 法 中 ， 块 被 称 为 页 。 在 磁盘 和 存储 器 之 间 传 送 页 的 活动 叫做 交 
换 《〈swapping) 或 者 页 面 调度 (paging)。 页 从 磁盘 换 入 (或 者 页 面 调 入 ) DRAM, MA DRAM 换 
出 到 (或 者 页 面 调 出 到 ) 磁盘 。 一 直 等 待 ， 直 到 最 后 时 刻 ， 也 就 是 当 有 不 命中 发 生 时 ， 才 换 入 页 
向 的 这 种 策略 被 称 为 按 需 页 面 调度 (demand paging)。 其 他 的 方法 也 是 可 能 的 ， 例如 尝试 着 预测 
不 命中 ， 在 页 面 实际 被 引用 之 前 就 换 入 页 面 。 然 而 ， 所 有 现代 系统 都 使 用 的 是 按 需 页 面 调度 的 方 
Ie 
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10.3.5 分 配 页 面 

图 10.8 展示 了 当 操 作 系 统 分 配 一 个 新 的 虚拟 存储 器 页 时 ， 对 我 们 示例 页 表 的 影响 ， 例 如 ， 调 用 
malloc 的 结果 。 在 这 个 示例 中 ,通过 在 磁盘 上 创建 空间 ， 并 更 新 PITE$， 使 它 指 向 磁盘 上 这 个 新 创建 
的 页 面 ， 从 而 分 配 VPS. 


物理 页 号 或 者 
磁盘 地 址 物理 存储 器 (DRAM) 


WP 
MER BII RR “YE 
ea 

(DRAM) so 


10.8 ”分配 一 个 新 的 虚拟 页 面 
内 核 在 磁盘 上 分 配 VPS, HHH PTE5 指向 这 个 新 的 位 置 。 


10.3.6 局 部 性 再 次 搭救 

当 我 们 中 的 许多 人 都 了 解 了 虚拟 存储 器 的 概念 之 后 ， 我 们 的 第 一 印象 通常 是 它 的 效率 想必 是 非 
冲 低 。 假 设 不 命中 处 如 很 大 ， 我 们 会 担心 页 面 调 度 会 破坏 程序 性 能 。 实 际 上 ， 虚 拟 存 储 器 工作 得 相 
当 好 ， 这 主要 归功 于 我 们 的 老 朋 友 局 部 性 〈locality )。 

尽管 在 整个 运行 过 程 中 程序 引用 的 不 同 页 面 的 总 数 可 能 超出 物理 存储 器 总 的 大 小 ， 但 是 局 部 性 原 
则 保证 了 在 任意 时 刻 ， 这 些 页 面 将 趋向 于 在 一 个 较 小 的 活动 页 面 (active page) 集合 上 工作 ， 这 个 集 
AMALE (working set) 或 者 常 驻 集合 (resident set)。 在 初始 开销 ， 也 就 是 将 工作 集 页 面 调度 到 
存储 器 中 ， 之 后 ， 接 下 来 对 这 个 土 作 集 的 引用 将 导致 命中 ， 而 不 会 产生 额外 的 磁盘 流量 。 

只 要 我 们 的 程序 有 好 的 时 间 局 部 性 ， 虚 拟 存 储 器 系统 就 能 工作 得 相当 好 。 但 是 ， 当 然 ， 不 是 
所 有 的 程序 都 能 展现 良好 的 时 间 局 部 性 。 如 果 工 作 集 的 大 小 超出 了 物理 存储 器 的 大 小 ， 那 么 程序 
将 产生 一 种 不 笠 的 状态 ， 叫 做 颠 医 〈thrashing)， 这 时 页 面 将 不 断 地 换 进 换 出 。 虽 然 虚 拟 存 储 器 通 


弟 是 有 效 的 ， 但 是 如 果 一 个 程序 性 能 慢 得 像 公 一样， 那么 聪明 的 程序 员 会 考虑 看 是 不 是 发 生 了 其 
RE o 


Sit: RTA 
你 可 以 利用 Unix 的 getrusage 函数 监测 缺 页 的 数量 (以 及 许 条 其 他 的 信息 ). 
10.4 虚拟 存储 器 作为 存储 器 管理 的 工具 
在 上 一 市 中 , 我 们 看 到 虚拟 存储 器 是 如 何 提供 一 种 机 制 , 利用 DRAM 来 缓存 来 自 通常 更 大 的 虚 
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拟 地 址 空间 的 页 面 。 有 趣 地 是 ， 一 些 早期 的 系统 ， 比 如 DEC PDP-11/70， 支 持 的 是 一 个 比 物 理 存储 
器 更 小 的 虚拟 地 址 空间 。 然 而 , 虚拟 地 址 仍然 是 一 个 有 用 的 机 制 ， 因 为 它 大 大 地 简化 了 存储 器 管理 ， 
并 提供 了 一 种 简单 自然 的 保护 存储 器 的 方法 。 

到 目前 为 止 ,我们 都 假设 有 一 个 单独 的 页 表 ， 将 一 个 虚拟 地 址 空间 映射 到 物理 地 址 空间 。 实 
mE, 操作 系统 为 每 个 进程 提供 了 一 个 独立 的 页 表 , 因而 也 就 是 一 个 独立 的 虚拟 地 址 空间 。 图 10.9 
展示 了 基本 概念 。 在 这 个 示例 中 ， 进 程 i 的 页 表 将 VP] 映射 到 PP2，VP2 映射 到 PP7。 相 似 地 ， 
进程 j 的 页 表 将 VP1 到 PP7，VP2 映射 到 PP10。 注 意 ， 多 个 虚拟 页 面 可 以 映射 到 同一 个 共享 物理 
页 面 上 。 


虚拟 地 址 空间 物理 存储 器 
R 

6 | 

= 地 址 翻译 Mo 
VP 2 

N-1 r~ 

k E 

A 

o~ on Oe 
Bias aaa 
进程 j: i & -一 一 
N 一 1 
Tea 


图 10.? VM 如 何 为 进程 提供 独立 的 地 址 空间 
操作 系统 为 系统 中 的 每 个 进程 都 维护 一 个 独立 的 页 表 。 


按 需 页 面 调度 和 独立 的 虚拟 地 址 空间 的 结合 对 系统 中 存储 器 的 使 用 和 管理 造成 了 深远 的 影响 。 
符 别 地 ，VM 简化 了 链接 和 加 载 ， 共 享 代码 和 数据 ， 以 及 对 应 用 分 配 存 储 器 。 


10.4.1 简化 链接 

独立 的 地 址 空间 允许 每 个 进程 为 它 的 存储 器 映像 使 用 相同 的 基本 格式 ， 而 不 管 代码 和 数据 实际 
存放 在 物理 存储 器 的 何 处 。 例 如 ， 每 个 Linux 进程 都 使 用 图 10.10 所 示 的 格式 。 

文本 区 总 是 从 虚拟 地 址 0x08048000 处 开始 ， 栈 总 是 从 地 址 Oxbfffffff 向 下 伸展 ， 共 享 库 代 码 总 
是 从 地 址 0x40000000 处 开始 ， 而 操作 系统 代码 和 数据 总 是 从 地 址 0xc0000000 开始 。 这 样 的 一 致 性 
极 大 地 简化 了 链接 器 的 设计 和 实现 ， 人 允许 链 接 器 生成 全 链接 的 可 执行 文件 ， 这 些 可 执行 文件 是 独立 
于 物理 存储 器 中 代码 和 数据 的 最 终 位 置 的 。 


10.4.2 简化 共享 

独立 地 址 空间 为 操作 系统 提供 了 一 个 管理 用 户 进程 和 操作 系统 自身 之 间 共 享 的 一 致 机 制 。 一 般 
而 言 ， 每 个 进程 都 有 自己 私有 的 代码 、 数 据 、 堆 以 及 栈 区 域 ， 是 不 和 其 他 进程 共享 的 。 在 这 种 情况 
中 ， 抬 作 系统 创建 页 表 ， 将 相应 的 虚拟 页 映射 到 不 同 的 物理 页 面 。 

然而 ， 在 一 些 情况 中 ， 还 是 需要 进程 来 共享 代码 和 数据 。 例 如 ， 每 个 进程 必须 调用 相同 的 操作 
系统 内 核 代 码 ， 而 每 个 C 程序 都 会 调用 标准 库 中 的 程序 ， 比 如 printf。 操 作 系 统 通 过 将 不 同 进程 中 
适当 的 虚拟 页 面 映 射 到 相同 的 物理 页 面 ， 从 而 安排 多 个 进程 共享 这 部 分 代码 的 一 个 拷贝 ， 而 不 是 在 
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每 个 进程 中 都 包括 单独 的 内 核 和 C 标准 库 的 拷贝 。 


| PY A OE aU FF fi a 

| FAP 

| ‘在 运行 时 创建 ) 

| 共享 库 的 存储 器 映射 区 域 


几 户 代码 不 
OT DL ADF a 


Oxc0900000 


4 一 4esp( 栈 指针 ) 


0x40000000 | 


— a «—brk 
iB fT yf HE 
| 《运行 时 出 malloc 创建 》 
读 / 写 段 
(.data、 .bss) 


/ Ree 
C.init. .text. .rodata) 


0x08048000 | 


从 可 执行 文件 加 载 


0 


图 10.10 一 个 Linux 进程 的 存储 器 映像 
程序 总 是 从 虚拟 地 址 0x8048000 处 开始 .用 户 栈 总 是 从 虚拟 地 址 0xbfffffff 处 开始 。 共 享 对象 总 是 加 载 在 从 虚拟 地 址 0x40000000 
处 开始 的 区 域内 ， 


10.4.3 ”简化 存储 器 分 配 

虚拟 存储 器 为 向 用 户 进程 提供 一 个 简单 的 分 配额 外 存储 器 的 机 制 。 当 一 个 运行 在 用 户 进程 中 的 
程序 要 求 额外 的 堆 空 间 时 (例如 ， 调 用 malloc 的 结果 )， 操 作 系统 分 配 一 个 适当 数字 (例如 k) 个 连 
续 的 虚拟 存储 器 页面 ， 并 且 将 它们 映射 到 物理 存储 器 中 任意 位 置 的 k 个 任意 的 物理 页 面 。 由 于 页 家 


工作 的 方式 ， 操 作 系统 没有 必要 分 配 k 个 连续 的 物理 存储 器 页 面 。 页 面 可 以 随机 地 分 散在 物理 存储 
器 中 。 


10.4.4 简化 加 载 

虚拟 存储 器 也 使 加 载 可 执行 文件 和 已 共享 目标 文件 到 存储 器 中 变 得 容易 。 回 想 一 下 ，ELF 可 执 
行文 件 中 的 .text 和 .data 节 是 相 邻 的 。 为 了 加 载 这 些 节 到 一 个 新 创建 的 进程 中 ，Linux 加 载 程序 分 配 
了 一 个 从 地 址 0x08048000 处 开始 的 连续 的 虚拟 页 面 区 域 , 将 它们 标识 为 无 效 的 (也 就 是 未 缓存 的 )， 
并 将 它们 的 页 表 条 目 指向 目标 文件 中 适当 的 位 置 ， 

有 趣 的 一 点 是 加 载 器 从 不 真正 地 从 磁盘 中 拷 册 任何 数据 到 存储 器 中 。 当 每 个 页 面 第 一 次 被 引用 
时 ， 碟 拟 存储 器 系统 将 自动 并 按 需 地 把 数据 从 磁盘 上 调 入 到 存储 器 ， 页 面 引用 或 者 是 当 CPU 取 一 条 
指令 时 ， 或 者 是 当 一 条 正在 执行 的 指令 引用 一 个 存储 器 位 置 时 。 

映射 一 个 连续 虚拟 页 面 的 集合 到 任意 一 个 文件 中 的 任意 一 个 位 置 的 概念 叫做 存储 器 映射 

(memory mapping). Unix 提供 了 一 个 叫做 mmap 的 系统 调用 ， 人 允许 应 用 程序 进行 自己 的 存储 器 映 
射 。 我 们 将 在 10.8 节 中 更 详细 地 描述 应 用 层 存 储 器 映射 。 


0 


10.5 ” 虚 枫 存储 器 作为 存储 器 保护 的 工具 


任何 现代 计算 机 系统 必须 为 操作 系统 提供 手段 来 控制 对 存储 器 系统 的 访问 。 不 应 该 允许 一 个 用 
户 进 程 修改 它 的 只 读 文 本 段 ， 而 且 也 不 应 该 允许 它 读 或 修改 任何 内 核 中 的 代码 和 数据 结构 。 不 应 该 
允许 它 读 或 者 写 其 他 进程 的 私有 存储 器 ， 并 且 不 允许 它 修改 任何 与 其 他 进程 共享 的 虚拟 页 面 ， 除 非 
所 有 的 共享 者 都 显 式 地 允许 它 这 么 做 〈 通 过 调用 明确 的 进程 间 通 信 系 统 调 用 )。 

就 像 我 们 所 看 到 的 ， 提 供 独 立 的 地 址 空间 使 得 分 离 不 同 进 程 的 私有 存储 器 变 得 容易 。 但 是 ， 地 
址 翻译 机 制 可 以 以 一 种 自然 的 方式 扩展 到 提供 更 好 的 访问 控制 。 因为 每 次 CPU 生成 一 个 地 址 时 , 地 
址 翻译 便 件 部 会 读 一 个 PTE, 所 以 通过 在 PTE 上 添加 一 些 额 外 的 许可 位 来 控制 对 一 个 虚拟 页 面 内 容 
的 访问 ， 十 分 简单 .图 10.11 展示 了 一 般 的 概念 。 


带 许 可 位 的 页 表 
SUP READ WRITE ”地 址 
vPo:[ No | Yes | No | PP6 < 
进程 i VP1:| No | Yes | Yes | PP4 a. 


SUP READ WRITE ” 地址 


No [ves [No | PPO = 
Yes | Yes | Yes | PPS + 
[No | Yes | Yes [PPT 


VP O: 
进程 上 VP1: 
VP 2: 


10.11 用 虚拟 存储 器 来 提供 页 面 级 的 存储 器 保护 


在 这 个 示例 中 ， 我 们 已 经 添加 了 三 个 许可 位 到 每 个 PTE。SUP 位 表示 进程 是 否 必 须 运 行 在 内 核 
(超级 用 户 ) 模式 下 才能 访问 该 页 。 运 行 在 内 核 模 式 中 的 进程 可 以 访问 任何 页 面 ， 但 是 运行 在 用 户 
模式 中 的 进程 只 允许 访问 那些 SUP 为 0 的 页 面 。READ 位 和 WRITE 位 控制 对 页 面 的 读 和 写 访问 。 
例如 ， 如 果 进 程 i 运行 在 用 户 模 式 下 ， 那 么 它 有 读 VPO MS VP] 的 权限 。 然 而 ， 不 允许 它 访问 
VP2. 
如 果 一 条 指令 违反 了 这 些许 可 条 件 , 那么 CPU 就 触发 一 个 一 般 保 护 故障 ,将 控制 传递 给 一 个 内 
核 中 的 异常 处 理 程序 。Unix shell 典型 地 将 这 种 异常 报告 为 “ 段 错 误 (segmentation fault)”. 


10.6 地址 翻译 


这 一 市 讲述 的 是 地 址 翻译 的 基础 知识 。 我 们 的 目标 是 让 你 对 硬件 在 支持 虚拟 存储 器 中 的 角色 有 
正确 的 评价 ， 并 给 你 足够 多 的 细节 使 得 你 可 以 亲手 演示 一 些 具 体 的 示例 。 不 过 ， 要 记 住 我 们 省 梧 了 
大 量 的 细节 ， 尤 其 是 和 时 钟 相关 的 细节 ， 虽 然 这 些 细节 对 硬件 设计 者 来 说 是 非常 重要 的 ， 但 是 超出 
了 我 们 讨论 的 范围 。 图 10.12 概括 了 我 们 在 这 节 里 将 要 使 用 的 所 有 符号 ， 供 你 参考 。 

地 址 翻译 是 一 个 N 元 素 的 虚拟 地 址 空间 (VAS) 中 的 元 素 和 一 个 M 元 素 的 物理 地 址 空间 (PAS) 
中 元 素 之 间 的 映射 
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MAP: VAS > PAS U @ 

这 里 

MAP (A) =A' 如 果 虚 拟 地 址 A 处 的 数据 在 PAS 的 物理 地 址 A' 处 。 

= Ø 如 果 虚 拟 地 址 A 处 的 数据 不 在 物理 存储 器 中 

图 10.13 展示 了 MMU 是 如 何 利 用 页 表 来 实现 这 种 映射 的 。CPU 中 的 一 个 控制 寄存 器 ， 页 表 基 
址 寄存 器 (page table base register, PTBR) 指向 当前 页 表 。n 位 的 虚拟 地 址 包含 两 个 部 分 : 一 个 p 
位 的 VPO (virtual page offset， 虚 拟 页 面 偏 移 ) 和 一 个 (n-p) 位 的 VPN (virtual page number， 虚 拟 
RS). MMU 利用 VPN 来 选择 适当 的 PTE. 例如 ，VPN0 选择 PTE0, VPN1 选择 PTE1， 以 此 类 推 。 
将 页 表 条 目 中 PPN (physical page number， 物 理 页 号 ) 和 虚拟 地 址 中 的 VPO 串联 起 来 ， 就 得 到 相应 
的 物理 地 址 。 注意 ， 因 为 物理 和 虚拟 页 面 都 是 P 字 节 的 ， 所 以 PPO (physical page offset， 物 理 页 面 
偏 移 ) 和 VPO 是 相同 的 。 


基本 参数 


描述 


高 速 缓存 索引 
高 速 缓存 标记 


图 10.12 地 址 翻译 符号 小 结 


图 10.14 (a) 展示 了 当 出 现 页 面 命中 时 ，CPU 硬件 执行 的 步骤 。 

e 第 一 步 : 处 理 器 生成 一 个 虚拟 地 址 ， 并 把 它 传送 给 MMU. 

。 第 二 步 : MMU 生成 PTE 地 址 ， 并 从 高 速 缓存 / 主 存 请 求 得 到 它 。 

。 第 三 步 : 高 速 缓存 / 主 存 向 MMU 返回 PTE. 

© 第 四 步 MMU 构造 物理 地 址 ， 并 把 它 传送 给 高 速 缓存 / 主 存 。 

© FAD: 高速 缓存 / 主 存 返回 所 请 求 的 数据 字 给 处 理 器 。 

各 页面 命 中 不 同 的 是 ， 页 面 命中 完全 是 由 硬件 来 处 理 的 ， 而 处 理 缺 页 要 求 硬件 和 操作 系统 内 核 
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协作 完成 ， 如 图 10.14 (b). 


虚拟 地 址 
页 表 基 址 n-i pp 一 1 0 
寄 企 器 虚拟 页 号 (VPN) 虚拟 页 偏 移 量 (VPO ) 
(PTBR) | : | | | | | | 
有 效 位 物理 页 号 (PPN) 
i aa 
Er ee eee 
VPN 作 为 LT | | 
到 页 表 中 [Li | 1 .| 
的 索引 
如 果 有 效 位 = 0; 
那么 页 面 就 不 在 o | 
存储 器 中 《〈 缺 页 ) — . , , _ , , ) 
TETINE FPO) 


物理 地 址 
图 10.13 使 用 页 表 的 地 址 翻译 


(b) RR 


图 10.14 页 面 命中 和 缺 页 的 操作 视图 
VA: 虚拟 地 址 ，PTEA:， 页 表 条 目地 址 : PTE: ARH, PA: 物理 地 址 。 
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e 第 一 步 到 第 三 步 : 和 图 10.14 (a》 中 的 第 一 步 到 第 三 步 相同 。 

e ZRP: PTE 中 的 有 效 位 是 零 ， 所 以 MMU 触发 了 一 次 异常 ， 和 传递 CPU 中 的 控制 到 操作 系 
统 内 核 中 的 缺 页 异常 处 理 程序 。 

e 第 五 步 : 缺 页 处 理 程序 确定 出 物理 存储 器 中 的 牺牲 页 ， 如 果 这 个 页 面 已 经 被 修改 了 ， 则 把 
它 页 面 换 出 到 磁盘 。 

。 PAP: 缺 页 处 理 程 页 面 调 入 新 的 页 面 ， 并 更 新 存储 器 中 的 PTE. 

e 第 七 步 : 缺 页 处 理 程序 返回 到 原来 的 进程 ， 驱 使 导致 缺 页 的 指令 重新 启动 。CPU 将 引起 缺 
页 的 指令 重新 发 送 给 MMU 。 因 为 虚拟 页 面 现在 缓存 在 物理 存储 器 中 ， 所 以 就 会 命中 ， 在 
MMU 执行 了 图 10.14 (b) 中 的 步骤 之 后 ， 主 存 就 会 将 所 请 求 字 返回 给 处 理 器 。 


练习 生 10.3 
给 定 一 个 32 位 的 虚拟 地 址 空间 和 一 个 24 位 的 物理 地 址 ， 对 于 下 面 的 页 面 大 小 P， 确 定 VPN、 
VPO. PPN 和 PPO 中 的 位 数 . 


|p| #VPN 位 | #VPO 位 | #PPN 位 | #PPO 位 | 
xas | | 
xe | | | 
10.6.1 结合 高 速 缓存 和 虚拟 存储 器 

在 任何 既 使 用 虚拟 存储 器 又 使 用 SRAM 缓存 的 系统 中 , 都 有 应 该 使 用 虚拟 地 址 还 是 使 用 物理 地 
址 来 访问 高 速 缓存 的 问题 。 尽 管 关 于 这 个 折 中 的 详细 讨论 已 经 超出 了 我 们 的 讨论 范围 ， 但 是 大 多 数 
系统 是 选择 物理 寻 址 的 。 使 用 物理 寻 址 ， 多 个 进程 同时 在 高 速 缓存 中 有 存储 块 和 共享 来 自 相 同 虚拟 
页 面 的 块 成 为 很 简单 的 事情 。 而 且 ， 高 速 缓存 无 需 处 理 保护 问题 ， 因 为 访问 权限 的 检查 是 地 址 翻译 
过 程 的 一 部 分 。 

图 10.15 展示 了 一 个 物理 寻 址 的 高 速 缓存 如 何 和 虚拟 存储 器 结合 起 来 。 主 要 的 思路 是 地 址 翻译 
发 生 在 高 速 缓存 查找 之 前 。 注 意 页 表 条 目 可 以 缓存 ， 就 像 其 他 的 数据 字 一 样 。 


omic 


H1015 将 虚拟 存储 器 与 一 个 物理 寻 址 的 高 速 缓存 结合 起 来 
VA: MHH; PTEA: 页 表 条 目地 址 ; PTE， 页 表 条 目 ，PA， 物 理 地 址 。 


608 第 10 章 


10.6.2 ”利用 TLB 加 速 地 址 翻译 

正如 我 们 看 到 的 ， 每 次 CPU 产生 一 个 虚拟 地 址 ，MMU 就 必须 查阅 一 个 PTE， 以 便 将 虚拟 地 址 
翻译 为 物理 地 址 。 在 最 糟糕 的 情况 下 ， 这 会 要 求 一 次 对 存储 器 的 额外 的 取 数 据 ， 代 价 是 几 十 到 几 目 
个 周期 。 如 果 PTE 碰巧 缓存 在 Ll 中， 那么 开销 就 下 降 到 1 个 或 2 个 周期 。 然 而 ， 许 多 系统 都 试图 
消除 即使 是 这 样 的 开销 ， 它 们 在 MMU 中 包括 了 一 个 关于 PTE 的 小 的 缓存 ， 称 为 TLB (translation 
lookaside buffer， 翻 译 后 备 缓冲 器 )。 

TLB 是 一 个 小 的 、 虚 拟 寻 址 的 缓存 ， 其 中 每 一 行 都 保存 着 一 个 由 单个 PTE 组 成 的 块 。TLB Ñ 
常 有 高 度 的 相 联 性 。 如 图 10.16 所 示 ， 用 于 组 选择 和 行 匹配 的 索引 和 标记 字段 是 从 虚拟 地 址 中 的 虚 
拟 页 号 中 提取 出 来 的 。 如 果 TLB 有 T=2 个 组 ， 那 么 TLB 索引 (TLBI) 是 由 VPN 的 t 个 最 低位 组 
成 的 ， 而 TLB 标记 (TLBT) 是 由 VPN 中 剩余 的 位 组 成 的 。 


n 一 1 p+t p+t—1 pp-1 0 


TLB 标 记 (TLBT) | TLB 索引 (TLBI) | VPO 


~ 
VPN 


10.16 ”一 个 用 来 访问 TLB 的 虚拟 地 址 的 组 成 部 分 

图 10.17 (a) RANT 4S TLB 命中 时 (通常 情况 ， 所 包 插 的 步骤 。 这 里 的 关键 点 是 ， 所 有 的 地 址 
翻译 步骤 都 是 在 MMU 上 执行 的 ， 因 此 非常 快 。 

© 第 一 步 ，CPU 产生 一 个 虚拟 地 址 

© 第 二 步 和 第 三 步 ， MMU M TLB 中 取出 相应 的 PTE. 

© 第 四 步 : MMU 将 这 个 虚拟 地 址 翻译 成 一 个 物理 地 址 ， 并 且 将 它 发 送 到 高 速 缓存 / 主 存 。 

。 PA: 高 速 缓存 / 主 存 将 所 请 求 的 数据 字 返 回 给 CPU. 

当 TLB 不 命中 时 ，MMU 必须 从 L1 缓存 中 取出 相应 的 PTE， 如 图 10.17(b》 所 示 。 新 取出 的 
PTE 存放 在 TLB 中 ， 可 能 会 覆盖 一 个 已 经 存在 的 条 目 。 


CPU &H 
: TB { 
(2) VPN 四 PTE : (3) 
处 理 器 Q 翻译 : (4) 局 速 缓 存 / 
VA PA 存储 器 
©) 


(a) TLB 命中 
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(b) TLB 不 命中 
图 10.17 TLB 命中 和 不 命中 的 操作 视图 


106.3 多 级 页 表 

到 目前 为 止 , 我 们 一 直 假 设 系 统 只 用 一 个 单独 的 页 表 来 进行 地 址 翻译 。 但 是 如 果 我 们 有 一 个 32 
位 的 地 址 空间 、4KB 的 页 面 和 一 个 4 字 节 的 PTE， 那 么 我 们 总 是 需要 一 个 4MB 的 页 表 驻 留 在 存储 
器 中 ， 即 使 应 用 所 引用 的 只 是 虚拟 地 址 空间 中 很 小 的 一 部 分 。 对 于 地 址 空间 为 64 位 的 系统 来 说 ， 问 
题 将 变 得 更 复杂 。 

用 来 压缩 页 表 的 常用 方法 是 使 用 层次 结构 的 页 表 。 我 们 使 用 一 个 具体 的 示例 来 加 深 你 对 这 种 方 
法 的 理解 。 假 设 32 位 虚拟 地 址 空间 被 分 为 4KB 的 页 ， 而 每 个 页 表 条 日 都 是 4 字 节 。 还 假设 在 这 一 
时 刻 ， 虚 拟 地 址 空间 有 如 下 形式 : 存储 器 的 头 2K 个 页 面 分 配给 了 代码 和 数据 接 下 来 的 6K 个 页 面 
还 未 分 配 ， 再 接 下 来 的 1 023 个 页 面 也 未 分 配 ， 接 下 来 的 1 个 页 面 分 配给 了 用 户 栈 。 图 10.18 展示 
了 我 们 如 何 为 这 个 虚拟 地 址 空间 构造 一 个 两 级 的 页 表层 次 结构 。 

一 级 页 表 中 的 每 个 PTE 负责 映射 虚拟 地 址 空间 中 一 个 4MB 的 组 块 ‘chunk)， 这 里 每 个 组 块 都 
是 由 1024 个 连续 的 页 面 组 成 的 。 比 如 ，PTE 0 映射 第 一 个 组 块 ，PTE 1 映射 接 下 来 的 一 组 块 ， 以 此 
类 推 。 假 设 地 址 空间 是 4GB，1 024 个 PTE 已 经 足够 覆盖 整个 空间 了 。 

如 果 组 块 i 中 的 每 个 页 面 都 未 被 分 配 ， 那 么 一 级 PTE i 就 为 空 。 例 如 ， 图 10.18 中 ， 组 块 2 一 7 
是 未 被 分 配 的 。 然 而 ， 如 果 在 组 块 i 中 至 少 有 一 个 页 是 分 配 了 的 ， 那 么 一 级 PTE i 就 指 问 一 个 二 级 
页 表 的 基 址 。 例 如 ， 如 图 10.18 所 示 ， 组 块 0、1 和 8 的 所 有 或 者 部 分 已 被 分 配 ， 所 以 它们 的 一 级 
PTE 就 指向 二 级 页 表 。 

二 级 页 表 中 的 每 个 PTE 都 负责 映射 一 个 4KB 的 虚拟 存储 器 页 面 ， 就 像 我 们 查看 只 有 一 级 的 页 
表 一 样 。 注意 ， 使 用 4 字 节 的 PTE， 每 个 一 级 和 二 级 页 表 都 是 4KB 字 节 ， 这 刚好 和 一 个 页 面 的 大 小 
是 一 样 的 。 

这 种 方法 从 两 个 方面 减少 了 存储 器 要 求 。 第 一 ， 如 果 一 级 页 表 中 的 一 个 PTE 是 空 的 ， 那 么 相应 
的 二 级 页 表 就 根本 不 会 存在 。 这 表现 出 一 种 巨大 的 潜在 节约 ， 因 为 对 于 一 个 典型 的 程序 ，4GB 的 虚 
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拟 地 址 空间 的 大 部 分 都 会 是 未 分 配 的 。 第 二 ， 
可 以 在 需要 时 创建 ， 并 页 面 调 入 或 调 出 二 级 页 表 ， 这 就 减少 了 主 存 的 压力 。 只 有 最 经 和 常 使 用 的 二 级 


只 有 一 级 页 表 才 震 要 总 是 在 主 存 中 。 虚 拟人 存储 器 系统 


页 表 才 需要 缓存 在 主 存 中 。 
一 级 页 表 -RAR 虚 氢 存储器 
[veo | 
SIRO VP 1023 | 已 分 配 的 2K 个 代码 各 
PTE 1 VP 1024 
PTE 2 (rl = 
PTE 3 (null) a 
PTE 4 (null) | PTEO 
PTE 5 (null) Prat 
PTE 6 (nuli)! | PTE 1023 | 
PTE 7 (null)| Gap 6K 个 未 分 配 的 VM 页 
PTE 8 
! 1023 null 
(1K- 9) _ PTEs 
null PTES 
1023 个 未 分 配 的 页 
}1 个 已 分 配 的 用 做 栈 的 VM 页 
10.18 一 个 两 级 页 表层 次 结构 
注意 地 址 是 从 上 往 下 增加 的 。 


图 10.19 描述 了 使 用 上 大 级 页 表层 次 结构 的 地 址 翻译 。 虚 拟 地 址 被 划分 成 为 k 个 VPN 和 1 个 VPO。 
每 个 VPN i 部 是 一 个 到 第 i 级 页 表 的 索引 ， 其 中 1 <i<k。 第 j 级 页 表 中 的 每 个 PTE, 1<j<k-1, 
部 指 问 第 jj+1 RRP RAYS. BARMAN PTE 都 包含 某 个 物理 页 面 的 PPN， 或 者 一 
个 磁盘 块 的 地 址 。 为 了 构造 物理 地 址 ， 在 能 够 确定 PPN 之 前 ，MMU 必须 访问 大 个 PTE。 对 于 只 有 
一 级 的 页 表 结 构 ，PPO 和 VPO 是 相同 的 。 


虚拟 地 址 


n 一 1 p 一 1 0 
9 了 VPN1 Jẹ VPN2 | … |yvPNk | VPO_ 
Ta 


1 级 页 表 


10.19 ”使 用 上 级 页 表 的 地 址 翻译 
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访问 天 个 PITE， 第 一 眼看 上 去 昂贵 而 不 切实 际 。 然 而 ， 这 里 TLB 能 够 起 作用 ， 正 是 通过 将 页 表 
中 不 同 层 次 上 的 PTE 缓存 起 来 。 实 际 中 ， 带 多 级 页 表 的 地 址 翻译 并 不 比 单 级 页 表 慢 很 多 。 


10.6.4 GA: 站 到 端的 地 址 翻译 

在 这 一 节 里 ， 我 们 通过 一 个 具体 的 端 到 端的 地 址 翻译 示例 ， 来 综合 一 下 我 们 刚 学 过 的 这 些 内 容 ， 
这 个 示例 运行 在 有 一 个 TLB 和 Li d-cache 的 小 系统 上 。 为 了 保证 可 管理 性 ， 我 们 做 出 如 下 假 议 : 

。 存储 器 是 按 字 节 寻 扯 的 。 

。 存储 器 访问 是 针对 1 字 节 的 字 的 〈 不 是 4 字 节 的 字 )。 

© EME 14 位 长 的 (n=14)。 

s 物理 地 址 是 12 位 长 的 (m=12)。 

© 页面 大 小 是 64 字 节 (P=64)。 

© TLB 是 四 路 组 相 联 的 ， 总 共有 16 个 条 目 。 

se。 Lid-cache 是 物理 寻 址 、 直 接 映射 的 ， 行 大 小 为 4 字 节 ， 而 总 共有 16 个 组 。 

图 10.20 展示 了 虚拟 地 址 和 物理 地 址 的 格式 。 因 为 每 个 页 面 是 2=64 字 节 ， 所 以 虚拟 地 址 和 物理 
地 址 的 低 6 位 分 别 作 为 VPO 和 PPO。 虐 拟 地 址 的 高 8 位 作为 VPN. PORE sno A S 6 位 作为 PPN。 


13 12 11 10 g 8 7 6 5 4 3 2 1 0 


stCLTTTTTTTTTTTTT 


+ 一 VPN VPO 一 一 一 下 


“虚拟 页 号 ) CHET TE fa ) 


11 10 9 8 7 6 5 4 3 2 1 0 
物理 地 址 


4 一 PPN PPO 一 一 个 


《物理 页 号 ) (WE Tl iB ) 


图 10.20 小 存储 路 系统 的 村 址 
假设 14 位 的 虚拟 地 址 (n=14)，12 位 的 物理 地 址 (m=12) 和 64 字 节 的 页 面 (P=64). 


图 10.21 展示 了 我 们 小 存储 器 系统 的 一 个 快照 ， 包 括 TLB (a)、 页 表 的 一 部 分 (Cb) 和 LI 高速 


Be (cde Æ TLB 和 高 速 缓存 的 图 表 上 面 ， 我 们 还 展示 了 访问 这 些 设备 的 硬件 是 如 何 划分 虚拟 地 址 
和 物理 地 址 的 位 的 。 


TLBT + TLBI —> 
13 12 11 10 9 8 7 6 5 4 3 2 1 0 
虚拟 地 址 


1 VPN a VPO 一 一 一 一 一 


位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 标记 位 PPN 有 效 位 


of os | - | o Jos fojo- | oo | ofi 


1} 03 | a | 1 [oe | - | o fo] - | o fol =| oo | 
2{o2 | - {| o |o | - | o fo | ~ | o fos] - | o 
3Lo7 | - | o [3 [op | 1 Joa] 3 | is {oe | - | 0 | 


(a) TLB: DUAL. 16 个 条 目 ， 四 路 组 相 联 
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VPN PPN 有 效 位 VPN PPN 有 效 位 


(b) HR: 只 展示 了 头 16 个 PTE 
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(c) 缓存 ，16 个 组 ， 四 字 节 的 块 ， 直 接 映 身 
图 10.21 小 存储 器 系统 的 TLB、 页 表 以 及 缓存 


TLB、 页 表 和 缓存 中 所 有 的 值 都 是 十 六 进 制 表示 的 。 


TLB. TLB 是 利用 VPN 的 位 进行 虚拟 寻 址 的 。 因 为 TLB 有 四 个 组 ， 所 以 VPN 的 低 两 位 就 
作为 组 索引 《TLBI)。VPN 中 剩 下 的 高 6 位 作为 标记 (TLBT)， 用 来 区 别 可 能 映射 到 同一 
个 TLB 组 的 不 同 的 VPN. 

页 表 。 这 个 页 表 是 一 个 单 级 设计 ， 一 共有 2 =256 个 页 表 条 目 PTE). Rit, 我们 只 对 这 些 
条 日 中 的 开头 16 个 感 兴趣 。 为 了 方便 ， 我 们 用 索引 它 的 VPN 来 标识 每 个 PTE; 但 是 要 记 
住 这 些 VPN 并 不 是 页 表 的 一 部 分 ， 也 不 储存 在 存储 器 中 。 另 外 , 注意 每 个 无 效 PTE 的 PPN 
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都 用 一 个 破 折 号 来 表示 ， 以 巩固 一 个 概念 :无论 刚好 这 里 存储 的 是 什么 位 值 ， 都 是 没有 任 
何 意义 的 。 

。 缓存 .直接 映射 的 缓存 是 通过 物理 地 址 中 的 字段 来 寻 址 的 。 因 为 每 个 块 都 是 4 字 节 ， 所 以 
物理 地 址 的 低 2 位 作为 块 偏 称 (CO)。 因 为 有 16 组 ， 所 以 接 下 来 的 4 位 就 用 来 表示 组 索引 
CCD。 剩 下 的 6 位 作为 标记 (CT). 

给 定 了 这 种 初始 化 设 定 ， 让 我 们 来 看 看 当 CPU 执行 一 条 读 地 址 0x03d4 处 字 节 的 加 载 指令 时 ， 
会 发 生 什 么 。( 回 想 一 下 我 们 假定 CPU 读 取 1 字 节 的 字 ， 而 不 是 4 字 节 的 字 。) 为 了 开始 这 种 手工 的 
模拟 ， 我 们 发 现 写 下 虐 拟 地 址 的 位 表示 ， 标 识 出 我 们 会 需要 的 各 种 字段 ， 并 确定 它们 的 16 进 制 值 ， 
是 非常 有 帮助 的 。 当 硬件 解码 地 址 时 ， 它 也 执行 相似 的 任务 。 


开始 时 ，MMU 从 虚拟 地 址 中 抽取 出 VPN (OOF), EARE TLB 看 它 是 否 因 为 前 面 的 某 个 存 
储 器 引用 ,缓存 了 PTE OxOF 的 一 个 拷贝 -TLB 从 VPN 中 抽取 出 TLB 索引 (0x03) 和 TLB 标记 (0x3 )， 
组 0x3 的 第 二 个 条 目 中 有 效 位 匹配 ， 所 以 命中 ， 然 后 将 缓存 的 PPN (00D) 返回 给 MMU. 

如 果 TLB 不 命中 ， 那 么 MMU 就 需要 从 主 存 中 取出 相应 的 PTE。 然 而 ， 在 这 里 的 情况 中 ， 我 们 
REE, TLB 会 命中 ,现在 , MMU 有 了 形成 物理 地 址 所 需要 的 所 有 东西 。 它 通过 将 来 自 PTE 的 PPN 
COxOD) 和 来 自 虚拟 地 址 的 VPO (0x14) 连接 起 来 ， 这 就 形成 了 物理 地 址 (0x354). 

Be ROR, MMU 发 送 物理 地 址 给 缓存 ， 缓 存 从 物理 地 址 中 抽取 出 缓存 偏 移 CO 〈0x0)、 缓 存 组 索 
引 CI (0x5) 以 及 缓存 标记 CT (0x0D )。 


因为 组 0x5 中 的 标记 与 CT 相 匹 配 ， 所 以 缓存 检测 到 一 个 命中 ， 读 出 在 偏 移 量 CO 处 的 数据 字 
节 (0x36)， 并 将 它 返 回 给 MMU， 随 后 MMU 将 它 传递 回 CPU. 

翻译 过 程 的 其 他 路 径 也 是 可 能 的 。 例 如 ， 如 果 TLB 不 命中 ， 那 么 MMU 必须 从 页 表 中 的 PTE 
中 取出 PPN。 如 果 得 到 的 PTE 是 无 效 的 ， 那 么 就 产生 一 个 缺 页 ， 内 核 必 须 调 入 合适 的 页 面 ， 重 新 运 
行 这 条 加 载 指 令 。 男 一 种 可 能 性 是 PTE 是 有 效 的， 但 是 所 需要 的 存储 器 块 在 缓存 中 不 命中 。 


练习 是 10.4 


说 明 10.6.4 节 中 的 示例 存储 器 系统 是 如 何 将 一 个 虚拟 地 址 翻译 成 一 个 物理 地 址 ， 以 及 访问 组 
存 的 。 对 于 给 定 的 虚拟 地 址 ， 指 明 访 问 的 TLB 条 目 、 物 理 地 址 和 返回 的 缓存 字 节 值 。 指 出 是 否 发 
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AT TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 以 及 是 否 发 生 了 缓存 不 命中 。 如 果 是 缓存 不 命中 ， 在 “返回 
RAS?” kiwi DA “-") te RRR, RIE “PPN 一 栏 中 输入 “-”， 并 且 空 着 C 部 分 和 了 
部 分 。 
崔 拟 地 址 ，0x03d7 
A. 康 拟 地 址 格式 


3 12 1 10 9 8 7 6 5 4 3 2 1 0 
B， 地 址 翻译 


ae 
mm | o 


C. 物理 地 址 格式 


D. 物理 存储 器 引用 


~ sn Ja 
w o 
w 
aee O 
加 是 时 
— 


RMP? CYN) 
WAG] EE FFP 


10.7 ”案例 研究 : Pentium/Linux 存储 器 系统 


我 们 以 一 个 实际 系统 的 案例 研究 来 概括 我 们 对 缓存 和 虚拟 存储 器 的 讨论 ,选用 的 系统 是 Pentium 
类 的 系统 ， 运 行 的 是 Linux。 图 10.22 给 出 了 Pentium 存储 器 系统 的 重要 部 分 。Pentium 系统 有 一 个 
32 位 (AGB) 的 地 址 空间 。 处 理 器 组 件 (processor package) 包括 CPU 忆 片 、 一 个 统一 的 L2 局 速 
缓存 和 一 个 连接 它们 的 高 速 缓存 总 线 〈 背 板 总 线 )。CPU 芯片 适当 地 包含 了 四 个 不 同 的 缓存 : 一 
指令 TLB、 数 据 TLB、L1 i-cache 以 及 LI1 d-cache。TLB 是 虚拟 寻 址 的 。L1 和 L2 缓存 是 物理 寻 址 
的 。Pentium "F HAART af TLB) 都 是 四 路 组 相 联 的 。 
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32 位 地 址 空间 
4KB 的 页 大 小 
TT L1、L2 和 TLB 
。 4 路 组 相 联 
外 部 VO 总 线 RA TLB 
。 32 个 条 目 ，8 组 


[2 数据 TLB 


: Ll i-cache 和 d-cache 


ee a a ee ee ee a EET ee ee E batai he 
H 


高 速 缓 存 总 线 2 。 16KB, 128 组 

: e 32B 的 块 大 小 
总 线 接口 单元 指令 TLB || L2 WARF 
< dJi 。 统一 的 


i œ 128KB~2MB 
数据 TLB : 。 32B 的 块 大 小 
: 


m 
nu FRR ESR SE EE ee ee a EL EL LE Es ed ee ee ee 


perry 
110.22 Pentium 存储 路 系统 


TLB 缓存 32 位 的 页 表 条 目 。 指 令 TLB 缓存 取 指 单元 产生 的 虚拟 地 址 的 PTE. 数据 TLB RAR 
据 的 虚拟 地 址 的 PTE。 指 令 TLB 有 32 个 条 目 。 数 据 TLB 有 64 个 条 目 。 页 面 大 小 可 以 在 启动 时 配 
BAY 4KB 或 者 4MB 。 运 行 在 Pentium 上 的 Linux 使 用 4KB AR. 

LI A L2 高 速 缓存 的 块 大 小 为 32 字 节 。 每 个 LI 高 速 缓存 的 大 小 是 16KB， 有 128 个 组 ， 其 中 
每 个 组 都 包含 4 行 。L2 高 速 缓存 的 大 小 可 以 在 最 小 值 128KB 到 最 大 值 2MB 之 间 变 化 。 典 型 的 大 小 
是 512KB。 


10.7.1 Pentium 地 址 翻译 
这 一 节 讨 论 Pentium 系统 上 的 地 址 翻译 过 程 。 图 10.23 描述 了 整个 过 程 ， 从 CPU 产生 虚拟 地 址 
时 ， 直 到 数据 字 从 存储 器 到 达 ， 以 供 你 参考 。 


旁 注 ， 优 化 地 址 翻译 

在 我 们 对 地 址 翻译 的 讨论 中 ， 我 们 已 经 描述 了 一 个 顺序 的 两 个 步骤 的 过 程 ， 就 是 MMU HAD 
地 址 翻译 成 物理 地 址 ， 然 后 将 物理 地 址 传送 到 L1 高 速 缓存 . 然而， 实际 的 硬件 实现 使 用 了 一 个 灵 
HRS, ALE PRRD, BUET a LI BRAM, 

例如 ， 带 4KB 页 面 的 Pentium 系统 上 的 一 个 虚拟 地 址 有 12 位 的 VPO， 并 且 这 些 位 和 相应 物理 
地 址 中 的 PPO 的 12 位 是 相同 的 。 因 为 四 路 组 相 联 的 、 物 理 导 址 的 LI 离 速 缓存 有 128 个 组 和 32 F 
节 的 缓存 块 ， 每 个 物理 地 址 有 5 > (1og,32) 缓存 偏 移 位 和 7 个 (logz128 ) 索引 位 。 这 12 个 位 恰好 
符合 虚拟 地 址 的 VPO 部 分 ， 这 绝 不 是 偶然 ! 当 CPU 需要 翻 主 一 个 虚拟 地 址 时 ， 它 就 发 送 VPN 到 
MMU， 发 送 VPO 3) ik L1 A. & MMU 向 TLB 请 求 一 个 页 表 条 目 时 ，L1 高 速 缓存 正 忙 着 利用 
VPO 位 查找 相应 的 组 ,， 并 读 出 这 个 组 里 的 四 个 标记 和 相应 的 数据 字 ， 当 MMU 从 TLB 得 到 PPN 时 ， 
缓存 已 经 准备 好 试 着 把 这 个 PPN 与 这 四 个 标记 中 的 一 本 进行 下 本 了. 


616 第 10% 


这 就 引发 了 下 面 的 问题 让 你 思考 ， 如 果 Intel 的 工程 师 在 未 来 的 系统 中 想 增 加 工 ! 高 速 缓存 的 大 
修 ， 并 且 仍 然 能 够 使 用 这 各 技巧， 那么 他 们 有 什么 样 的 选择 呢 ? 


32 
= | aR 
CPU on ee 
虚拟 地 址 (VA) 
20 12 
VPN VPO re 
16 4 命中 
| 
TLB rae re a 
不 命中 — 命中 = er 
| 


rp 汉王 i i 


20 12 oa 7s 

PPN {pro} = | cr |cijco 
= 物理 地 址 
(PA) 


图 10.23 Pentium 地址 翻译 的 概况 


Pentium 页 表 

每 个 Pentium 系统 都 使 用 如 图 10.24 所 示 的 两 级 页 表 。 第 一 级 页 表 ， 叫 做 页 面目 隶 (page 
directory )， 包 含 1024 44 32 位 的 PDE (page directory entry， 页 面目 录 条 目 )， 其 中 每 一 个 条 用 都 指 
向 1024 个 2 级 页 表 中 的 一 个 。 每 个 页 表 包 含 1024 个 32 位 的 PTE (页 表 条 日 )， 其 中 每 个 都 指 问 物 
理 存储 器 或 者 磁盘 上 的 一 个 页 面 。 


TR 


| 1024 PTE's | 页 表 0 


1024 PTE'S 页 表 1 


页 表 1023 


PDEO 
PDE 1 


PDE 1023 
1024 个 页 面 
目录 条 目 

(PDE's) 


1024 PTES 


10.24 Pentium 的 多 级 页 表 
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每 个 进程 都 有 一 个 惟一 的 页 面 且 录 和 页 表 和 集合 。 当 一 个 Linux 进程 正在 运行 时 ， 尽 管 Pentium 
的 体系 结构 允许 页 表 换 进 换 出 ， 但 是 页 表 目 录 和 与 已 分 配 页 面相 关 的 页 表 都 是 常 驻 存储 器 的 。 页 面 
目录 基 址 寄存 器 (page directory base register, PDBR) 指向 页 表 目 录 的 起 始 位 置 。 

图 10.25 (a) 展示 了 PDE 的 格式 。 当 P=1 时 (Linux 中 总 是 这 样 的 )， 地 址 字段 中 包含 一 个 20 
位 的 物理 页 号 ， 指 回 相 应 的 页 表 的 起 始 位 置 。 注 意 ， 这 要 求 页 表 要 4KB 对 齐 。 

图 10.25 (b) 展示 了 PTE 的 格式 。 当 P=1 时 ， 地 址 字段 包含 一 个 20 位 的 物理 页 号 ， 指 向 物理 
存储 器 中 某 个 页 的 基 址 。 同 样 ， 这 也 要 求 物 理 页 要 AKB WF. 


31 12 


11 9 8 7 8 5 4 3 2 1 0 
ma | aa [oles] [a[o [m us ow e 


页 表 存 在 于 物理 存储 器 中 1) 或 者 不 存在 〈0) 
只 读 或 者 读 - 写 访问 许可 

用 户 或 者 超级 用 户 模式 〈 内 核 模式 ) 访问 许可 
对 这 个 页 表 的 直 写 或 者 写 回 缓存 策略 


缓存 禁止 (1) 或 者 启用 CO) 

这 个 页 被 访问 过 吗 ? 〈 在 读 写 时 由 MMU 设 置 ， 由 软件 清除 ) 
页 面 大 小 为 4KB (0) 或 者 4MB (1) 

全 局 页 面 〈 在 任务 切换 时 ， 不 会 从 TLB 中 驱除 掉 ) 
物理 页 表 地 址 的 最 高 20 位 


(a) AMARAH (PDE) 


31 12 11 9 8 7 6 5 4 3 2 1 0 
i [a8 [so [>] a [oo [wus [aw] rar 


i ik 
页 表 存 在 于 物理 存储 器 中 (1) 或 者 不 存在 〈0) 
只 读 或 者 读 / 写 访问 许可 
用 户 或 者 超级 用 户 模式 【内核 模式 ) 访问 许可 


对 这 个 页 表 的 直 写 或 者 写 回 缓存 策略 

缓存 禁止 (1) 或 者 启用 (0) 

引用 位 〈 由 MMU 在 读 写 时 设置 ， 由 软件 清除 ) 
收 改 位 (由 MMU 在 写 时 设置 ， 由 软件 清除 ) 
全 局 页 面 〈( 在 任务 切换 时 不 会 从 TLB 中 驱除 掉 ) 
物理 页 表 地 址 的 最 高 20 位 


(b) RRRA (PTE) 
10.25 Pentium 页 面目 录 条 目 (PDE) MARZA (PTE) 的 格式 
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PTE 有 两 个 许可 位 ， 用 来 控制 对 这 个 页 面 的 访问 。R/AW 位 确定 这 个 页 面 的 内 容 是 可 读 / 可 写 的 ， 
偿 征 只 读 的 。U/S 位 ， 确 定 是 否 可 以 在 用 户 模式 下 访问 这 个 页 面 ， 这 就 保护 了 操作 系统 内 核 中 的 代 
码 和 数据 不 受用 户 程 序 的 影响 。 

BER MMU 翻译 每 个 虚拟 地 址 一 样 ， 它 也 会 更 新 两 个 其 他 的 位 ， 内 核 的 缺 页 处 理 程序 可 能 会 使 
用 这 两 位 。 每 次 访问 一 个 页 面 时 ，MMU 就 设置 A 位 ， 也 叫做 引用 位 (reference bit)。 内 核 可 以 用 引 
用 位 来 实现 它 的 页 面 替换 算法 。 每 次 写 页 面 时 ，MMU READ 位 ， 也 叫做 修改 位 (dirty bit)。 一 
个 已 经 被 修改 了 的 页 面 有 时 也 叫做 修改 页 面 〈(dirty page)。 修 改 位 告诉 内 核 在 它 拷 入 一 .个 替代 页 面 
时 ， 是 否 必 须 写 回 牺 牲 页 面 。 内 核 可 以 调用 一 个 特殊 的 内 核 模式 指令 来 清除 引用 或 者 修改 位 。 


Sit: 执行 许可 和 缓冲 区 溢出 攻击 

注意 ，Pentium 页 表 条 目 缺 少 一 个 执行 许可 位 ， 用 来 控制 一 个 页 面 的 内 容 是 否 可 以 被 执行 。 缓 
冲 区 溢出 攻击 利用 了 这 个 疏漏 ， 在 用 户 栈 上 直接 加 载 和 运行 代码 (3.13 节 )。 如 果 有 这 样 二 个 执行 
位 ， 那 么 内 核 就 可 以 通过 限制 对 只 读 代码 段 的 执行 权限 ， 来 消除 这 种 攻击 的 威胁 了 . 


Pentium 页 表 翻 译 
图 10.26 展示 了 Pentium MMU 如 何 使 用 两 级 页 表 , 将 一 个 虚拟 地 址 翻译 成 物理 地 址 。20 位 的 
VPN 被 分 成 2 个 10 位 的 块 。VPN1 在 PDBR 指向 的 页 目录 中 索引 一 个 PDE。PDE 中 的 地 址 指向 


的 茶 个 页 表 的 基 址 被 VPN2 索引 。 被 VPN2 索引 的 PTE 中 的 PPN 和 VPO 连接 起 来 形成 了 物理 地 
Hee 


10 10 12 
VPNZ 所 地 直 


到 页 面目 录 的 ] 到 页 表 的 到 物理 页 面 和 
字 偏 移 量 字 偏 移 量 虚拟 页 面 的 
字 偏 移 量 
页 面目 录 
= jen 页 面 基 址 的 
物理 地 址 
PDBR (如 果 p=1) 
-ur ~ 
物理 地 址 物理 地 址 
(如 果 P=1) 
20 12 
en ë | PFPO |] 物理 地 址 


10.26 Pentium 页 表 翻 译 
Pentium TLB 翻译 
图 10.27 描绘 了 Pentium 系统 中 TLB 翻译 的 过 程 。 如 果 PTE 被 组 存在 TLBI 索引 的 组 里 (TLB 
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仿 中 )， 那 么 就 从 这 个 缓存 的 PTE 中 抽取 出 PPN， 并 把 这 个 PPN 和 VPO 连接 起 来 形成 物理 地 址 。 
如 果 没 有 缓存 PTE， 但 是 缓存 了 PDE (部 分 TLB 命中 )， 那 么 MMU 必须 在 它 形 成 物理 地 址 之 前 ， 
从 存储 器 中 提取 相应 的 PTE。 最 后 ， 如 果 PDE 和 PTE 都 没有 被 缓存 (TLB RAH), 那么 MMU Ù 
须 从 存储 器 中 取出 PDE 和 PTE， 以 形成 物理 地 址 。 


虚拟 地 址 
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图 10.27 Pentium TLB 翻译 


10.7.2 Linux 虚拟 存储 器 系统 

一 个 虚拟 存储 器 系统 要 求 砚 件 和 内 核 软件 之 间 的 紧密 协作 ， 然而 对 此 完整 的 阐释 超出 了 我 们 讨 
论 的 范围 ， 在 这 一 小 节 中 我 们 的 目标 是 对 Linux 的 虚拟 存储 器 系统 做 一 个 描述 ， 使 你 能 够 大 致 了 解 
一 个 实际 的 操作 系统 是 如 何 组 织 虚 拟 存 储 器 ， 以 及 如 何 处 理 缺 页 的 。 

Linux 为 每 个 进程 维持 了 一 个 单独 的 虚拟 地 址 空间 ， 形 式 如 图 10.28 所 示 。 我 们 已 经 多 次 看 到 
过 这 幅 图 了 ， 包 括 它 那些 熟悉 的 代码 、 数 据 、 堆 、 共 仓 库 以 及 栈 段 。 既 然 我们 已 理解 地 址 翻译 ， 
我 们 就 能 够 填 入 更 多 的 关于 内 核 虚 拟 存 储 器 的 细节 了 ， 这 部 分 虚拟 存储 器 位 于 地 址 0xc0000000 之 
E; 

内 核 虚 拟 存 储 器 包含 内 核 中 的 代码 和 数据 。 内 核 虚拟 存储 器 的 某 些 区 域 被 映射 到 所 有 进程 共享 
的 物理 页 面 。 例 如 ， 每 个 进程 共享 内 核 的 代码 和 全 局 数据 结构 。 有 趣 的 是 ，Linux 也 将 一 组 连续 的 
虚拟 页 面 (大 小 等 于 系统 中 DRAM 的 总 量 ) 映射 到 相应 的 一 组 连续 的 物理 页 面 。 这 就 为 内 核 提 供 了 
一 种 便利 的 方法 ， 来 访问 物理 存储 器 中 任何 特定 的 位 置 ， 例 如 ， 当 它 需要 在 一 些 设 备 上 执行 存储 器 
映射 的 IO 操作 时 ， 而 这 些 设备 被 映射 到 特定 的 物理 存储 器 位 置 。 

内 核 虚 拟 存储 器 的 其 他 区 域 包含 每 个 进程 都 不 相同 的 数据 。 示例 包括 页 表 、 内 核 在 进程 的 上 下 
文中 执行 代码 时 使 用 的 栈 ， 以 及 记录 虚拟 地 址 空间 当前 组 织 的 各 种 数据 结构 。 

Linux Hed TERR 38 KX bk 

Linux 将 虚拟 存储 器 组 织 成 一 些 区 域 (也 叫做 段 ) 的 集合 。 一 个 区 域 (area) 就 是 已 经 存在 着 的 
(已 分 配 的 ) 虚拟 存储 器 的 连续 组 块 (chunk), 这 些 虚拟 存储 器 的 页 面 是 以 某 种 方式 相关 联 的 。 例 
如 ， 代 码 段 、 数 据 段 、 堆 、 共 享 库 段 ， 以 及 用 户 栈 都 是 不 同 的 区 域 。 每 个 存在 的 虚拟 页 面 都 保存 在 
茶 个 区 域 中 ， 而 不 属于 某 个 区 域 的 虚拟 页 是 不 存在 的 ， 并 且 不 能 被 进程 引用 。 区 域 的 概念 很 重要 ， 
办 为 它 允 许 虚拟 地 址 空间 有 间 陈 。 内 核 并 不 记录 那些 不 存在 的 虚拟 页 ， 而 这 样 的 页 面 也 不 占用 存储 
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铝 、 磁 盘 或 者 内 核 本 身 中 的 任何 额外 资源 。 


与 进程 相关 的 数据 结构 
(例如 ， 页 表 ，task 和 


部 不 相同 mm 结构 ， 内 核 栈 ) 
内 核 虚 拟 存储 器 

对 每 个 进程 

ig 内 核 代 码 和 数据 
Oxc0000000 用 户 栈 

EE 

共享 库 的 存储 器 映射 区 域 

0x40000000 

brk —> 


运行 时 堆 ( 通 过 malloc 分 配 的 ) 


未 初始 化 的 数据 (bss) 
已 初始 化 数据 (data) 


0x08048000 


0 


10.28 一 个 Linux 进程 的 虚拟 存储 器 


图 10.29 强调 了 记录 一 个 进程 中 虚拟 存储 器 区 域 的 内 核 数 据 结 构 。 内 核 在 系统 中 为 每 个 进程 
维护 一 个 单独 的 任务 结构 〈 源 代码 中 的 task_struct)。 任 务 结 构 中 的 元 素 包 含 或 者 指向 内 核 运行 该 
进程 所 需要 的 所 有 信息 (例如 ，PID、 指 向 用 户 栈 的 指针 、 可 执行 目标 文件 的 名 字 ， 以 及 程序 计数 
2). 

task_struct 中 的 一 个 条 目 指向 mm_struct， 它 描述 了 虚拟 存储 器 的 当前 状态 。 我们 感 兴趣 的 两 个 
字段 是 ped 和 mmap, HF ped 指向 页 面目 录 表 的 基 址 ， 而 mmap 指 回 一 个 vm_area structs (区 域 
结构 ) 的 链表 ， 其 中 每 个 vm_area_structs 都 描述 了 当前 虚拟 地 址 空间 的 -一 个 区 域 (area). 当 内 核 运 
行 这 个 进程 时 ， 它 就 将 pgd 存放 在 PDBR 控制 寄存 器 中 。 

为 了 我 们 的 目的 ， 一 个 具体 区 域 的 区 域 结构 (vm_area_strmuct) 包含 下 面 的 字段: 

® vm start: 指 同 这 个 区 域 的 起 始 处 。 

。 vm end: 指 问 这 个 区 域 的 结束 处 。 

。 vm port: 描述 这 个 区 域内 包含 的 所 有 页 面 的 读 写 许 可 权限 。 

。 vm_flags: 描述 这 个 区 域内 的 页 面 是 否 是 与 其 他 进程 共享 的 ， 还 是 这 个 进程 私有 的 〈 还 描述 

了 其 他 一 些 信息 )。 
。 vm_next: 指 因 链 表 中 下 一 个 区 域 结 构 。 
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vm area struct 进程 虚拟 存储 器 
task struct mm struct = = 
共享 库 
0x40000000 
数据 
0x0804a020 
文本 


A we a 
0 


10.29 Linux 是 如 何 组 织 虚拟 存储 器 的 

Linux BR WY Se ie eb A 

假设 MMU 在 试图 翻译 某 个 虚拟 地 址 A 时 ， 和 触发 了 一 个 缺 页 。 这 个 异常 导致 控 制 转移 到 内 核 的 
映 页 处 理 程序 ， 处 理 程序 随 后 就 执行 下 面 的 步骤 ; 

1. 虚拟 地 址 A 是 合法 的 吗 ? MDH, A 在 某 个 区 域 结构 (vm_area_struct) 定义 的 区 域内 吗 ? 
为 了 回答 这 个 问题 ， 缺 页 处 理 程序 搜索 区 域 结构 的 链表 ， 把 A 和 每 个 区 域 结构 中 的 vm_start 和 
vm_end 做 比 冬 。 如 果 这 个 指令 是 不 合法 的 ， 那 么 缺 页 处 理 程序 就 触发 一 个 段 错 误 ， 从 而 终止 这 个 进 
程 。 这 个 情况 在 图 10.30 中 标识 为 “1” 

因为 一 个 进程 可 以 创建 任意 数量 的 新 虚拟 存储 器 区 域 (使 用 在 下 一 节 中 描述 的 mmap 函数 ), 所 
以 顺 矿 搜索 区 域 结构 的 链表 花 销 可 能 会 很 大 。 因 此 在 实际 中 ， 使 用 某 些 我 们 没有 显示 出 来 的 字段 ， 
Linux 在 链表 中 添加 了 一 棵 树 ， 并 在 这 棵 树 上 进行 查找 。 

2. 试图 进行 的 对 存储 器 的 访问 是 否 合法 ? 换 句 话说 ， 进程 是 否 有 读 或 者 写 这 个 区 域内 页 面 的 权 
限 ? 例如 ， 这 个 缺 页 是 不 是 由 一 条 试图 对 这 个 代码 段 里 的 只 读 页 面 进 行 写 操作 的 存储 指令 造成 的 ? 
这 个 缺 页 是 不 是 因为 一 个 运行 在 用 户 模式 中 的 进程 试图 从 内 核 虚拟 存储 器 中 读 取 字 造 成 的 ? 如 果 试 
图 进行 的 访问 是 不 合法 的 ， 那 么 缺 页 处 理 程序 会 触发 一 个 保护 异常 ， 从 而 终止 这 个 进程 。 这 种 情况 
在 图 10.30 中 标识 为 “2”。 

3. 此 刻 ， 内 核 知道 了 这 个 缺 页 是 由 于 对 合法 的 虚拟 地 址 进行 合法 的 操作 造成 的 。 它 选 择 一 个 牺 
和 性 页 面 ， 如 果 这 个 牺牲 页 面 被 修改 过 ， 那 么 就 将 它 交 换 出 去 ， 换 入 新 的 页 面 ， 并 更 新 页 表 ， 从 而 处 
理 这 次 缺 页 。 当 缺 页 处 理 称 序 返回 时 ，CPU 重新 局 动 引 起 缺 页 的 指令 ， 这 条 指令 将 再 次 发 送 A 到 
MMU。 这 一 回 ，MMU 就 能 正常 地 翻译 A， 而 不 会 再 产生 一 个 缺 页 中 断 了 。 
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段 错误 : 
© 访问 一 个 不 存在 的 页 面 


共享 库 
r/w © 正常 缺 页 
| 数据 
i | 保护 异常 : 
© 例如 ， 违 反 许可 ， 
文本 写 一 个 只 读 的 页 面 


图 10.30 Linux RAE 


10.8 ”存储 器 映射 


Linux (以 及 其 他 一 些 形式 的 Unix) 通过 将 一 个 虚拟 存储 器 区 域 与 一 个 磁盘 上 的 对 象 (object) 
关联 起 来 ， 以 初始 化 这 个 虚拟 存储 器 区 域 的 内 容 ， 这 个 过 程 称 为 存储 器 映射 《memory mapping). 
虚拟 存储 器 区 域 可 以 映射 到 两 种 类 型 的 对 象 : 

1. Unix 文件 系统 中 的 普通 文件 : 一 个 区 域 可 以 映射 到 一 个 普通 磁盘 文件 (例如 一 个 可 执行 目标 
文件 ) 的 连续 部 分 。 文 件 被 分 成 页 面 大 小 的 片 ， 每 一 片 包含 一 个 虚拟 页 面 的 初始 内 容 。 因 为 按 需 进 
行 页 面 调 度 ， 所 以 这 些 虚拟 页 面 没有 实际 交换 进入 物理 存储 器 ， 直 到 CPU 第 一 次 引用 到 页 面 (也 就 
是 ， 发 射 一 个 虚拟 地 址 ， 落 在 地 址 空间 这 个 页 面 的 范围 之 内 ?。 如 果 区 域 比 文件 的 这 部 分 要 大 一 些 ， 
那么 就 用 零 来 填充 这 个 区 域 的 余下 部 分 。 

2. EZX: 一 个 区 域 也 可 以 映射 到 一 个 匿名 文件 ， 匿 名 文件 是 由 内 核 创建 的 ， 包 含 的 全 是 
二 进 制 零 。CPU 第 一 次 引用 这 样 一 个 区 域内 的 虚拟 页 面 时 ， 内 核 就 在 物理 存储 器 中 找到 一 个 合 
的 牺牲 页 面 ， 如 果 该 页 面 被 修改 过 ， 就 将 这 个 页 面 换 出 来 ， 用 二 进 制 零 材 盖 牺 牲 页 面 ， 并 更 新 页 
表 ， 将 这 个 页 面 标记 为 是 驻 留 在 存储 器 中 的 。 注 意 在 磁盘 和 存储 器 之 间 并 没有 实际 的 数据 传送 。 
因为 这 个 原因 ， 映 射 到 匿名 文件 的 区 域 中 的 页 面 ， 有 时 也 叫做 请 求 二 进 制 零 的 页 (demand-zero 
page). 

AERP RP, —A—S WR RT. Cette hE R aA 
(swap file) 之 间 换 来 换 去 。 交 换文 件 也 叫做 交换 空间 (swap space) 或 者 交换 区 域 (swap area). 
需要 意识 到 的 很 重要 的 一 点 是 ， 在 任何 时 刻 ， 交 换 空 间 都 限制 着 当前 运行 着 的 进程 能 够 分 配 的 虚拟 
页 面 的 总 数 。 
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10.8.1 再 看 共 圣 对 象 

存储 器 映射 的 概念 来 源 于 一 个 聪明 的 发 现 :如果 虚拟 存储 器 系统 可 以 集成 到 传统 的 文件 系统 中 ， 
那么 就 能 提供 一 种 简单 而 高 效 的 把 程序 和 数据 加 载 到 存储 器 中 的 方法 。 

正如 我 们 已 经 看 到 的 ， 进 程 这 一 抽象 能 够 为 每 个 进程 提供 自己 私有 的 虚拟 地 址 空间 ， 可 以 人 免 受 
其 他 进程 的 错误 读 写 。 不 过 ， 许多 进程 有 同样 的 只 读 文本 区 域 。 例 如 ， 每 个 运行 Unix shell 程序 tesh 
的 进程 都 有 相同 的 文本 区 域 。 而 且 ， 许多 程序 需要 访问 只 读 运 行 时 库 代 码 的 相同 拷贝 。 例 如 ， 每 个 
C 程序 都 要 求 来 自 标准 C 库 的 诸如 printf 这 样 的 函数 。 那 么 ， 如 果 每 个 进程 都 在 物理 存储 器 中 保持 
这 些 常 用 代码 的 复制 拷贝 ， 那 就 是 极端 的 浪费 了 。 幸 运 的 是 ， 存储 器 映射 给 我 们 提供 了 一 种 清晰 的 
机 制 ， 用 来 控制 多 个 进程 如 何 共享 对 象 。 

一 个 对 象 可 以 被 映射 到 虚拟 存储 器 的 一 个 区 域 ， 要 么 作为 共享 对 象 ， 蓝 么 作为 私有 对 和 象 。 如 果 
一 个 进程 将 一 个 共享 对 象 瑞 射 到 它 的 虚拟 地 址 空间 的 一 个 区 域内 ， 那么 这 个 进程 对 这 个 区 域 的 任何 
与 操作 ， 对 于 那些 也 把 这 个 共享 对 象 映 射 到 它们 虚拟 存储 器 的 其 他 进程 而 言 ， 也 是 可 见 的 。 而 且 ， 
这 些 变化 也 会 反映 在 磁盘 上 的 原始 对 象 中 。 

万 一 方面 ， 对 于 一 个 瑞 射 到 私有 对 象 的 区 域 做 的 改变 ， 对 于 其 他 进程 来 说 是 不 可 见 的 ， 并 且 进 
程 对 这 个 区 域 所 做 的 任何 写 操 作 都 不 会 反映 在 磁盘 上 的 对 象 中 。 一 个 共有 人 对象 映射 到 的 虚拟 存储 器 
区 域 叫 做 共享 区 域 。 类 似 地 ， 也 有 私有 区 域 。 

假设 进程 1 将 一 个 共享 对 象 瑞 射 到 它 的 虚拟 存储 器 的 一 个 区 域 中 ， 如 图 10.31 (ad 所 示 。 现 在 
假设 进程 2 将 同一 个 共享 对 象 映 射 到 它 的 地 址 空间 [并 不 一 定 要 和 进程 ] 在 相同 的 炭 拟 地 址 处 ， 如 
图 10.31 (b) 所 示 ]。 


进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 存储 器 存储 器 虚拟 存储 器 虚拟 存储 器 存储 器 瞄 拟 存储 器 
a — 


10.31 一 个 共享 对 象 
Ca) 进程 1 映射 了 共享 对 象 之 后 ;(b) 进程 2 映射 了 同一 个 共享 对 象 之 后 。( 注 意 物 理 页 面 不 -- 定 要 求 是 连接 的 。) 


国 为 每 个 对 象 都 有 一 个 惟一 的 文件 名 ， 内 核 可 以 迅速 地 判定 进程 1 已 经 映射 了 这 个 对 象 ， 而 且 
可 以 使 进程 2 中 的 页 表 条 目 指向 相应 的 物理 页 面 。 关 键 点 在 于 即使 对 象 被 映射 到 了 多 个 共享 区 域 ， 
物理 存储 器 中 也 只 需要 存放 共享 对 象 的 一 个 拷贝 。 为 了 方便 ， 我 们 将 物理 页 面 显示 为 连续 的 ， 但 是 
在 一 般 情 况 下 当然 不 是 这 样 的 ， 
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私有 对 象 是 使 用 一 种 叫做 写 时 拷贝 (copy-on-write) 的 巧妙 技术 被 映射 到 虚拟 存储 器 中 的 。 一 
个 私有 对 象 开 始 生命 周期 的 方式 基本 上 与 共享 对 象 的 一 样 ， 在 物理 存储 器 中 只 保存 有 私有 对 象 的 一 
份 拷贝 。 比 如 ,图 10.32 (a) 展示 了 一 种 情况 ， 其 中 两 个 进程 将 一 个 私有 对 象 映射 到 它们 虚拟 存储 
倘 的 个 同 区 域 ， 但 是 共享 这 个 对 象 同一 个 物理 拷贝 。 对 于 每 个 映射 私有 对 象 的 进程 ， 相 应 私有 区 域 
的 页 表 条 目 都 被 标记 为 只 读 ， 并 且 区 域 结构 被 标记 为 私有 的 写 时 拷贝 。 只 要 没有 进程 试图 写 它 自己 
的 私有 区 域 ， 它 们 就 可 以 继续 共享 物理 存储 器 中 对 象 的 一 个 单独 拷贝 。 然 而 ， 只 要 有 一 个 进程 试图 
写 私 有 区 域内 的 某 个 页 面 ， 那 么 这 个 写 操作 就 会 触发 一 个 保护 故障 。 

当 故 障 处 理 程序 注意 到 保护 异常 是 由 于 进程 试图 写 私 有 的 写 时 拷贝 区 域 中 的 一 个 页 面 而 引起 
的 ， 它 器 会 在 物理 存储 器 中 创建 这 个 页 面 的 一 个 新 拷贝 ， 更 新 页 表 条 月 指向 这 个 新 的 拷贝 ， 然 后 恢 
复 这 个 页 面 的 可 写 权 限 ， 如 图 10.32 (b) 所 示 。 当 故障 处 理 程 序 返 回 时 ，CPU 重新 执行 这 个 写 操作 ， 
现在 在 新 创建 的 页 面 上 这 个 写 操作 就 可 以 正常 要 和 行 了 。 

通过 延 开 私 有 对 象 中 的 拷贝 直到 最 后 可 能 的 时 刻 , 写 时 拷贝 最 充分 地 使 用 了 稀有 的 物理 存储 器 。 


进程 AY 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 存储 器 仓储 器 蜡 拟 存储 器 昏 拟 存储 器 存储 器 EELT fg 28 
ie. ae 


写 私 有 的 写 
时 拷贝 的 页 


私有 的 写 时 私有 的 写 时 
拷贝 对 象 拷贝 对 象 


图 10.32 一 个 私有 的 写 时 拷贝 对 象 
(a) 两 个 进程 都 映射 了 私有 的 写 时 拷贝 对 象 之 后 ，(b、 进程 2 写 了 私有 区 域 中 的 -- 个 页 之 后 。 


10.8.2 BA fork 函数 

婚 然 我 们 理解 了 虚拟 存储 器 和 存储 器 映射 ， 那 么 我 们 可 以 清晰 地 知道 fork 函数 是 如 何 创 建 一 个 
市 有 目 己 独立 虚拟 地 址 空间 的 新 进程 的 。 

当 fork 函数 被 当前 进程 调用 时 , 内 核 为 新 进程 创建 各 种 数据 结构 ,并 分 配给 它 一 个 惟一 的 PID。 
为 了 给 这 个 新 进程 创建 虚拟 存储 器 ， 它 创建 了 当前 进程 的 mm_struct、 区 域 结构 (vm_area_struct) 
MAREEN. AI EAE ET EA, TERRIA ER ETI DY 
私有 的 写 时 拷贝 的 。 

= fork 在 新 进程 中 返回 时 , 新 进程 现在 的 虚拟 存储 器 刚好 和 调用 fork 时 存在 的 虚拟 存储 器 相同 。 
当 这 两 个 进程 中 的 任 一 个 后 来 进行 写 操作 时 ， 写 时 拷贝 机 制 就 会 创建 新 页 面 ， 因 此 ， 也 就 为 每 个 进 
程 保持 了 私有 地 址 空间 的 抽象 概念 。 
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10.8.3 再 看 execve 函数 

EILAT ti a8 All 4-1 BS OR EAS PP PA BE hee KRM. MAREA 
理解 了 这 些 概念 ,我 们 就 能 够 理解 execve 函数 实际 中 是 如 何 加 载 和 执行 程序 的 。 假 设 运行 在 当前 进 
程 中 的 程序 执行 了 如 下 的 execve 调用 : 


Execve("a.out", argv, environ); 


execve 膝 数 在 当前 进程 中 加 载 并 运行 包含 在 可 执行 目标 文件 aout 中 的 程序 ， 用 a.out 程序 有 效 
地 替代 了 当前 程序 。 加 载 并 运行 aout 需要 以 下 几 个 步骤 : 

© 删除 已 存在 的 用 户 区 域 。 删 除 当 前 进程 虚拟 地 址 的 用 户 部 分 中 的 已 存在 的 区 域 结构 。 

© 映射 私有 区 域 。 为 新 程序 的 文本 、 数 据 、bss 和 栈 区 域 创建 新 的 区 域 结构 。 所 有 这 些 新 的 区 
域 都 是 私有 的 写 时 拷贝 的 。 文 本 和 数据 区 域 被 映射 为 aout 文件 中 的 文本 和 数据 区 。bss 区 
WERK THIS AY, BRN BU cE, HKD ELSE aout 中 。 栈 和 堆 区 域 也 是 请 求 二 进 
BSH), WEKE. K 10.33 概括 了 私有 区 域 的 不 同 映射 。 

© 映射 共享 区 域 。 如 果 a.out 程序 与 共享 对 象 〈 或 目标 ) 链接 ， 比 如 标准 C 库 libcso， 那 么 这 
旦 对 象 部 是 动态 链接 到 这 个 程序 的 ， 并 且 映 射 到 用 户 虚 拟 地 址 空间 中 的 共享 区 域内 。 

© 设置 程 厅 计数 器 ( PC ).execve 做 的 最 后 一 件 事情 就 是 设置 当前 进程 上 下 文中 的 程序 计数 器 ， 
使 之 指向 文本 区 域 的 入 口 点 。 

下 一 钦 调度 这 个 进 程 时 ， 它 将 从 这 个 入 口 点 开始 执行 。Linux 将 根据 需要 换 入 代码 和 数据 页 面 。 


libc.so oe Da 


:共享 库 的 存储 器 


共享 的 ， 文 件 提供 的 


私有 的 ， 哨 求 二 stale A 


私有 的 ， 文 件 提供 的 


aia ja 请 求 二 进 制 零 的 
a.out } 
已 初始 化 的 数据 (data) 


0 
图 10.33 加载 器 是 如 何 了 映射 用 户 地 址 空间 的 区 域 的 


10.8.4 使 用 mmap 函数 的 用 户 级 存储 器 映射 
Unix tEn EH mmap 函数 来 创建 新 的 虚拟 存储 器 区 域 ， 并 将 对 象 瑞 射 到 这 些 区 域 中 。 
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#include <unistd.n> 
#include <sys/mman.h> 


void *mmap(void *start, size_t length, int prot, 


int flags, int fd, off t offset): 
返回 : 硕 成 功 时 则 为 指向 映射 区 域 的 指针 ， 若 出 错 则 为 -1. 


mmap 负数 要 求 内 核 创建 一 个 新 的 虚拟 存储 器 区 域 ， 最 好 是 从 地 址 start 开始 的 -- 个 区 域 ， 并 将 
SPEAR FF fd 指定 的 对 象 的 一 个 连续 的 组 块 (chunk 映射 到 这 个 新 的 区 域 。 连 续 的 对 象 组 块 Cchunk) 
大 小 为 length 字 节 ， 从 中 文件 开 始 处 偏 称 量 为 offset 字 节 的 地 方 开 始 。start 地 址 仅仅 是 一 个 暗示， 


通常 被 定义 为 NULL。 为 了 我 们 的 目的， 我 们 总 是 假设 起 始 地 址 为 NULL。 图 10.34 描述 了 这 些 参 
数 的 意义 。 


— length( 3 4) 
pe start 
length {Z #) ee l (或 由 内 核 选 
offset ; pra 定 的 地 址 ) 
( 字 节 ) 
0 0 
MAF FAIR FF fd 指定 进程 
的 磁盘 文件 虚拟 存储 器 


10.34 mmap 参数 的 可 视 化 解释 

参数 port 包含 描述 新 映射 的 虚拟 存储 器 区 域 的 访问 权限 位 (也 就 是 ， 在 相应 区 域 结构 中 的 
vm_port 位 )。 

e PROT_EXEC: 这 个 区 域内 的 页 面 由 可 以 被 CPU 执行 的 指令 组 成 。 

e PROT_READ: 这 个 区 域内 的 页 面 可 读 。 

。 PROT_WRITE: 这 个 区 域内 的 页 面 可 写 。 

e PROT_NONE: 这 个 区 域内 的 页 面 不 能 被 访问 。 

参数 flags 由 描述 被 映射 对 象 类 型 的 位 组 成 。 如 果 MAP_ANON 标记 位 被 设置 ,并 且 fd X NULL, 
孝 么 被 映射 的 对 象 就 是 一 个 荞 名 对 象 ， 而 相应 的 虚拟 页 面 是 请 求 二 进 制 零 的 。MAP_PRIVATE 表示 
锌 了 映射 的 对 象 是 一 个 私有 的 写 时 拷贝 对 象 ， 而 MAP_SHARED 表示 是 一 个 共享 对 象 。 例 如 

bufp = Mmap(NULL, size, PROT_READ, MAP _PRIVATE|IMAP_ANON, 0, 0); 
让 内 核 创建 一 个 新 的 包含 size 字 节 的 只 读 、 私 有 、 请 求 二 进 制 零 的 虚拟 存储 器 区 域 。 如 果 调 用 成 功 ， 
那么 bufp 包含 新 区 域 的 地 址 。 

munmap 函数 删除 虚拟 存储 器 的 区 域 : 
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#include <unistd.h> 
#include <sys/mman.h> 


int munmap(void *start, size_t length); 


返回 : 大 成 功 则 为 0， 若 出 错 则 为 -1. 


munmap 孙 数 删除 从 虚拟 地 址 start 开始 的 ， 由 接 下 来 length 字 节 组 成 的 区 域 。 接 下 来 对 已 删除 
区 域 的 引用 会 导致 段 错 误 。 


练习 题 10.5 
编写 一 个 C 程序 mmapcopy.c, 使 用 mmap 将 一 个 任意 大 小 的 磁盘 文件 拷贝 到 stdout, ern tH 
的 名 字 必 须 作为 一 个 命令 行 参 数 来 传递. 


10.9 ”动态 存储 器 分 配 


虽然 可 以 使 用 低级 的 mmap 和 munmap 函数 来 创建 和 删除 虚拟 存储 器 的 区 域 , 但 是 大 多 数 C 程序 
还 是 会 在 运行 时 需要 额外 虚拟 存储 器 时 ， 使 用 一 种 动态 存储 器 分 配器 dynamic memory allocator). 

一 个 动态 存储 器 分 配器 维护 着 一 个 进程 的 虚拟 存储 器 区 域 , 称 为 堆 Cheap) (FH 10.35)。 在 大 多 数 
的 Unix 系统 中 , 堆 是 一 个 请 求 二 进 制 零 的 区 域 , 它 紧 接 在 未 初始 化 的 bss 区 域 后 开始 , 并 向 上 生长 (向 
揭 融 的 地 址 )。 对 于 每 个 进程 ， 内 核 维护 着 一 个 变量 brk ( 读 做 “break”)， ete SE TRE. 


共享 库 的 存储 器 
映射 区 域 
HE Taj E 
增长 


未 初始 化 的 数据 ( .bss) 
己 初 始 化 的 数据 ( .data) 


程序 文本 ( .text】 


10.35 i 


分 配器 将 堆 视 为 一 组 不 同 大 小 的 块 (block) 的 集合 来 维护 。 每 个 块 就 是 一 个 连续 的 虚拟 存储 器 
组 块 《chunk )， 要 么 是 已 分 配 的 ， 要 么 是 空闲 的 。 已 分 配 块 〈block) THRE AMAA. F 


4 一 HEIR (brk 指针 ) 
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闲 块 你 持 空 六 ， 直 到 它 显 式 地 被 应 用 所 分 配 。 一 个 已 分 配 的 块 保持 已 分 配 状 态 ， 直 到 它 被 霖 放 ， 这 
种 释放 要 么 是 应 用 显 式 执行 的 ， 要 么 是 存储 器 分 配器 白 身 隐 式 执行 的 。 

分 配器 有 两 种 基本 风格 。 两 种 风格 都 要 求 应 用 显 式 地 分 配 块 。 它 们 的 不 同 之 处 在 于 由 哪个 实体 
来 负责 释放 已 分 配 的 块 。 

显 式 分 配器 (explicit allocator) 要 求 应 用 显 式 地 释放 任何 已 分 配 的 块 。 例 如 ，C 标准 库 提 供 一 
种 叫做 malloc 程序 包 的 显 式 分 配器 。C 程序 通过 调用 malloc 函数 来 分 配 一 个 块 ， 开通 过 请 用 free 
次数 来 释放 一 个 块 。C++ 中 的 new 和 delete 操作 符 与 C 中 的 malloc 和 free 相当 。 

隐 式 分 配器 (implicit allocator)， 在 另 一 方面 ， 要 求 分 配器 检测 何 时 一 个 已 分 配 块 不 再 被 程序 使 
用 ,然后 就 释放 这 个 块 。 隐 式 分 配器 也 岂 做 垃圾 收集 器 (garbage collector )， 而 自动 释放 未 使 用 的 已 
分 配 的 块 的 过 程 叫 做 垃圾 收集 (garbage collection)。 例 如 ， 诸 如 Lisp, ML 以 及 Java 之 类 的 高 级 语 
言 就 依赖 垃圾 收集 来 释放 已 分 配 的 块 。 

本 站 剩 下 的 部 分 过 论 的 是 显 式 分 配器 的 设计 和 实现 。 我 们 将 在 10.10 小 节 中 讨论 隐 趟 分 配器 ， 
为 了 更 具体 ， 我 们 的 讨论 集中 于 管理 堆 存 储 器 的 分 配器 。 然 而 ， 学 生 们 应 该 明白 存储 器 分 配 是 一 个 
普 壳 的 概念 ， 可 以 出 现在 各 种 上 下 文中 。 例 如 ， 图 形 处 理 密集 的 应 用 程序 就 经 常 使 用 标准 分 配器 来 
要 求 获得 一 大 块 虚 拟 存储 器 ， 然 后 使 用 与 应 用 相关 的 分 配器 来 管理 块 中 的 存储 器 ， 以 支持 图 形 节 点 
的 创建 和 销毁 。 


10.9.1 malloc 和 free HH 
C 标准 库 提 供 了 一 个 称 为 malo 程序 包 的 显 式 分 配器 。 程序 通过 调用 malloc RAOK M te h bA 
H. 


#include <stdlib.h> 


void *malloc (size t size); 


退回 : 老成 功 则 为 指针 ， 若 出 错 则 为 NULL. 


malloc 明 数 返回 一 个 指针 ， 指 回 大 小 为 至 少 size 字 节 的 存储 器 块 ， 这 个 块 会 为 可 能 包含 在 这 个 
块 内 的 所 有 数据 对 象 类 型 做 对 齐 。 在 我 们 熟悉 的 Unix 系统 上 ，malloc 返回 一 个 8 Fi ( 双 字 ) 边界 
AFFAIR. size_t 类 型 被 定义 为 unsigned int (AGE RH). 


eit: 一 个 字 有 多 大 ? 
回想 一 下 在 第 3 章 中 我 们 对 IA32 机 器 代码 的 讨论 ，Intel 将 4 FH RH 双 字 。 然 而 ， 在 本 
节 中 ， 我 们 会 假设 字 是 4 字 节 的 对 象 ， 而 双 字 是 8 字 节 的 对 象 ， 这 和 传统 术语 是 一 致 的 。 


WR malloc 过 到 问题 (例如 ， 程 序 妆 求 的 存储 器 块 比 可 用 的 虚拟 存储 器 还 整 大 )， WE RIE 
E| NULL, 并 设置 errno. malloc 不 初始 化 它 返 回 的 存储 器 。 那 些 想 要 已 初始 化 的 动态 存储 器 的 应 用 
往 厅 可 以 使 用 calloc，calloc 是 - -个 基于 malloc 的 瘦 包 装 (wrapper) KRG, CHIERE RH 
化 为 过。 息 要 改变 一 个 以 前 已 分 配 块 的 大 小 ， 可 以 使 用 realloc 函数 。 

动态 存储 器 分 配器 〈 例 如 malloc) 可 以 通过 使 用 mmap 和 munmap 顺 数 ， 显 式 地 分 配 和 释放 堆 
仓储 器 ， 还 可 以 使 用 sbrk XG 
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#include <unistd.h> 


void *sbrk({int incr); 


SRE: ADNA Æ brk 指针 ， 若 出 错 则 为 -]. 


sbrk PA SUH SDE AKA) brk 指针 增加 ince 来 扩展 和 收缩 堆 。 如 果 成 功 ， 它 就 返回 brk 的 旧 值 ， 
军 则 ， 它 就 返回 -1， 并 将 erno 设置 为 ENOMEM。 如 果 incr WS, 那么 sbrk 就 返回 brk 的 当前 值 。 


用 一 个 为 负 的 incr 来 调用 sbrk 是 合法 的 ， 而 且 很 巧妙 ， 因为 返回 值 (brk 的 旧 值 》 指 向 距 新 堆 顶 上 
HKJ abs (incr) 字 节 。 


程序 是 通过 调用 free 函数 来 释放 已 分 配 的 挫 块 。 


#include <stdlib.h> 


void free(void *ptr); 


pir 参数 必须 指 同 一 个 从 malloc 获得 的 已 分 配 块 的 起 始 位 置 。 如 果 不 是 ， 那 么 free 的 行为 就 是 
未 定义 的 。 更 糟 的 是 ， 既 然 它 什么 都 不 返回 ，free 就 不 会 告诉 应 用 出 现 了 错误 。 就 像 我 们 将 在 10.11 
1 时 看 到 的 ， 这 会 产生 一 些 令 人 迷惑 的 运行 时 错误 。 
图 10.36 展示 了 一 个 malloc 和 free 的 实现 是 如 何 管理 一 个 C 程序 的 16 字 的 (非常) 小 的 堆 的 。 
每 个 方 框 代 表 了 一 个 4 字 节 的 字 。 炎 线 标 出 的 矩形 对 应 于 已 分 配 块 《有 阴影 的 ) 和 空闲 块 (无 阴影 
的 》)。 初 始 时 ， 堆 是 由 一 个 大 小 为 16 个 字 的 、 双 字 对 齐 的 、 空 闲 块 组 成 的 。 
© 图 10.36 (a): 程序 请 求 一 个 4 字 的 块 。malloc 的 响应 是 : 从 空闲 块 的 前 部 切 出 一 个 4 字 的 
块 ， 并 返回 一 个 指向 这 个 块 的 第 -一 字 的 指针 。 
* 图 10.36 (b): 程序 请 求 一 个 5 字 的 块 。malloc 的 响应 是 ， 从 空闲 块 的 前 部 分 配 一 个 6 字 的 
块 。 在 本 例 中 ，malloc 在 块 里 填充 了 一 个 额外 的 字 ， 是 为 了 保持 空闲 块 是 双 字 边界 对 章 的 。 
© 图 10.36 (c): 程序 请 求 一 个 6 字 的 块 , 而 malloc 就 从 空闲 块 的 前 部 切 出 一 个 6 FHH. 
* 图 10.36 (d): 程序 释放 在 图 10.36 b) 中 分 配 的 那个 6 字 的 块 。 注 意 , AH free 返回 之 
后 ， 指 针 p2 仍然 指向 被 释放 了 的 块 。 应 用 有 责任 在 它 被 一 个 新 的 malloc 调用 重新 初始 化 之 
前 ， 不 再 使 用 p2。 
。 图 10.36(e): 程序 请 求 一 个 2 字 的 块 。 在 这 种 情况 中 ，malloc 分 配 在 前 一 步 中 被 释放 了 的 
块 的 一 部 分 ， 并 返回 一 个 指向 这 个 新 块 的 指针 。 


(a)pl = malloc (4*sizeof (int) ) 


(b)p2 = malloc(5*sizeof (int) ) 
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(d) Eree (p2) 


p1 p2 p4 p3 


l LEA } 


(e)p4 = malloc(2*sizeof (int) ) 


图 10.36 FA malloc 分 配 和 释放 块 


每 个 方 框 对 应 于 一 个 字 。 每 个 粗 线 标 出 的 矩形 对 应 于 一 个 块 。 已 分 配 的 块 是 有 阴影 的 。 空 闪 块 是 无 阴影 的 。 堆 地 址 是 从 左 往 
右 增 加 的 。 


10.9.2 为 什么 要 使 用 动态 存储 器 分 配 ? 

程序 使 用 动态 存储 器 分 配 的 最 重要 的 原因 是 它们 经 常 直到 程序 实际 运行 时 ， 才 知道 某 些 数据 络 
构 的 大 小 。 例 如 ， 假 设 要 求 我 们 编写 一 个 C 程序 ， 它 读 一 个 n 个 ASC 但 整数 的 链表 ， 每 一 行 一 个 
整数 ， 从 stdin 到 一 个 C 数组 。 输 入 是 由 整数 n， 和 接 下 来 要 读 和 存储 到 数组 中 的 n 个 整数 组 成 的 。 
最 简单 的 方法 就 是 用 某 种 硬 编码 的 最 大 数组 大 小 静态 地 定义 这 个 数组 : 


1 #include "csapp.h" 

2 #define MAXN 15213 

3 

4 int array [MAXN] ; 

5 

6 int main() 

d { 

8 Ine 1i; nN; 

9 

2O Scanf("%d", &n); 

11 if (n > MAXN) 

t2 app_error("Input file too big"); 
13 for {1 = Qs 1 < ny i++) 

14 scan ("%d", &array[1]); 
15 exit (0); 

16 } 


用 这 伴 便 编码 的 大 小 来 分 配 数组 通常 不 是 种 好 想法 。MAXN 的 值 是 任意 的 ， 和 机 器 上 可 用 的 虚 
拟 存 铺 器 的 实际 数量 没有 关系 。 而 且 ， 如 果 这 个 程序 的 使 用 者 想 读 取 一 个 比 MAXN KAX., E 
一 的 办 法 融 是 用 一 个 更 大 的 MAXN 值 来 重新 编译 这 个 程序 。 虽 然 对 于 这 个 简单 的 示例 来 说 这 不 成 
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问题 ， 但 是 便 编 码 数组 界限 的 出 现 对 于 拥有 百 万 行 代码 和 大 量 使 用 者 的 大 型 软件 产品 而 言 ， 会 变 成 
EPES 

一 种 更 好 的 方法 是 在 运行 时 ， 在 已 知 了 n 的 值 之 后 ， 动 态 地 分 配 这 个 数组 。 使 用 这 种 方法 ， 数 
组 大 小 的 最 大 值 就 只 由 可 用 的 虚拟 存储 器 数量 来 限制 了 。 


1 #include "csapp.h" 


2 

3 int main(} 

4 { 

5 int *array, 1, n; 

6 

7 scanf("td", &n); 

8 array = (int *)Malloc(n * sizeof(int)); 
9 for (1 = 0; 1 < n; i++) 

10 scanf ("%d", &array[i]); 

11 exit (0); 


12 } 


动态 存储 器 分 配 是 一 种 有 用 而 重要 的 编程 技术 。 然 而 ， 为 了 正确 而 高 效 地 使 用 分 配器 ， 程 序 员 
需要 对 它们 是 如 何 工作 的 有 所 了 解 。 我 们 将 在 10.11 节 中 讨论 因为 不 正确 地 使 用 分 配器 所 导致 的 一 
些 可 怕 的 错误 。 


10.9.3 分 配器 的 要 求 和 目标 
显 式 分 配器 必须 在 一 些 相 当 严 格 的 约束 条 件 下 工作 : 
。 处 理 任意 请 求 序列 。 一 个 应 用 可 以 有 任意 序列 的 分 配 请 求 和 释放 请 求 ， 只 要 满足 约束 条 件 : 
每 个 释放 请 求 必须 对 应 于 一 个 当前 已 分 配 块 ， 这 个 块 产生 于 以 前 的 分 配 请 求 。 因 此 ， 分 配 
器 不 可 以 假设 分 配 和 释放 请 求 的 顺序 。 例 如 ， 分 配器 不 能 假设 所 有 的 分 配 请 求 都 有 相 匹 配 
的 释放 请 求 ， 或 者 有 相 匹 配 的 分 配 和 空闲 请 求 是 幅 套 的 。 
。 立即 响应 请 求 。 分 配器 必须 立即 响应 分 配 请 求 。 因 此 ， 不 允许 分 配器 为 了 提高 性 能 重新 排 
列 或 者 缓冲 请 求 。 
。 只 使 用 堆 ， 为 了 使 分 配器 是 可 扩展 的 ， 分 配器 使 用 的 任何 非 标量 数据 结构 都 必须 保存 在 堆 
里 。 
。 对 齐 块 (对 齐 要 求 )。 分 配器 必须 对 齐 块 ， 使 得 它们 可 以 保存 任何 类 型 的 数据 对 象 。 在 大 多 
数 系 统 中 ， 这 意味 着 分 配器 返回 的 块 是 8 FE ONE) 边界 对 齐 的 。 
。 不 修改 已 分 配 的 块 。 分 配器 只 能 操作 或 者 改变 空闲 块 。 特 别 是， 一 旦 块 被 分 配 了 ， 就 不 允 
许 修改 或 者 移动 它 了 。 因 此 ， 诸 如 压缩 已 分 配 块 这 样 的 技术 是 不 允许 使 用 的 。 
在 这 些 限制 条 件 下 工作 ， 分 配器 的 编写 者 试图 实现 吞吐 率 最 大 化 和 存储 器 使 用 率 最 大 化 ， 而 这 
两 个 性 能 目标 经 常 是 相互 冲突 的 。 
。 目标 1: 最 大 化 吞吐 率 。 假定 n 个 分 配 和 释放 请 求 的 某 种 序列 : 
Ro, R", Re, Ra 
我 们 希望 一 个 分 配器 的 吞吐 率 最 大 化 ， 香 吐 率 就 是 在 每 个 单位 时 间 里 完成 的 请 求 数 。 例 
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如 ， 如 打 一 个 分 配器 在 1 秒 中 内 完成 500 个 分 配 请 求 和 500 个 释放 请 求 ， 那 么 它 的 吞吐 率 就 
是 每 秒 1000 次 操作 。 一 般 而 言 ， 我 们 可 以 通过 使 满足 分 配 释 放 请 求 的 平均 时 间 最 小 化 来 使 
理 吐 率 最 大 化 。 正 如 我 们 会 看 到 的 ， 开 发 一 个 具有 合理 性 能 的 分 配器 并 不 困难 ， 所 谓 合 理性 
He tet 一 个 分 配 请 求 的 最 炉 运 行 时 间 与 空闲 块 的 数量 成 线性 关系 ， 而 一 个 释放 请 求 的 运行 时 
上 间 是 个 常数 。 
© 目标 2: 最 大 化 存储 器 利用 率 . 天 真 的 程序 员 经 常 不 正确 地 假设 虚拟 存储 器 是 一 个 无 限 的 资 

源 。 实 际 上 ， 一 个 系统 中 被 所 有 进程 分 配 的 虚拟 存储 器 的 全 部 数量 是 受 磁盘 上 交换 空间 的 

级 量 限制 的 。 好 的 程序 员 知 道 虚拟 存储 器 是 一 个 有 限 的 空间 ， 必 须 高 效 地 使 用 。 对 于 可 能 

被 要 求 分 配 和 释放 大 块 存储 器 的 动态 存储 器 分 配器 来 说 ， 尤 其 如 此 。 

有 很 多 方式 来 描述 一 个 分 配器 使 用 堆 的 效率 如 何 。 在 我 们 的 经 验 中 ， 最 有 用 的 标准 是 峰值 
利用 率 〈peak utilization)。 像 以 前 一 样 ， 我 们 给 定 n 个 分 配 和 释放 请 求 的 某 种 顺序 

Ro Raw Re Rna 

如 来 一 个 应 用 程序 请 求 一 个 p 字 节 的 块 ， 那么 得 到 的 已 分 配 块 的 有 效 载 荷 (payload) Æ p 字 节 。 
在 请 求 R, TOM ZIG, RRA RBA (aggregate payload)， 表 示 为 已 ， 为 当前 已 分 配 的 块 的 有 效 
载 奇 之 和 ， 而 HH 表示 堆 的 当前 的 单调 不 降低 的 ) 大小。 

MA, Ak Sa REAM, KRY i， 可 以 通过 下 式 得 到 : 
max i<k Fi 

Ay, 

MA, Acar A A bp pt EENT EAA OU, 最 大 化 。 正 如 我 们 将 要 看 到 的 ， 在 最 
大 化 否 吐 率 和 最 大 化 利用 率 之 则 是 有 平衡 关系 的 。 特 别 是 ， 以 堆 利 用 率 为 代价 ， 很 容易 编写 出 吞吐 
率 最 大 化 的 分 配器 。 分 配器 设计 中 一 个 有 趣 的 挑战 就 是 在 两 个 目标 之 间 找 到 一 个 适当 的 平衡 。 
Sit: 放宽 单调 性 假设 


我 们 可 以 通过 让 所 成 为 前 上 个 请 求 的 最 高 磋 ， 从 而 使 得 在 我 们 对 U 的 定义 中 放宽 单调 不 降低 
的 假设 ， 并 且 允 许 堆 增长 和 降低 . 


U; = 


10.9.4 fF 

ie DHE AA A RA ES RAR RARA (fragmentation) 的 现象 ， 当 虽然 有 未 使 用 的 存 
侦 器 但 不 能 用 来 满足 分 配 请 求 时 ， 就 发 生 这 种 现象 。 有 两 种 形式 的 碎片 ， 内 部 碎片 (internal 
fragmentation) 和 外 部 碎片 (external fragmentation )。 

内 部 碎 广 是 在 一 个 已 分 配 块 比 有 效 载荷 大 时 发 生 的 。 很 多 原因 都 可 能 造成 这 个 问题 。 例 如 ， 一 
个 分 筷 器 的 实现 可 能 对 已 分 配 块 强加 一 个 最 小 的 大 小 值 ， 而 这 个 大 小 要 比 某 个 请 求 的 有 效 载荷 大 。 
或 者 ， 器 如 我 们 在 图 10.36 (b) 中 看 到 的 ， 分 配器 可 能 增加 块 大 小 以 满足 对 齐 约束 条 件 。 

内 部 碎片 的 量化 是 简单 明了 的 。 它 就 是 已 分 配 块 和 它们 的 有 效 载荷 之 差 的 和 。 因 此 ， 在 任意 时 
刻 ， 内 部 碎片 的 数量 只 到 决 于 以 前 请 求 的 模式 和 分 配器 的 实现 方式 。 

外 部 碎片 是 当空 用 存储 器 合计 起 来 足够 满足 一 个 分 配 请 求 ， 但 是 没有 -- 个 单独 的 空闲 块 足够 大 
可 以 来 处 理 这 个 请 求 时 发 生 的 。 例 如 ， 如 果 图 10.36 (Ce) 中 的 请 求 要 求 6 个 字 ， 而 不 是 2 个 字 ， 烛 
么 如 有 二 不 向 内 核 请 求 额 外 的 虚拟 存储 器 就 无 法 满足 这 个 请 求 ， 即 使 在 堆 中 仍然 有 6 个 空闲 的 字 。 问 
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是 的 产生 是 由 于 这 6 个 字 是 分 在 两 个 空闲 块 中 的 。 

外 部 碎片 比 内 部 碎片 的 量化 要 困难 得 多 ， 因 为 它 不 仅 取决 于 以 前 请 求 的 模式 和 分 配器 的 实现 方 
式 ， 还 取决 于 将 来 请 求 的 模式 。 例 如 ， 假 设 在 天 个 请 求 之 后 ， 所 有 空闲 块 的 大 小 都 恰好 是 4 个 字 。 
这 个 堆 会 有 外 部 碎片 吗 ? 答案 取决 于 将 来 请 求 的 模式 。 如 果 将 来 所 有 的 分 配 请 求 都 要 求 比 4 个 字 小 
的 块 ， 那 么 就 不 会 有 外 部 碎片 。 另 一 方面 ， 如 果 有 一 个 或 者 多 个 请 求 要 求 比 4 个 字 大 的 块 ， 那 么 这 
个 堆 就 会 有 外 部 碎片 。 

因为 外 部 碎片 是 难以 量化 和 不 可 能 预测 的 ， 所 以 分 配器 典型 地 采用 启发 式 策 略 来 试图 维持 少量 
的 大 空 用 块 ， 而 不 是 维持 大 量 的 小 空闲 块 。 


10.9.5 实现 问题 

可 以 想像 出 的 最 简单 的 分 配器 会 把 堆 组 织 成 -- 个 大 的 字 节 数组 ， 还 有 一 个 指针 P， 初 始 指向 这 
个 数组 的 第 一 个 字 节 。 为 了 分 配 size FA, malloc 将 P 的 当前 值 保存 在 栈 里 ， 将 P 增 加 size， 并 将 
P 的 旧 值 返回 到 调用 函数 。free 只 是 简单 地 返回 到 调用 函数 ， 而 不 做 其 他 任何 事情 。 

这 个 简单 的 分 配器 是 设计 中 的 一 种 极端 情况 。 因为 每 个 malloc 和 free 只 执行 很 少量 的 指令 , & 
吐 率 会 极 好 。 然 而 ， 因 为 分 配器 从 不 重复 使 用 任何 块 ， 存 储 器 利用 率 将 极 差 。 一 个 实际 的 分 配器 要 
在 吞吐 率 和 利用 率 之 间 把 握 好 平衡 ， 就 必须 考虑 以 下 几 个 问题 

e。 ZARUR: 我 们 如 何 记 录 空 闲 块 ? 

。 RE: 我 们 如 何 选 择 一 个 合适 的 空闲 块 来 放置 一 个 新 分 配 的 块 ? 

。 TE: 在 我 们 将 一 个 新 分 配 的 块 放置 到 某 个 空闲 块 之 后 ， 我 们 如 何 处 理 这 个 空闲 块 中 的 剩 

余部 分 ? 

。 合并 : 我 们 如 何 处 理 一 个 刚刚 被 释放 的 块 ? 

本 福 剩 下 的 部 分 将 详细 讨论 这 些 问题 。 因 为 像 放置 、 分 割 以 及 合并 这 样 的 基本 技术 贯穿 在 许多 
不 同 的 空闲 抉 组 织 中 ， 所 以 我 们 将 在 一 种 叫做 隐 式 空闲 链表 的 简单 空闲 块 组 织 结构 中 来 介绍 它们 。 
10.9.6” 隐 式 空 闲 链表 


任何 实际 的 分 配器 都 需要 一 些 数据 结构 ， 人 允许 它 来 区 别 块 边界 ， 并 区 别 已 分 配 块 和 空闲 块 。 大 
多 数 分 配器 将 这 些 信息 髓 在 块 本 身 当中 。 一 个 简单 的 方法 如 图 10.37 所 示 。 


31 头 部 3210 
a= |: 己 分 配 的 
malloc 返回 一 个 指针 ， 网 KR |00a } a=0: ZÉ) 
它 指 回 有 效 载 荷 的 开始 处 
块 大 小 包括 头 部 ， 
(只 包括 已 分 配 的 块 ) 有 效 载荷 和 所 有 的 填充 


图 10.37 一 个 简单 的 堆 块 的 格式 
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在 这 种 情况 中 ， 一 个 块 是 由 一 个 字 的 头 部 、 有 效 载荷 ， 以 及 可 能 的 一 些 额外 的 填充 组 成 的 。 头 
部 编码 了 这 个 块 的 大 小 〈 包 括 头 部 和 所 有 的 填充 )， 以 及 这 个 块 是 已 分 配 的 还 是 空闲 的 。 如 果 我 们 强 
加 一 个 双 字 的 对 齐 约束 和 条件， 那么 块 大 小 就 总 是 8 的 倍数 ， 且 块 大 小 的 最 低 3 位 总 是 零 。 因 此 ， 我 
们 只 再 要 存储 块 大 小 的 29 个 高 位 ， 释放 剩余 的 3 位 来 编码 其 他 信息 。 在 这 种 情况 中 ,我 们 用 其 中 的 
BUR CASAC) 来 指明 这 个 块 是 已 分 配 的 ， 还 是 空闲 的 。 例 如 ， 假 设 我 们 有 一 个 已 分 配 的 块 ， 
大 小 为 24 (0x18) 字 节 。 那 么 它 的 头 部 将 是 

0x00000018 | 0x1 = 0x00000019. 


失 似 地 ， 一 个 块 大 小 为 40 (0x28) 字 节 的 空闲 块 有 如 下 的 头 部 ; 

0x00000028 | 3x0 = 0x00000028. 

头 部 后 面 就 是 应 用 调用 malloc 时 请 求 的 有 效 载荷 。 有 效 载荷 后 面 是 一 块 不 使 用 的 填充 块 ， 其 大 
小 可 以 是 任意 的 。 硬 要 填充 有 很 多 原因 。 比 如 ， 填 充 可 能 是 分 配器 策略 的 一 部 分 ， 用 来 对 付 外 部 碎 
厂 。 或 者 也 需要 用 它 来 满足 对 齐 要 求 。 


假设 块 的 格式 如 图 10.37 所 示 ， 我 们 可 以 将 堆 组 织 为 一 个 连续 的 已 分 配 块 和 空闲 块 的 序列 ， 如 
图 10.38 所 示 。 


图 10.38 ”用 隐 式 空闲 链表 来 组 织 堆 
已 分 配 块 是 有 阴影 的 。 空 亲 块 是 没有 阴影 的 。 头 部 标记 为 《大 小 〈 字 节 ) /已 分 配 位 )。 


我 们 称 这 种 结构 为 隐 式 空 用 链表 ， 是 因为 空闲 块 是 通过 头 部 中 的 大 小 字段 隐 含 地 连接 着 的 。 分 
卫 融 可 以 通过 带 历 堆 中 的 所 有 块 ， 从 而 间接 地 遍历 整个 宝 闲 块 的 集合 。 注 意 ， 我 们 需要 以 某 种 特殊 
怀 记 结束 的 块 ， 在 这 个 示例 中 ， 就 是 一 个 设置 了 已 分 配 位 而 大 小 为 零 的 终止 头 部 (terminating 
header). CARBUTAHE 10.9.12 节 中 看 到 的 ， 设 置 已 分 配 位 简化 了 空闲 块 的 合并 。》 

隐 式 空 用 链表 的 优点 是 简单 。 显 著 的 缺点 是 任何 操作 的 开销 ， 例 如 放置 分 配 的 块 ， 要 求 空闲 链 
表 的 搜索 与 堆 中 已 分 配 块 和 空闲 块 的 总 数 呈 线性 关系 。 

很 重要 的 一 点 就 是 意识 到 系统 对 齐 要 求 和 分 配器 对 块 格式 的 选择 对 分 配器 上 的 最 小 块 大 小 有 强 
制 的 要 求 。 没 有 已 分 配 块 或 者 空闲 块 可 以 比 这 个 最 小 值 还 小 。 例 如 ， 如 果 我 们 假设 一 个 双 字 的 对 齐 
要 求 ， 那 么 每 个 块 的 大 小 都 必须 是 双 字 (8 FA) 的 倍数 。 因 此 ， 图 10.37 中 的 块 格式 就 导致 最 小 
的 块 大 小 为 两 个 字 ， 一 个 字 作 头 ， 另 一 个 字 维 持 对 齐 要 求 。 即 使 应 用 只 请 求 一 字 节 ， 分 配器 也 仍然 
击 要 创建 一 个 两 字 的 块 。 


练习 题 10.6 
确定 下 面 malloc 请 求 序列 产生 的 块 大 小 和 头 部 值 。 假 设 : 分 配器 保持 双 字 对 齐 ， 并 且 使 用 块 格 
ASH 10.37 中 所 示 的 隐 式 空闲 链表 ; 块 大 小 向 上 全 入 为 最 接近 的 8 字 节 的 倍数 ， 
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10.9.7 ”放置 分 配 的 块 

当 一 个 应 用 请 求 一 个 k 字 节 的 块 时 ， 分 配器 搜索 空闲 链表 ， 查 找 一 个 足够 大 、 可 以 放置 所 请 求 
块 的 空 采 块 。 分 配器 执行 这 种 搜索 的 方式 是 由 放置 策略 (placement policy) 确定 的 。 一 些 常见 的 策 
MS tA Ais He (first fit)、 下 一 次 适 配 (next fit) ABA (best fit). 

首次 运 配 从 头 开始 搜索 空闲 链表 ， 选 择 第 一 个 合适 的 空闲 块 。 下 一 次 适 配 和 首次 适 配 很 相似 ， 
只 不 过 不 是 从 链表 的 起 始 处 开始 每 次 搜索 ， 而 是 从 上 一 次 查询 结束 的 地 方 开 始 。 最 佳 适 配 检查 每 个 
空闲 抉 ， 选 择 匹配 所 希 请 求 大 小 的 最 小 空闲 块 。 

下 次 适 配 的 一 个 优点 是 它 趋向 于 将 大 的 空闲 块 保留 在 链表 的 后 面 。 缺 点 是 它 趋向 于 在 靠近 链 
表 起 始 处 留 下 小 空闲 块 的 “碎片 ” 这 就 增加 了 对 较 大 块 的 搜索 时 间 。 下 一 次 适 配 是 由 Donald Knuth 
作为 首次 适 配 的 一 种 代替 品 最 早 提出 的 ， 源 于 这 样 一 个 想法 : 如 果 我 们 上 一 次 在 某 个 空闲 块 里 已 
经 及 现 了 一 个 匹配 ， 那 么 很 可 能 下 一 次 我 们 也 能 在 这 个 剩余 块 中 发 现 匹 配 。 下 一 次 适 配 比 首次 适 
配 运 行 起 来 明显 要 快 一 些 。 然 而 ， 一 些 研究 表明 ， 下 一 次 适 配 的 存储 器 利用 率 要 比 首次 适 配 低 得 
多 。 研 究 还 表明 最 佳 适 配 比 首次 适 配 和 下 一 次 适 配 的 利用 率 都 要 高 一 些 。 然 而 ， 在 简单 空闲 链表 
组 织 结构 中 ， 比 如 隐 式 空闲 链表 中 ， 使 用 最 佳 适 配 的 缺点 是 它 要 求 对 堆 进 行 彻底 的 搜索 。 在 后 面 ， 
我 们 将 看 到 更 加 精细 复杂 的 分 离 式 空闲 链表 组 织 ， 它 实现 了 最 佳 适 配 策略 ， 而 不 需要 进行 彻底 的 
堆 搜索 。 


10.9.8 分割 空 内 块 

一 旦 分 配器 找到 一 个 匹配 的 空闲 块 ， 它 就 必须 做 另 一 个 策略 决定 ， 那 就 是 分 配 这 个 空闲 块 中 多 
少 空间 。 一 个 选择 是 用 整个 空闲 块 。 虽 然 这 种 方式 简单 而 快捷 ， 但 是 主要 的 缺点 就 是 它 会 造成 内 部 
枝 片 。 如 果 放 置 策略 趋向 于 产生 好 的 匹配 ， 那 么 额外 的 内 部 碎片 也 是 可 以 接受 的 。 

然而 ， 如 朱 匹 配 不 太 好 ， 那 么 分 配器 通常 会 选择 将 这 个 空闲 块 分 割 为 两 部 分 。 第 一 部 分 变 成 分 
ACER, TOF 下 的 变 成 一 个 新 的 空闲 块 。 图 10.39 展示 了 分 配器 如 何 分 割 图 10.38 中 8 个 字 的 空闲 块 ， 
来 满足 一 个 应 用 的 对 堆 存 储 器 3 个 字 的 请 求 。 


arse oo 


es 国 PETER soos eos 


图 10.39 分 害 一 个 空间 块 ， ne 
己 分 配 块 是 有 阴影 的 。 空 闲 块 是 没有 阴影 的 。 头 部 标记 为 《大 小 〈 字 节 ) /已 分 配 位 )。 


10.9.9 获取 额外 的 堆 存 储 器 
如 果 分 配器 不 能 为 请 求 块 找到 合适 的 空闲 块 ， 将 发 生 什 么 呢 ? 一 个 选择 是 通过 合并 那些 在 存储 
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器 中 物理 上 和 相 邻 的 空闲 块 来 创建 一 些 更 大 的 空闲 块 (在 下 一 节 中 描述 )。 然 而 ， 如 果 这 样 还 是 不 能 生 
成 一 个 是 够 大 的 块 ， 或 者 如 果 空 闲 块 已 经 最 大 程度 地 合并 了 ， 那 么 分 配器 就 会 向 内 核 请 求 额外 的 堆 
人 存储器， 要 么 是 通过 调用 mmap， 要 么 是 通过 调用 sbrk 陋 数 。 在 任 一 种 情况 下， 分 配器 都 会 将 额外 
的 《或 增加 的 ) 存储 器 转化 成 一 个 大 的 空闲 块 ， 将 这 个 块 插入 到 空闲 链表 中 ， 然 后 将 被 请 求 的 块 放 
前 仁 这 个 新 的 空闲 块 中 。 


10.910 ”合并 空 采 块 

当 分 也 规 杰 放 一 个 已 分 配 块 时 ， 可 能 有 其 他 空闲 抉 与 这 个 新 释放 的 空 困 块 相 邻 。 这 些 邻 接 的 空 
用 块 可 能 引起 一 种 现象 ， 叫 做 假 碎片 (faujt fragmentation)， 这 里 有 许多 可 用 的 空闲 块 被 切割 成 为 小 
的 、 无 法 使 用 的 空闲 块 。 比 如 ， 图 10.40 Fea 7 PER 10.39 中 分 配 的 块 后 得 到 的 结果 。 结 果 是 两 
个 相 邻 的 军 闲 块 ， 每 个 的 有 效 载荷 都 为 3 个 字 。 因 此 , 接 下 来 一 个 对 4 字 有 效 载荷 的 请 求 就 会 失败 ， 
即使 蝎 个 空闲 块 的 合计 大 小 足够 大 ， 可 以 满足 这 个 请 求 。 


坟 使 用 的 ee; | 
堆 的 a | | 双 宁 
起 始 Lo | 对 齐 


图 10.40 BER BS aR Bt 
己 分 配 块 是 有 阴影 的 空闲 块 是 没有 阴影 的 。 头 部 标记 为 《大 小 〈 字 节 ) /已 分 配 位 )。 


为 了 对 付 假 碎片 问题 ， 任 何 实际 的 分 配器 都 必须 合并 相 邻 的 空闲 块 ， 这 个 过 程 称 为 合并 
《coalescing )。 人 这 就 提出 了 一 个 重要 的 策略 决定 ， 那 就 是 何 时 执行 合并 。 分 配器 可 以 选择 立即 合并 
(immediate coalescing)， 也 束 是 在 每 次 一 个 块 被 释放 时 ， 就 合并 所 有 的 相 邻 块 。 或 者 它 也 可 以 选择 
推迟 合并 (deferred coalescing )， 也 就 是 等 到 某 个 稍 晚 的 时 候 再 合并 空闲 块 。 例 如， 分 配器 可 以 推迟 
全 并， 直到 某 个 分 配 请 求 失败 ， 然 后 扫描 整个 堆 ， 合 并 所 有 的 空闲 块 。 

立即 合并 很 简单 明了 ， 可 以 在 常数 时 间 内 执行 完成 ， 但 是 对 于 某 些 请 求 模 式 ， 这 种 方式 会 产生 
一 种 形式 的 拌 动 ， 块 会 反复 地 合并 ， 然 后 马上 分 割 。 例 如 ， 在 图 10.40 中 ， 反 复 地 分 配 和 释放 一 个 
3 个 子 的 块 将 产生 大 量 不 必要 的 分 割 和 合并 。 在 我 们 对 分 配器 的 讨论 中 ， 我 们 会 假设 使 用 立即 合并 ， 
但 是 你 应 该 了 解 ， 快 速 的 分 配器 通常 会 选择 某 种 形式 的 推迟 合并 。 


10.9.11 带 边 界 标记 的 合并 

分 配器 是 如 何 实现 合并 的 ? 让 我 们 称 我 们 想 蓝 释放 的 块 为 当前 块 。 那 么 ， 合 并 〈 存 储 器 中 的 ) 
下 一 个 空闲 块 很 简单 而 且 高 效 。 当 前 块 的 头 部 指向 下 一 个 块 的 头 部 ， 可 以 检查 这 个 指针 以 判断 下 一 
个 块 是 否 是 裤 闲 的 。 如 果 是 ， 就 将 它 的 大 小 简单 地 加 到 当前 块头 部 的 大 小 上 ， 这 两 个 块 在 常数 时 间 
内 被 合并 。 

但 是 我 们 该 如 何 合并 前 面 的 块 呢 ? 给 定 一 个 带头 部 的 隐 式 空闲 链表 ， 人 惟一 的 选择 将 是 搜索 整个 
链表 ， 记 住 前 面 块 的 位 置 ， 直 到 我 们 到 达 当 前 块 。 使 用 隐 式 空闲 链表 ， 这 意味 着 每 次 调用 free 的 时 
间 都 与 堆 的 大 小 成 线性 关系 。 即 使 使 用 更 复杂 精细 的 空闲 链表 组 织 ， 搜 索 时 间 也 不 会 是 常数 。 

Knuth 提出 了 一 种 脱 明 而 通用 的 技术 ， 叫 做 边界 标记 boundary tag)， 人 允许 在 常数 时 间 内 进行 对 
表面 块 的 合并 。 这 种 思想 ， 如 图 10.41 所 示 ， 是 在 每 个 块 的 结尾 处 添加 一 个 脚 部 (footer 边界 标记 )， 
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其 中 脚 部 就 是 头 部 的 一 个 副本 。 如果 每 个 块 包括 这 样 一 个 脚 部 ， 那么 分 配器 就 可 以 通过 检查 它 的 脚 部 ， 
判断 表面 一 个 块 的 起 始 位 置 和 状态 ， 这 个 脚 部 总 是 在 距 当前 块 结尾 位 置 ! 一 个 字 的 距离 。 


有 效 载荷 
(只 包括 已 分 配 的 块 ) 


填充 《可 选 ) 


10.41 ”使 用 边界 标记 的 堆 块 的 格式 
考虑 当 分 配器 释放 当前 块 时 所 有 可 能 存在 的 情况 ， 
1. 前 面 的 块 和 后 面 的 块 都 是 已 分 配 的 。 
2. 前 面 的 块 是 已 分 配 的 ， 后 面 的 块 是 空闲 的 。 
3. 表面 的 块 是 空闲 的 ， 而 后 面 的 块 是 已 分 配 的 。 
4. 前 面 的 和 后 面 的 块 都 是 空闲 的 。 
图 10.42 展示 了 我 们 如 何 对 这 四 种 情况 进行 合并 。 


图 10.42 使 用 边界 标记 的 合并 


情况 1 前面 的 和 后 面 块 都 已 分 配 。 情 况 2， 前 面 块 已 分 配 ， 后 面 块 空闲 。 情 况 3， 前 面 块 空闲 ， 后 面 块 已 分配。 情况 4， 后 
面 块 和 前 面 块 都 空闲 。 


eee 


| 原文 为 开始 位 置 。 一 一 译 者 
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在 情况 1 中 ， 两 个 邻接 的 块 都 是 已 分 配 的 ， 因 此 不 可 能 进行 合并 。 所 以 当前 块 的 状态 仅仅 是 从 
已 分 配 变 成 空闲 。 在 情况 2 中 ， 当 前 块 与 后 面 的 块 合并 。 用 当前 块 和 后 面 块 的 大 小 的 和 来 更 新 当前 
块 的 头 部 和 后 面 块 的 脚 部 。 在 情况 3 中 ， 前 面 的 块 和 当前 块 合并 。 用 两 个 块 大 小 的 和 来 更 新 前 惫 块 
的 头 部 和 当前 块 的 脚 部 。 在 情况 4 中 ， 要 合并 所 有 的 三 个 块 形成 一 个 单独 的 空闲 块 ， 用 三 个 块 大 小 
的 和 来 更 新 前 面 块 的 头 部 和 后 面 块 的 脚 部 。 在 每 种 情况 中 ， 合 并 都 是 在 常数 时 间 内 完成 的 。 

边界 标记 的 概念 是 简单 优雅 的 , 它 对 许多 不 同类 型 的 分 配器 和 空闲 链表 组 织 部 是 通用 的 。 然 而 ， 
它 也 存在 一 个 潜在 的 缺陷 。 要求 每 个 块 都 保持 一 个 头 部 和 一 个 脚 部 , 在 应 用 程序 操作 许多 个 小 块 时 ， 
会 产生 显著 的 存储 器 开销 。 例 如 ， 如 果 一 个 图 形 应 用 通过 反复 调用 malloc 和 free， 来 动态 地 创建 和 
销毁 图 形 节点 ， 并 且 每 个 图 形 节点 都 只 要 求 两 个 存储 器 字 ， 那 么 头 部 和 脚 部 将 占用 每 个 已 分 筷 块 的 
一 半 的 空间 。 

幸运 的 是 ， 有 一 种 非常 聪明 的 边界 标记 的 优化 方法 ， 能 够 使 得 在 已 分 配 块 中 不 再 南 要 脚 部 。 
想 一 下 ， 当 我 们 试图 在 存储 器 中 合并 当前 块 以 及 前 面 的 块 和 后 面 的 块 时 , 只 有 在 前 面 的 块 是 空 败 时， 
才 会 需要 用 到 它 的 脚 部 。 如 果 我 们 把 前 面 块 的 已 分 配 / 空 闲 位 存放 在 当前 块 中 多 出 来 的 低位 中 ， 邦 么 
已 分 配 的 块 ?就 不 需要 脚 部 了 ， 这 样 我 们 就 可 以 将 这 个 多 出 来 的 空间 用 作 有 效 载荷 了 。 不 过 请 注意， 
空闲 块 仍然 需要 脚 部 。 


练习 题 10.7 
确定 下 面 每 种 对 齐 要 求 和 块 格式 的 组 合 的 最 小 的 块 大 小 。 假 设 : 隐 式 空闲 链表 ， 不 允许 有 效 载 
荷 为 零 ， 头 部 和 脚 部 存放 在 四 字 巴 的 字 中 。 


| | 
| am RN | | 
| | O OOOO 


Kap, (AA ER 头 部 和 脚 部 


10.912 综合 : 实现 一 个 简单 的 分 配器 

构造 一 个 分 配器 是 一 件 富 有 挑战 性 的 任务 。 设 计 空 间 很 大 ， 有 多 种 块 格式 、 空 闲 链表 格式 ， 以 
及 放置 、 分 割 和 合并 策略 可 供 选 择 。 另 一 个 挑战 就 是 你 经 常 被 迫 在 类 型 系统 的 安全 和 熟悉 的 限定 之 
外 编程 ， 即 使 用 容易 出 错 的 指针 强制 类 型 转换 和 指针 运算 ， 这 些 操作 都 属于 典 埠 的 低层 系统 编程 。 
虽然 分 配器 不 需要 大 量 的 代码 , 但 是 它们 也 还 是 细微 而 不 可 忽视 的 。 熟 悉 诸 如 C++ 或 者 Java 之 类 高 
级 语言 的 学 生 通 常 在 他 们 第 一 次 遇 到 这 种 类 型 的 编程 时 ， 会 遭遇 一 个 概念 上 的 障碍 。 为 了 帮助 你 清 
除 这 个 障碍 ， 我 们 将 基于 隐 式 空闲 链表 ， 使 用 立即 边界 标记 合并 方式 ， 从 头 至 尾 地 讲述 一 个 简单 分 
配器 的 实现 。 

- 般 分 配器 设计 

我 们 的 分 配器 使 用 如 图 10.43 所 示 的 memlib.c 包 所 提供 的 一 个 存储 器 系统 模型 。 模 型 的 目的 在 


3 指 前 块 。 一 一 译 者 
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于 允许 我 们 在 不 干涉 已 存在 的 系统 层 malloc 包 的 情况 下 ， 运 行 我 们 的 分 配器 。 
code/vnvmemlib.c 
1 #include "csapp.h" 
2 
3 /* private global variables */ 
4 static char *mem_start_brk; /* points to first byte of the heap */ 
5 static char *mem_brk; /* points to last byte of the heap */ 
6 static char *mem_max_addr; /* max virtual address for the heap */ 
7 
8 /* 
9 * mem_init - initializes the memory system model 
10 * / 
11 void mem_init(int size) 
12 { 
13 mem_start_brk = (char *)Malloc(size); /* models available VM */ 
14 mem_brk = mem start. brk,; /* heap is initially empty */ 
15 mem max addr = mem start brk + size; /* max VM address for heap */ 
16 } 
17 
18 /* 
19 * mem_sbrk - simple model of the the sbrk function. Extends the heap 
20 * by incr bytes and returns the start address of the new area. In 
21 * this model, the heap cannot be shrunk. 
22 * / 
23 void *mem_sbrk(int incr) 
24 { 
25 char *old_brk = mem_brk; 
26 
27 if ( (incr < 0) || ((mem_brk + incr) > mem_max_addr)) { 
28 errno = ENOMEM; 
29 return (void *)-1; 
30 } 
31 mem_brk += incr; 
32 return old_brk; 
33} 
code/vm/memlib.c 


图 10.43 memlib.c: 存储 器 系统 模型 


mem_init 汶 数 将 堆 可 用 的 虚拟 存储 器 模型 化 为 一 个 大 的 、 双 字 对 齐 的 字 节 数组 。 在 
mem_start_brk 和 mem_brk 之 间 的 字 节 表示 已 分 配 的 虚拟 存储 器 。mem_brk 之 后 的 字 节 表示 未 分 配 
的 虚拟 人 存储器。 分 配器 通过 调用 mem_sbrk 函数 来 请 求 额外 的 堆 存储 器 ， 这 个 函数 和 系统 的 sbrk A 
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数 的 接口 相同 ， 而 县 语义 也 相同 ， 除 了 它 会 拒绝 收缩 堆 的 请 求 ， 
分 配器 包含 在 一 个 源 文件 中 (malioc.c)， 用 户 可 以 编译 和 链接 这 个 源 文件 到 他 们 的 应 用 之 中 ， 
of Bic ae iy h =“ PR BY Bl hy FE : 


1 int mm_init (void): 
2 void *mm_malloc(size_t size); 
3 void mm_free (void *bp); 


mm_init 网 数 初始 化 分 配器 ， 如 果 成 功 就 返回 0， 否 则 就 返回 -1。mm_mallioc 和 mm_free rA% 
与 它们 对 应 的 系统 顺 数 有 相同 的 接口 和 语义 。 分 配器 使 用 如 图 10.41 所 示 的 块 格式 。 最 小 块 的 大 小 
为 16 孚 下。 空 亲 链表 组 织 成 为 一 个 隐 式 空闲 链表 , 具有 如 图 10.44 所 示 的 恒定 形式 (invariant form). 


序言 块 普通 块 1 普通 块 2 普通 块 n 结尾 块 hdr 
一 一 一 一 人 人 A 


Oey 


static char *heap listp 


E 10.44 隐 式 空闲 链表 的 恒定 形式 


第 一 个 字 是 一 个 双 字 边界 对 齐 的 不 使 用 的 填充 字 。 填充 后 面 紧 跟着 一 个 特殊 的 序言 块 (prologue 
block)， 这 是 一 个 8 字 广 的 已 分 配 块 ， 只 由 一 个 头 部 和 一 个 脚 部 组 成 。 序 言 块 是 在 初始 化 时 创建 的 ， 
并 且 永 不 释放 。 在 序言 块 后 紧 跟 的 是 零 个 或 者 多 个 由 malloc 或 者 free 调用 创建 的 普通 块 。 堆 总 是 以 
一 个 特殊 的 结尾 块 (epilogue block) 来 结束 ， 这 个 块 是 一 个 大 小 为 零 的 已 分 配 块 ， 只 由 一 个 头 部 组 
成 。 序 言 块 和 绪 尾 块 是 一 种 消除 合并 时 边界 条 件 的 技巧 。 分 配器 使 用 一 个 单独 的 私有 【静态 ) 全 局 
变量 (heap_listp)， 它 总 是 指向 序言 块 。( 作 为 一 个 小 优化 ， 我 们 可 以 让 它 指 辣 下 一 个 块 ， 而 不 是 这 
个 序言 块 。) 

操作 空闲 链表 的 基本 常数 和 宏 

图 10.45 展示 了 一 些 我 们 在 分 配器 编码 中 将 要 使 用 的 基本 常数 。 


code/vm/malloc.c 


1 /* Basic constants and macros */ 

2 #define WSIZE 4 /* word size (bytes) */ 

3 #define DSIZE 8 /* doubleword size (bytes) */ 
4 #define CHUNKSIZE (1<<12) /* initial heap size (bytes) */ 
5 #define OVERHEAD 8 /* overhead of header and footer (bytes) */ 
6 

7 Hdefine MAX(x, y) ((x) > (y)? (x) : (y)) 

8 

9 /* Pack a size and allocated bit into a word */ 

1C #fdefine PACK(size, alloc) ((size) | {alloc)) 

11 


12  /* Read and write a word at address p */ 
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13 #define GET(p) (*(size_t *) (p)) 

14 #define PUT(p, val) (*(size_t *)(p) = (val)) 
15 

16 /* Read the size and allocated fields from address p */ 

17 =#define GET_SIZE(p) (GET (p) & ~Ox7) 

1% #define GET_ALLOC(p) (GET(p) & 0x1) 

19 

20 /* Given block ptr bp, compute address of its header and footer */ 


21 #define HDRP (bp) ( (char *) (bp) - WSIZE) 
22 #define FTRP (bp) ( (char *) (bp) + GET_SIZE(HDRP(bp)) - DSIZE) 
23 


24  /* Given block ptr bp, compute address of next and previous blocks */ 
25 #define NEXT_BLKP(bp) ((char *) (bp) + GET_SIZE(((char *) (bp) - WSIZE))) 
26 #define PREV_BLKP(bp) (char *) (bp) - GET_SIZE(((char *) (bp) - DSIZE))) 


code/yvm/malloc.c 


图 10.45 ”操作 空闲 链表 的 基本 常数 和 宏 


第 2 一 5 行 定 义 了 一 些 基 本 的 大 小 常数 : 字 的 大 小 (WSIZE) 和 双 字 的 大 小 〈DSIZE)， 初 始 空 
闲 块 的 大 小 和 扩展 堆 时 的 默认 大 小 〈CHUNKSIZE )， 以 及 头 部 和 上 脚 部 占用 的 开销 字 节 数量 
(OVERHEAD). 

在 空闲 链表 中 操作 头 部 和 脚 部 可 能 是 很 麻烦 的 ， 因 为 它 要 求 大 量 使 用 强制 类 型 转换 和 指针 运 
算 。 因 此 ， 我们 发 现 定义 一 个 小 的 宏 的 集合 来 访问 和 遍历 空闲 链表 是 很 有 帮助 的 (第 10 一 26 行 )。 
PACK È (第 10 行 ) 将 大 小 和 已 分 配 位 结合 起 来 ， 并 返回 一 个 值 ， 可 以 把 它 存 放 在 头 部 或 者 脚 部 
中 。 

GET È ($1377) 读 取 和 返回 参数 p 引用 的 字 。 这 里 强制 类 型 转换 是 至 关 重 要 的 。 参 数 p 典 
型 地 是 一 个 (viod *) 指针 ， 不 可 以 直接 进行 间接 引用 。 类 似 地 ，PUT 宏 〈 第 14 行 ) 将 val 存放 在 
参数 p 指向 的 字 中 。 

GET_SIZE 和 GET_ALLOC 宏 (第 17~18 行 ) 从 地 址 p 处 的 头 部 或 者 脚 部 ， 分 别 返 回 大 小 和 
已 分 配 位 。 剩 下 的 宏 是 对 块 指针 (block pointer, FA bp 表示 ) 的 操作 ， 块 指针 指向 第 一 个 有 效 载 答 
字 节 。 给 定 一 个 块 指针 bp, HDRP 和 FTRP È (第 21~22 行 ) 分 别 返回 指向 这 个 块 的 头 部 和 脚 部 
的 指针 。NEXT_BLKP 和 PREV_BLKP 宏 (第 25~26 行 ) 分 别 返回 指向 后 面 的 块 和 前 面 的 抉 的 块 
指针 。 

可 以 以 多 种 方式 来 编辑 宏 ， 以 操作 空闲 链表 。 比 如 ， 给 定 一 个 指 同 当前 块 的 指针 bp， 我 们 可 以 
使 用 下 面 的 代码 行 来 确定 存储 器 中 后 面 的 块 的 大 小 : 


size_t size = GET_SIZE(HDRP(NEXT_BLKP(bp))); 
创建 初始 空闲 链表 


在 调用 mm_malloc 或 者 mm_free 之 前 ， 应 用 必须 通过 调用 mm_init AARRE (参见 图 
10.46). 


code/vm/malloc.c 


1 int mm_init (void) 
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/* create the initial empty heap */ 
1f ({heap_listp = mem_sbrk(4*WSIZE)) == NULL) 
return -1: 


PUT (head_listp, 0); , /* alignment padding */ 


PUT (heapd_listp+WSIZE, PACK (OVERHEAD, 1)); /* prologue header */ 
PUT (heap_listp+DSIZE, PACK{OVERHEAD, 1} }; /* prologue footer */ 
PUT (heap_listp+WSIZE+DSIZE, PACK (0, 1}); /* epilogue header */ 


heap_listp += DSIZE; 


/* Extend the empty heap with a free block of CHUNKSIZE bytes */ 

if (extend_heap(CHUNKSIZE/WSIZE) == NULL) 
return -1; 

return Q; 


code/vm/malloc.c 


图 10.46 mmuinif: 创建 一 个 这 初始 宇 用 块 的 堆 


mm_init 函数 从 存储 器 系统 得 到 4 个 字 ， 并 将 它们 初始 化 ， 从 而 创建 一 个 空 的 空闲 链表 (第 4~ 
10 行 )。 然 后 它 调用 extend_heap 函数 (图 10.47)， 这 个 函数 将 堆 扩展 CHUNKSIZE 字 和 节 ， 并 且 创 建 
初始 的 空闲 块 。 此 刻 ， 分 配器 已 初始 化 了 ， 并 且 准 备 好 接受 来 自 应 用 的 分 配 和 释放 请 求 。 


code/ym/malloc,.ce 


Static void *extend heap(size_t words) 


char *bp; 


size_t size; 


/* Allocate an even number of words to maintain alignment */ 
size = {words % 2) ? (words+1) * WSIZE : words * WSIZE; 
if ((int) (bp = mem_sbrk(size)) < Q0) 

return NOLL; 


/* Initialize free block header/footer and the epilogue header */ 


PUT (HDRP(bp), PACK(size, 0)); /* free block header */ 
PUT(FTRP(bp), PACK(size, 0)); /* free block footer */ 
PUT ({(HDRP(NEXT_BLKP(bp)), PACK(0, 1)); /* new epilogue header */ 


/* Coalesce if the previous block was free */ 
return coalesce(bp!} ; 


code/vm/malloc.c 


图 10.47 extend_heap: FR—-*+#WSWRE Ri 


extend_heap MASH APA NHSES Ri: OSs Mee; O mm_malloc 不 能 找 
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到 一 个 合适 的 匹配 块 时 。 为 了 保持 对 齐 ，extend_heap 将 请 求 大 小 向 上 舍 入 为 最 接近 的 2 字 (8 FA) 
的 代数， 然后 同和 存储 器 系统 请 求 额外 的 推 空间 《第 7 一 9 行 )。 

extend_heap 函数 的 剩余 部 分 〈 第 12 一 17 行 ) 在 某 些 方面 是 很 细微 的 。 堆 开始 于 一 个 双 字 对 齐 
的 边界 ， 并 且 每 次 对 extend_heap 的 调用 都 返回 一 个 块 ， 该 块 的 大 小 是 双 字 的 整数 倍 。 因 此 ， 对 
mem_sbrk 的 每 次 调用 都 返回 一 个 双 字 对 齐 的 存储 器 组 块 (chunk)， 紧 跟 在 结尾 块 的 头 部 后 面 。 这 个 
头 部 变 成 了 新 的 空闲 块 的 头 部 〈 第 12 行 )， 并 且 这 个 组 块 (chunk) 的 最 后 一 个 字 变 成 了 新 的 结尾 块 
的 头 部 (第 14 行 )。 最 后 ,在 很 可 能 出 现 的 前 一 个 堆 以 一 个 空闲 块 结束 的 情况 中 ， 我 们 调用 coalesce 
函数 来 合并 两 个 空闲 块 ， 并 返回 指 同 合 并 后 的 块 的 块 指针 〈 第 17 行 )。 


释放 和 合并 块 
应 用 通过 调用 mm_free 函数 〈 图 10.487， 来 释放 一 个 以 前 分 配 的 块 ， 这 个 函数 释放 所 请 求 的 块 


Cbp)， 然 后 使 用 10.9.11 节 中 瓜 述 的 边界 标记 合并 技术 将 之 与 邻接 的 空 用 块 合并 起 来 。 


void mm free {void *bp) 


{ 


} 


Size_t size = GET_SIZE(HDRP(bp)); 


PUT(HDRP(bp), PACK (size, 0)); 
PUT (FTRP (bp), PACK(size, 0)); 
coalesce (bp): 


Static void *coalesce(void *bp) 


{ 


size_t prev_alloc = GET_ALLOC(FTRP(PREV_BLKP (bp) )); 
size_t next_alloc = GET_ALLOC(HDRP(NEXT_BLKP (bp) )); 
size_t size = GET_SIZE(HDRP(bp)); 


if (prev_alloc && next_alloc) { /* Case | */ 
return bp; 
} 


else if (prev_alloc && !next_alloc) { /* Case 2 */ 
size += GET_SIZE(HDRP(NEXT_BLKP (bp) )); 
PUT (HDRP (bp), PACK(size, 0)); 
PUT(FTRP(bp), PACK(size,Q0)); 
return (bp}; 


else if (!prev_alloc && next_alloc) { /* Case 3 */ 
size += GET_SIZE(HDRP(PREV_BLKP(bp))); 
PUT (FTRP (bp), PACK(size, 0)); 
PUT (HDRP (PREV_BLKP (bp)), PACK(size, 0)); 


code/vm/malloc.c 
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31 return(PREV_BLKP(bp}); 

32 } 

33 

34 else { /* Case 4 */ 
35 size += GET_SIZE(HDRP(PREV_BLKP(bp)}) + 
36 GET_SIZE(FTRP (NEXT_BLKP (bp) )); 

37 PUT (HDRP(PREV_BLKP(bp)), PACK(size, 0)); 
38 PUT (FTRP(NEXT_BLKP(bp)}, PACKisize, 0)); 
39 return(PREV_BLKP(bp)); 

40 } 

41 } 


code/vm/malloc.c 
图 10.48 mm_free: 释放 一 个 块 ， 并 使 用 边界 标记 合并 将 之 与 
所 有 的 邻接 空闲 块 在 常数 时 间 内 合并 起 来 


coalesce 罚 数 中 的 代码 是 图 10.42 中 勾画 的 四 种 情况 的 一 种 简单 直接 的 实现 方式 .这 里 也 有 些 细 
徽 的 方面 。 我 们 选择 的 空闲 链表 格式 一 一 它 的 序言 块 和 结尾 块 总 是 标记 为 已 分 配 一 一 允许 我 们 忽略 
游 在 的 麻烦 边界 情况 , 也 就 是 , 请 求 块 bp 在 堆 的 起 始 处 或 者 是 在 堆 的 结尾 处 。 如 果 没 有 这 些 特殊 块 ， 
代码 将 混乱 得 多 ， 更 加 容易 出 错 ， 并 且 更 慢 ， 因 为 我 们 将 不 得 不 在 每 次 释放 请 求 时 ， 孝 去 检查 这 必 
并 不 第 见 的 边界 情况 。 

分 配 块 

一 个 应 用 通过 调用 mm_mailoc 函数 (图 10.49) 来 向 存储 器 请 求 大 小 为 size FPR. ERA 
完 请 求 的 其 假 之 后 〈 第 8 一 9 行 )， 分 配器 必须 调整 请 求 块 的 大 小 ， 从 而 为 头 部 和 脚 部 留 有 空间 ， 并 
满足 双子 对 齐 要 求 。 第 12~13 行 强制 了 最 小 块 大 小 是 16 F: 8 字 节 (DSIZE) 用 来 满足 对 齐 要 
求 ， 而 为 外 8 个 OVERHEAD) 用 来 放 头 部 和 脚 部 。 对 于 超过 8 字 节 的 请 求 (第 15 行 )， 一 般 的 观 
则 是 加 上 开销 学 节 ， 然 后 同上 舍 入 到 最 接近 的 8 的 整数 倍 (DSIZE)。 

code/vm/malloc.c 


1 void *mm_malloc(size_t size) 

2 { 

3 size_t asize; /* adjusted block size */ 

4 size_t extendsize;  /* amount to extend heap if no fit */ 
5 char *bp: 

6 

7 /* Ignore spurious requests */ 

8 if (size <= Q) 

9 return NULL; 

10 

11 /* Adjust block size to include overhead and alignment reqs. */ 

12 if (size <= DSIZE) 

13 asize = DSIZE + OVERHEAD; 

14 else 

15 asize = DSIZE * ((size + (OVERHEAD) + (DSIZE-1)) / DSIZE); 
16 


17 /* Search the free list for a fit */ 
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18 if ({bp = find_fit(asize)) != NULL) { 
19 place(bp, asize}; 

20 return bp; 

21 ) 

22 

23 /* No fit found. Get more memory and place the block */ 
24 extendsize = MAX(asize,CHUNKSIZE) ; 

25 1f ((bp = extend_heap(extendsize/WSIZE)) == NULL) 
26 return NULL; 

27 place (bp, asize); 

28 return bp; 

29 } 


code/vm/malloc.c 


图 10.49 mm_malloc: 从 空闲 链表 分 配 一 个 块 


一 旦 分 配器 调整 了 请 求 的 大 小 ， 它 就 会 搜索 空 亲 链表， 寻找 一 个 合适 的 空闲 块 〈 第 18 行 )。 如 
采 有 合适 的 ， 那 么 分 配器 就 放置 这 个 请 求 块 ， 并 有 选择 地 分 割 出 多 余部 分 〈 第 19 行 )， 然 后 返回 新 
分 配 块 的 地 址 (第 20 行 )。 

如 打分 配器 不 能 够 发 现 一 个 匹配 的 块 ， 那 么 就 用 一 个 新 的 空闲 抉 来 扩展 堆 〈 第 24 一 26 行 )， 把 
请 求 块 放置 在 这 个 新 的 空 闪 块 里 ， 有 选择 地 分 割 这 个 块 (第 27 行 )， 然 后 返回 一 个 指针 ， 指 向 这 个 
新 分 配 的 块 (第 28 行 )。 


练习 题 10.8 
为 10.9.12 节 中 描述 的 简单 分 配器 实现 一 个 find_fit BK. 
static void *find fit(size t asize) 


你 的 解答 应 该 对 隐 式 空 闪 链表 执行 首次 适 配 搜 索 。 


练习 题 10.9 

为 示例 的 分 配器 编写 一 个 place BRK. 

static void place(void *bp, size_t asize) 

你 的 解答 应 该 将 请 求 块 放置 在 空闲 块 的 起 始 位 置 ， 只 有 当 剩 余部 分 的 大 小 等 于 或 者 超出 最 小 块 
的 大 小 时 ， 才 进行 分 割 ， 


10.9.13 显 式 空 闻 链表 

隐 式 空闲 链表 为 我 们 提供 了 一 种 简单 的 介绍 一 些 基 本 分 配器 概念 的 方法 。 然 而 ， 因 为 块 分 配 与 
堆 块 的 总 数 呈 线性 关系 ， 所 以 对 于 通用 的 分 配器 ， 隐 式 空 闪 链 表 是 不 适合 的 《尽管 对 于 堆 块 数量 预 
先 束 知道 是 很 小 的 特殊 的 分 配器 来 说 ， 它 是 比较 好 的 )。 

一 种 更 好 的 方法 是 将 空闲 块 组 织 为 某 种 形式 的 显 式 数 据 结 构 。 因 为 根据 定义 ， 程 序 是 不 需要 一 
个 空 用 块 的 主体 ， 所 以 实现 这 个 数据 结构 的 指针 可 以 存放 在 这 些 空闲 块 的 主体 里 面 。 例 如 ， 堆 可 以 
组 织 成 一 个 双 同 空闲 链表 ， 在 每 个 空闲 块 中 ， 都 包含 一 个 pred (祖先 ) 和 suce (后 继 ) 指针 ， 如 图 
10.50 所 示 。 
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图 10.50 使 用 双 品 空 采 链表 的 堆 块 的 格式 


使 用 双 同 链表 ， 而 不 是 隐 式 空闲 链表 ， 使 首次 适 配 的 分 配 时 间 从 块 总 数 的 线性 时 间 减 少 到 了 空 
用 块 数量 的 线性 时 间 。 不 过 ， 释 放 一 个 块 的 时 间 可 以 是 线性 的 ， 也 可 能 是 个 常数 ， 这 取决 于 我 们 在 
空闲 链表 中 对 块 排序 所 选择 的 策略 ， 

一 种 方法 是 用 后 进 先 出 〈LIFO) 的 顺序 维护 链表 ， 将 新 释放 的 块 放置 在 链表 的 开始 处 。 使 用 
LIFO 的 顺 厅 和 首次 适 配 的 放置 策略 ， 分 配器 会 最 先 检 查 最 近 使 用 过 的 块 。 在 这 种 情况 下 ， 释 放 -个 
块 可 以 在 常数 时 间 内 完成 。 如 果 使 用 了 边界 标记 ， 那 么 合并 也 可 以 在 常数 时 间 内 完 

男 一 种 方法 是 按照 地 址 顺序 来 维护 链表 ， 其 中 链表 中 每 个 块 的 地 址 都 小 于 它 祖先 的 地 址 。 在 这 
种 情况 下 ， 释 放 一 个 块 需 要 线性 时 间 的 搜索 ， 来 定位 合适 的 祖先 。 平 衡 点 在 于 ， 按 照 地 址 排序 的 首 
次 运 配 比 LIFO 排序 的 首次 适 配 有 更 高 的 存储 器 利用 率 ， 接 近 最 佳 适 配 的 利用 率 。 

一 般 而 言 ， 显 式 链表 的 缺点 是 空闲 块 必 须 足 够 大 ， 以 包含 所 有 需要 的 指针 ， 以 及 头 部 和 可 能 的 
脚 部 。 这 就 导致 了 更 大 的 最 小 块 大 小 ， 也 潜在 地 提高 了 内 部 碎片 的 程度 。 


10.9.14 分离 的 空 亲 链表 

绒 像 我 们 已 经 看 到 的 ， 一 个 使 用 单 向 空闲 块 链 表 的 分 配器 需要 与 空闲 块 数量 成 线性 关系 的 时 间 
来 分 配 块 。 一 种 流行 的 减少 分 配 时 间 的 方法 ， 通 常 称 为 分 离 存 储 (segregated storage )， 维 护 多 个 空 
朵 链表 ， 其 中 每 个 链表 中 的 块 有 大 致 相等 的 大 小 。 

一 般 的 思路 是 将 所 有 可 能 的 块 大 小 分 成 一 些 等 价 类 ， 也 叫做 大 小 类 《〈size class)。 有 很 多 种 方式 
来 定义 大 小 类 。 例 如 ， 我 们 可 以 根据 2 的 寡 来 划分 块 大 小 : 

{4}, {2}, {3,4}, {35-8},.…, {1025-2048}, {2049-4096}, {4097—co} 
或 者 我 们 可 以 将 小 的 块 分 派 到 它们 自己 的 大 小 类 里 ， 而 将 大 块 按照 2 HRO: 
C1}, {2}, {3}, {3023}, {1024},:, {1025-2048}. 
{2049-4096}, {4097-o] 

分 配偶 维 扩 ! 看 一 个 空 用 链表 数组 ， 每 个 大 小 类 一 个 空闲 链表， 按照 大 小 的 升序 排列 。 当 分 配 赋 
南 要 一 个 大 小 为 n 的 块 时 ， 它 就 搜索 相应 的 空闲 链表 。 如 果 它 不 能 找到 合适 的 块 与 之 匹配 ， 它 就 搜 
索 下 一 个 链表 ， 以 此 类 推 。 


虚拟 存储 器 647 


有 关 动 态 存 储 分 配 的 文献 描述 了 很 多 种 分 离 存 储 方法 ， 主 要 的 多 别 在 于 它们 如 何 定义 大 小 类 ， 
何 时 进行 合并 ， 何 时 向 操作 系统 请 求 额外 的 堆 存 储 器 ， 是 否 允 许 分 割 ， 等 等 。 为 了 使 你 大 臻 了 解 有 
哪些 可 能 性 ， 我 们 会 描述 两 种 基本 的 方法 简单 分 离 存 储 (simple segregated storage) 和 分 离 运 配 
(segregated fit). 


简单 分 离 存储 

使 用 简单 分 离 人 存储 ， 每 个 大 小 类 的 空 衣 链表 包含 大 小 相等 的 块 ， 每 个 块 的 大 小 就 是 这 个 大 小 类 
中 最 大 元 素 的 大 小 。 例 如 ， 如 果 某 个 大 小 类 定义 为 {17-32}， 那 么 这 个 类 的 空 首 链表 全 由 大 小 为 32 
的 块 组 成 。 

为 了 分 配 一 个 给 定 大 小 的 块 ， 我 们 检查 相应 的 空 亲 链表。 如果 链表 非 空 ， 我 们 简单 地 分 配 其 中 
第 一 块 的 全 部 。 空 闲 块 是 不 会 分 割 以 满足 分 配 请 求 的 。 如 果 链 表 为 空 ， 分 配器 就 癌 操 作 系 统 请 求 一 
个 固定 大 小 的 额外 存储 器 组 块 (典型 地 是 页 面 大 小 的 整数 倍 )， 将 这 个 组 块 Cchunk) 分 成 大 小 相等 
的 块 ， 并 将 这 些 块 链接 起 来 形成 新 的 空闲 链表 。 要 释放 一 个 块 ， 分 配器 只 要 简单 地 将 这 个 块 插入 到 
相应 的 空闲 链表 的 前 部 。 

这 种 简单 方法 有 许多 优点 。 分 配 和 释放 块 都 是 很 快 的 常数 时 间 操 作 。 而 且 ， 每 个 组 块 (chunk) 
中 都 是 大 小 相等 的 块 ， 不 分 割 ， 不 合并 ， 这 意味 着 每 个 块 只 有 很 少 的 存储 器 开销 。 既 然 每 个 组 块 只 
有 大 小 相同 的 块 ， 那 么 一 个 已 分 配 块 的 大 小 就 可 以 从 它 的 地 址 中 推断 出 来 。 因 为 没有 合并 ， 所 以 已 
分 配 块 的 头 部 就 不 需要 一 个 已 分 配 / 空 订 标记 。 因 此 已 分 配 块 不 需要 头 部 ， 同 时 因为 没有 人 合并， 它们 
也 不 需要 脚 部 。 因 为 分 配 和 释放 操作 都 是 在 空闲 链表 的 起 始 处 操作 ， 所 以 链表 只 需要 是 单 向 的 ， 而 
不 用 是 双 回 的 了 .关键 点 在 于 , 惟一 在 任何 块 中 都 需要 的 字段 是 每 个 空闲 块 中 的 一 个 字 的 suce 指针 ， 
因此 最 小 块 大 小 就 是 一 个 字 。 

一 个 显著 的 缺点 是 ， 简 单 分 离 存储 很 容易 造成 内 部 和 外 部 碎片 。 因 为 空闲 块 是 不 会 被 分 割 的 ， 
所 以 可 能 会 造成 内 部 碎片 。 更 粮 的 是 ， 某 些 引 用 模式 会 引起 极 多 的 外 部 碎片 ， 因 为 是 不 会 合并 空闲 
BRK] (45) 10.10). 

研究 者 提出 了 一 种 粗粮 的 合并 形式 来 对 付 外 部 碎片 问题 。 分 配器 记录 操作 系统 返回 的 每 个 存储 
ar ZR Cchunk) 中 的 空闲 块 的 数量 。 无 论 何 时 ， 如 果 有 一 个 组 块 完全 由 空闲 块 组 成 ， 那 么 分 配器 就 
从 它 的 当前 大 小 类 中 删除 这 个 组 块 ， 使 得 它 对 其 他 大 小 类 可 用 。 


练习 题 10.10 

描述 一 个 在 基于 简单 分 离 存 储 的 分 配器 中 会 导致 严重 外 部 碑 片 的 引用 模式 ， 

分 离 适 配 

使 用 这 种 方法 ， 分 配器 维护 着 一 个 空闲 链表 的 数组 。 每 个 空闲 链表 是 和 一 个 大 小 类 相关 联 的 ， 
并 且 被 组 织 成 某 种 类 型 的 显 式 或 隐 式 链表 。 每 个 链表 包含 潜在 的 大 小 不 同 的 块 ， 这 些 块 的 大 小 是 大 
小 类 的 成 员 。 有 许多 种 不 同 的 分 离 适 配 分 配器 。 这 里 ， 我 们 描述 了 一 种 简单 的 版 本 。 

为 了 分 配 一 个 块 ， 我 们 必须 确定 请 求 的 大 小 类 ， 并 且 对 适当 的 空闲 链表 做 首次 适 配 ， 查 找 一 个 
合 送 的 块 。 如 果 我 们 找到 了 一 个 ， 那 么 我 们 (可 选 地 ) 分割 它 ， 并 将 剩余 的 部 分 插入 到 适当 的 空闲 
链表 中 。 如 果 我 们 找 不 到 合适 的 块 ， 那 么 我 们 就 搜索 下 一 个 更 大 的 大 小 类 的 空闲 链表 。 如 此 重复 ， 
直到 找到 一 个 合适 的 块 。 如 果 没 有 空闲 链表 中 有 合适 的 块 ， 那 么 我 们 就 向 操作 系统 请 求 额外 的 堆 存 
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fae, Mids or OSE a POP A TR, RAR ERAN ADE. RRM TR, 
我 们 热 行 合并 ， 并 将 结果 放置 到 相应 的 空闲 链表 中 。 

分 离 适 配方 法 是 一 种 第 见 的 选择 ，C 标准 库 中 提供 的 GNU malloc 包 就 是 采用 的 这 种 方法 ， 因 
为 这 种 方法 既 快 速 ， 对 存储 器 的 使 用 也 很 有 效率 。 搜 索 时 间 减 少 了 ， 因 为 搜索 被 限制 在 堆 的 某 个 部 
分 ， 而 不 是 整个 堆 。 存 储 器 利用 率 得 到 了 改善 ， 因 为 有 一 个 有 趣 的 事实 : 对 分 离 空闲 链表 的 简单 的 
首次 适 配 搜 索 相 当 于 对 整个 堆 的 最 佳 适 配 搜索 。 

伙伴 系统 

伙伴 系统 (buddy system) 是 分 离 串 配 的 一 种 特例 ， 其 中 每 个 大 小 类 都 是 2 Ke. HAH 
是 假设 一 个 堆 的 大 小 为 2" 个 字 ， 我 们 为 每 个 块 大 小 维护 一 个 分 离 空 闲 链 表 ， 其 中 0 <k< m。 请 
求 块 大 小 同上 舍 入 到 最 接近 的 2 的 井 。 最 开始 时 ， 只 有 一 个 大 小 为 2 个 字 的 空 用 块 ， 

为 了 分 配 一 个 大 小 为 2 的 块 ， 我 们 找到 第 一 个 可 用 的 、 大 小 为 2 的 块 ， 其 中 <j<m。 如 果 j= 
k， 才 么 我 们 就 完成 了 。 盏 则 ， 我 们 递归 地 二 分 这 个 块 ， 直 到 j=。 当 我 们 进行 这 样 的 分 割 时 ， 每 个 
剩 下 的 半 块 〈 也 叫做 伙伴 )， 被 放置 在 相应 的 空闲 链表 中 。 要 释放 一 个 大 小 为 2 的 块 ， 我 们 继续 合 
并 衬 霜 的 伙伴 。 当 我 们 遇 到 一 个 已 分 配 的 伙伴 时 ， 我 们 就 停止 合并 。 

大 于 伙伴 系统 的 一 个 关键 事实 是 , 给 定 地 址 和 块 的 大 小 , 很 容易 计算 出 它 的 伙伴 的 地 址 。 例 如， 
一 个 块 ， 大 小 为 32 字 节 ， 地 址 为 ; 

xxx.. x00000 

E KFE HEHE A 

XXX...X10000 
换 句 话说 ， 一 个 块 的 地 址 和 它 的 伙伴 只 有 一 位 不 相同 。 

伙伴 系统 分 配 厚 的 主要 优 氮 是 它 的 快速 搜索 和 快速 合并 。 主 要 缺点 是 要 求 块 大 小 为 2 ECT RE 
导 敏 显著 的 内 部 各 片 。 因 此 ， 伙 伴 系 统 分 配器 不 适合 通用 目的 的 工作 负载 。 然 而 ， 对 于 某 些 与 应 用 
相关 有 芍 工 作 负 载 ， 其 中 块 大 小 预先 知道 是 2 的 守 ， 伙 伴 系统 分 配器 就 很 有 吸引 力 了 。 


10.10 ”垃圾 收集 


在 诸如 C malloc 包 这 样 的 显 式 分 配器 中 ， 应 用 通过 调用 malloc 和 free 来 分 配 和 释放 堆 块 。 应 
用 要 人 负责 释放 所 有 不 再 需要 的 已 分 配 块 。 

未 能 释放 已 分 配 的 块 是 一 种 常见 的 编程 错误 。 例如， 考虑 下 面 的 C 函数 ， 作 为 处 理 的 一 部 分 ， 
它 分 配 一 块 临时 存储 : 


li void garbage () 


2 { 

3 int *p = (int *)Malloc(15213); 

4 

5 return; /* array p is garbage at this point */ 
6 } 


内 为 程序 不 下 和 需要 p， 所 以 在 garbage 返回 前 应 该 释放 p。 不 幸 的 是 ， 程 序 员 忘 了 释放 这 个 块 。 
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它 在 程序 的 生命 周期 内 都 保持 为 已 分 配 状 态 ， 毫 无 必要 地 占用 着 本 来 可 以 用 来 满足 后 面 分 配 请 求 的 
堆 空 间 。 

垃圾 收集 器 (garbage collector) 是 一 种 动态 存储 分 配器 ， 它 上 自动 释放 程序 不 再 需要 的 已 分 配 块 。 
这 些 块 被 称 为 垃圾 (garbage )， 因 此 术语 就 称 之 为 垃圾 收集 器 。 自 动 回收 堆 存 储 的 过 程 吊 做 垃圾 收 
集 (garbage collection )。 在 一 个 支持 垃圾 收集 的 系统 中 ， 应 用 显 式 分 配 堆 块 ， 但 是 从 不 显示 地 笠 放 
它们 。 在 C 程序 的 上 下 文中 ， 应 用 调用 malloc， 但 是 从 不 调用 free。 取 而 代 之 的 是 ， 垃 圾 收集 器 定 
期 识别 垃圾 块 ， 并 相应 地 调用 free， 将 这 些 块 放 问 到 空闲 链表 中 。 

垃圾 收集 可 以 追溯 到 John McCarthy 在 20 世纪 60 年 代 早 期 在 MIT 开发 的 Lisp 系统 。 它 是 诸如 
Java. ML, Perl 和 Mathematica 等 现代 语言 系统 的 一 个 重要 部 分 ， 而 且 它 仍然 是 一 个 重要 的 研究 领 
域 。 有 关 文 献 描述 了 大 量 的 垃圾 收集 方法 ， 其 数量 令 人 上 吃惊。 我 们 的 讨论 局 限于 McCarthy 独创 的 
Mark&Sweep (hic &ia kh) 算法 ， 这 个 算法 很 有 趣 ， 因 为 它 可 以 建立 在 已 存在 的 malloc 包 的 基础 
之 上 ， 为 C 和 C++ 程序 提供 垃圾 收集 。 


10.10.1 垃圾 收集 器 的 基本 要 素 

垃圾 收集 器 将 存储 器 视 为 一 张 有 向 可 达 图 (reachability graph)， 其 形式 如 图 10.51 所 示 。 该 图 
的 节 后 被 分 成 一 组 根 蔬 点 (root node) 和 一 组 扒 节 点 Cheap node )。 每 个 堆 节 点 对 应 于 堆 中 的 一 个 已 
分 配 块 。 有 向 边 p 一 q 意味 着 块 p 中 的 某 个 位 置 指 向 块 q 中 的 某 个 位 置 。 根 节点 对 应 于 这 样 一 种 不 
在 堆 中 的 位 置 ， 它 们 中 包含 指 阿 堆 中 的 指针 。 这 些 位 置 可 以 是 寄存 器 ， 栈 里 的 变量 ， 或 者 是 虚拟 存 
储 器 中 读 写 数据 区 域内 的 全 局 变量 。 


l (O 可 达 的 
K y H 不 可 达 的 
© ort 


图 10.51 垃圾 收集 器 将 存储 器 视 为 一 张 有 向 图 


当 存 在 一 条 从 任意 根 节点 出 发 并 到 达 p 的 有 向 路 径 时 ， 我 们 说 一 个 节点 p 是 可 达 (reachable). 
在 任何 时 刻 ， 和 垃圾 相对 应 的 不 可 达 节 点 是 不 能 被 应 用 再 次 使 用 的 。 垃 圾 收集 器 的 角色 是 维护 可 达 
图 的 某 种 表示 ， 并 遂 过 释放 不 可 达 节 点 并 将 它们 返 问 给 空闲 链表 ， 来 定期 地 回收 它们 。 

像 ML 和 Java 这 样 的 语言 的 垃圾 收集 器 ， 对 应 用 如 何 创建 和 使 用 指针 有 很 严格 的 控制 ， 能 够 维 
扩 可 达 图 的 一 种 精确 的 表示 ， 因 此 也 就 能 够 回收 所 有 垃圾 。 然 而 ,诸如 C 和 C++ 这 样 的 语言 的 收集 
俩 通 第 不 能 维持 可 达 图 的 精确 表示 。 这 样 的 收集 器 也 叫做 保守 的 垃圾 收集 器 (conservative garbage 
collector)。 从 某 种 意义 上 来 说 它们 是 保守 的 ， 也 就 是 ， 每 个 可 达 块 都 被 正确 地 标记 为 可 达 了 ， 而 一 
些 不 可 达 节 点 却 可 能 被 错误 地 标记 为 可 达 。 

收集 器 可 以 按 需 提供 它们 的 服务 ， 或 者 它们 可 以 作为 一 个 和 应 用 并 行 的 独立 线程 ， 不 断 地 更 新 
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可 达 图 和 回收 垃圾 ,例如 ,考虑 我 们 如 何 为 C 程序 将 一 个 保守 的 收集 器 加 入 到 已 存在 的 malloc 包 中 ， 
如 图 10.52 Aras. 


TERE Re 


C 应 用 程序 十 malloc (} — ae free (} 


10.52 将 一 个 保守 的 垃圾 收集 器 加 入 到 一 个 《的 malloc 包 中 


无 论 何 时 应 用 需要 堆 空 间 时 ， 它 都 会 用 通常 的 方式 调用 malloc. WE malloc 找 不 到 一 个 合适 的 
宝 闪 块 ， 那 么 它 束 调用 垃圾 收集 器 ， 希 望 能 够 回收 一 些 垃圾 到 空 用 链表。 收集 器 识别 出 垃圾 块 ， 并 
通过 调用 free 困 数 将 它们 返回 给 堆 。 关 键 的 根 法 是 收集 器 代替 应 用 去 调用 free。 当 对 收集 器 的 调用 
返回 时 ，malloc 重 试 ， 试 图 发 现 一 个 合适 的 空 困 块 。 如 果 还 是 失败 了 ， 那 么 它 就 会 加 操作 系统 要 求 
ah hae. ign, malloc 返回 一 个 指 同 请 求 块 的 指针 (RRM) 或 者 返回 一 个 空 指针 COR 
ARD o 


10.10.2 Mark&Sweep 垃圾 收集 器 
Mark&Sweep 垃圾 收集 恕 由 标记 ( mark) 阶段 和 清除 (sweep) 阶段 组 成 。 标 记 阶 段 标记 出 根 节 
太 的 所 有 可 达 的 和 已 分 配 的 后 继 ， 而 后 面 的 清除 阶段 释放 每 个 未 被 标记 的 已 分 配 块 。 典 型 地 ， 块 头 
部 中 空闲 的 低位 中 的 一 位 用 来 表示 这 个 块 是 否 被 标记 了 。 
我 们 对 Mark&Sweep 的 摘 述 将 假设 使 用 下 列 函 数 ， 其 中 ptr 定义 为 typedef char *ptr: 
。 ptr isPtr (ptr p): 如 宁 p 指向 一 个 已 分 配 块 中 的 某 个 字 ， 那 么 就 返回 一 个 指 疝 这 个 块 的 起 始 
位 管 的 指针 b。 否 则 返回 NULL. 
e int blockMarked(ptrb): 如 果 已 经 标记 了 抉 b， 那 么 就 返回 true. 
e int blockAllocated(ptr b): 如 采 块 b 是 已 分 配 的 ， 那 么 就 返回 true. 
e void markBlock(ptrb): 标记 块 b。 
e intlength(b): BREH b KFK (BHL). 
e void unmarkBlock(ptr b): 将 块 b 的 状态 由 已 标记 的 改 为 末 标 记 的 。 
© ptr nextBlock(ptr b): 返回 堆 中 块 b 的 后 继 。 
标记 阶段 为 每 个 根 节 点 调用 一 次 图 10.53 Ca) 所 示 的 mark 函数 。 如 果 p 不 指 问 一 个 己 分 配 并 
日 示 标记 的 堆 块 ，mark 函数 就 立即 返回 。 否 则 ， 它 就 标记 这 个 块 ， 并 对 块 中 的 每 个 字 递 归 地 调用 它 
Ho. 每 次 对 mark 肯 数 的 调用 都 标记 某 个 根 节点 的 所 有 未 标记 并 且 可 达 的 后 继 节 点 。 在 标记 阶段 
的 末尾 ， 任 何 未 标记 的 已 分 配 块 都 被 认定 为 是 不 可 达 的 ， 是 垃圾 ， 可 以 在 清除 阶段 回收 。 
消除 阶段 是 对 图 10.53 (b) 所 示 的 sweep 函数 的 一 次 调用 。sweep 函数 在 堆 中 每 个 块 上 反复 循 
W, BRE AABN ATA Rep Ic MOAR (也 就 是 垃圾 )。 
void mark (ptr p) { 
lt ((b = isPtr(p)) == NULL) void sweep(ptr b, ptr end) { 
return; while (b < end) { 
1f (blockMarked(b)} ) 1f (blockMarked (b) ) 
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return; unmarkBlock (b) ; 
markBlock(b); else 1f (blockAilocatedib) } 
len = length(b); free(b); 
for (1=0; 1 < len; 1++) b = nextBlock(b); 

mark (bfil]); } 
return; return; 


} } 
10.53 mark 和 sweep 函数 的 的 代码 


图 10.54 展示 了 一 个 小 堆 的 Mark&Sweep 的 图 形 化 解释 。 块 边界 用 粗 线 条 表示 。 每 个 方块 对 应 
于 存储 器 中 的 一 个 字 。 每 个 块 有 一 个 字 的 头 部 ， 要 么 是 标记 了 的 ， 要 么 是 未 标记 的 。 


1 2 3 A 4\ Ks 
标记 前 : | | | | | PE Det ET EET 


未 标记 的 块头 部 
标记 后 : LI 


a 标记 了 的 块头 部 


| 一 | 人 ” N 
消除 前 : | | | ree| | ree | | | | 


图 10.54 ”标记 和 清除 示例 
注意 这 个 示例 中 的 箭头 表示 存储 器 引用 ， 而 不 是 空 采 链表 指针 ， 


初始 情况 下 ， 图 10.54 中 的 堆 由 六 个 已 分 配 块 组 成 ， 其 中 每 个 块 都 是 未 分 配 的 。 第 3 块 包含 一 
个 指向 第 1 块 的 指针 。 第 4 块 包含 指向 第 3 块 和 第 6 块 的 指针 。 根 指向 第 4 块 。 在 标记 阶段 之 后 ， 
第 1 块 、 第 3 块 、 第 4 块 和 第 6 块 被 做 了 标记 ， 因 为 它们 是 从 根 节点 可 达 的 。 第 2 块 和 第 5 块 是 未 
标记 的 ， 因 为 它们 是 不 可 达 的 。 在 清除 阶段 之 后 ， 这 两 个 不 可 达 块 被 回收 到 空闲 链表 。 


10.10.3 C 程序 的 保守 Mark&Sweep 

Mark&Sweep 对 C 程序 的 垃圾 收集 是 一 种 合适 的 方法 ， 因 为 它 可 以 就 地 工作 ， 而 不 需要 移动 任 
何 块 。 然 而 ，C 语言 为 jsPtr 函数 的 实现 造成 了 一 些 有 趣 的 挑战 。 

第 一 ，C 不 会 用 任何 类 型 信息 来 标记 存储 器 位 置 。 因 此 ， 对 isPtr 没有 一 种 明显 的 方式 来 判断 它 
的 输入 参数 p 是 不 是 一 个 指针 。 第 二 ， 即 使 我 们 知道 p 是 一 个 指针 ， 对 isPtr 也 没有 明显 的 方式 来 判 
断 p 是 否 指 向 一 个 已 分 配 块 的 有 效 载荷 中 的 某 个 位 置 。 

对 后 一 问题 的 解决 方法 是 将 已 分 配 块 集合 维护 成 一 棵 平衡 二 叉 树 , 这 棵 树 保 持 着 这 样 一 个 属性 ; 
左 子 树 中 的 所 有 块 都 放 在 较 小 的 地 址 处 ， 而 右 子 树 中 的 所 有 块 都 放 在 较 大 的 地 址 处 。 如 图 10.55 所 
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AN, JRE KEEP or BURY Sk a KARMAR Cleft 和 right)。 每 个 字段 指向 某 个 已 分 配 块 的 
头 部 。 


rsp cP 
< > 


图 10.55 一 棵 已 分 配 块 的 平衡 树 中 的 左右 指针 

isPtr(ptr p) 遇 数 用 树 来 执行 对 已 分 配 块 的 二 分 查找 ,在 每 一 步 中 , 它 依赖 于 块头 部 中 的 大 小 字段 ， 
来 判断 p 是 否 沙 在 这 个 块 的 范围 之 内 。 

从 某 种 意义 上 来 说 ， 平 衡 树 方法 是 正确 的 ， 例 如 它 保证 会 标记 所 有 从 根 节 点 可 达 的 节点 。 这 是 
一 个 必 旧 的 保证 ， 因 为 应 用 程序 的 用 户 当 然 不 会 喜欢 把 它们 的 已 分 配 块 过 早 地 返回 给 空闲 链表 。 然 
而 ， 这 种 方法 从 茶 种 意义 上 而 言 又 是 你 守 的 ， 因 为 它 可 能 不 正确 地 标记 实际 上 不 可 达 的 块 ， 并 因此 
不 能 释放 菜 些 垃圾 。 虽 然 这 并 不 影响 应 用 程序 的 正确 性 ， 但 是 这 可 能 导致 不 必要 的 外 部 碎片 ， 

C 程序 的 Mark&Sweep 收集 器 必须 是 保守 的 ， 其 根本 原因 是 C 语言 不 会 用 类 型 信息 来 标记 存储 
AMLE. lit, {R int 或 者 float 这 桩 的 标量 可 以 伪装 成 捐 针 。 例 如 ， 假 设 茶 个 可 达 的 已 分 配 块 在 它 
的 有 效 载 何 中 包含 一 个 int， 其 值 碰巧 对 应 于 某 个 其 他 已 分 配 块 b 的 有 效 载 谷中 的 一 个 地 址 。 对 收集 
器 而 言 ， 是 没有 办 法 推断 出 这 个 数据 实际 上 是 int 而 不 是 指针 。 因 此 ， 分 配器 必须 保守 地 将 块 b 标 
记 为 可 达 ， 尽 管事 实 上 它 可 能 是 不 是 可 达 的 ， 


10.11 C 程序 中 常见 的 与 存储 器 有 关 的 错误 


对 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 存储 器 可 能 是 个 困难 的 、 容 易 出 错 的 任务 。 与 存储 器 有 关 的 
氏族 属于 那 坚 最 令 人 慰 恐 的 错误 ， 因 为 它们 经 常 在 时 间 和 空间 上 ， 都 在 距 错 误 源 一 段 距离 之 后 ， 才 
表现 出 来 。 将 错误 的 数据 编写 到 错误 的 位 置 ， 你 的 程序 可 能 在 最 终 失 败 之 前 运行 了 好 几 个 小 时 ， 旦 
使 程序 中 止 的 位 置 距离 错误 的 位 置 已 经 很 远 了 。 我 们 用 一 些 常见 的 与 存储 器 有 关 错 误 的 讨论 ， 来 结 
束 我 们 对 虚拟 存储 器 的 讨论 。 

10.11.1 间接 引用 坏 指针 

正如 我 们 在 10.7.2 节 中 学 到 的 ， 在 进程 的 虚拟 地 址 空间 中 有 较 大 的 洞 ， 没 有 映射 到 任何 有 意义 的 
数据 。 如 来 我 们 试图 间接 引 用 一 个 指向 这 些 洞 的 指针 ， 屠 么 操作 系统 就 会 以 段 异 常 终止 我 们 的 程序 。 
而 起， 虚拟 存储 器 的 其 些 区 域 是 只 读 的 。 试 图 写 这 些 区 域 将 造成 以 保护 异常 终止 这 个 程序 。 

间接 引用 坏 指 针 的 一 个 常见 示例 是 经 典 的 scanf 错误 。 假 设 我 们 想 要 使 用 scanf 从 stdin 读 一 个 
整数 到 一 个 变量 。 做 这 件 事情 正确 的 方法 是 传递 给 scanf 一 个 格式 串 和 变量 的 地 址 : 

scanf("%d", &val) 

然而 ， 对 于 C 程序 员 初 学 者 而 言 (对 有 经 验 者 也 是 如 此 !1)， 很 容易 传递 val 的 内 容 ， 而 不 是 它 
的 地 址 : 


scanf ("$d", val) 
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企 这 种 情况 下 ，scanf 将 把 val 的 内 容 解释 为 一 个 地 址 ， 并 试图 将 一 个 字 写 到 这 个 位 置 。 在 最 好 
的 情况 下 ,程序 立即 以 异常 终止 。 在 最 糟糕 的 情况 下 ，val 的 内 容 对 应 于 虚拟 存储 器 的 某 个 合法 的 读 
[BKI Fe SUR ST ie, ROASTS ee REN. CAR RHR. 


10.11.2” 读 未 初始 化 的 存储 器 

虽然 .bss 存储 器 位 置 ( 诸 如 未 初始 化 的 全 局 C 变量 ) 总 是 被 加 载 器 初始 化 为 零 ， 但 是 对 于 堆 在 
储 器 却 并 不 是 这 样 的 。 一 个 常见 的 错误 就 是 假设 堆 存 储 器 被 初始 化 为 零 : 

1 /* return y = Ax */ 


2 int *matvec(int **A, int *x, int n) 
3 { 

4 int i, 7: 

5 

6 int *y = (int *)Malloc(n * sizeof(int)); 
7 

8 for (1 = 0; i < n; i++) 

9 for (J = 0; J < n; j++) 

10 yli] += A[i][J] * x[j]; 
11 return y; 

12 } 


在 这 个 示例 中 ， 程 序 员 不 正确 地 假设 向量 y 被 初始 化 为 零 。 正 确 的 实现 方式 是 在 第 8 行 和 第 9 
行 之 间 将 yl BAS, RAIEN calloc。 


10.11.3 ”允许 栈 缓冲 区 溢出 

正如 我 们 在 3.13 节 中 已 经 看 到 的 ， 如 果 一 个 程序 不 检查 输入 串 的 大 小 就 写 入 栈 中 的 目标 缓冲 
区 ， 那 么 这 个 程序 就 会 有 缓冲 区 溢出 错误 (buffer overflow bug)。 例 如 ， 下 面 的 函数 就 有 组 冲 区 错 
误 ， 因 为 gets 函数 找 贝 一 个 任意 长 度 的 串 到 缓冲 区 。 为 了 纠正 这 个 错误 ， 我 们 必须 使 用 fgets 函数 ， 
这 个 函数 限制 了 输入 串 的 大 小 : 


1 void bufoverflow() 

2 { 

3 char buf[64]:; 

4 

5 gets (buf); /* here ts the stack buffer overflow bug */ 
6 return; 

7 } 


10.11.4 ”假设 指针 和 它们 指向 的 对 象 是 相同 大 小 的 
一 种 常见 的 错误 是 假设 指向 对 象 的 指针 和 它们 所 指向 的 对 和 象 是 相同 大 小 的 


1 /* Create an nxm array */ 

2 int **makeArrayl(int n, int m) 

3 { 

4 int 1; 

5 int **A = (int **)Malloc(n * sizeof(int)): 
6 

7 for (i = 0; i < n; i++) 


654 第 10 章 


8 A({i] = (int *}Malloc(m * sizeof(int)); 
9 return A; 
10 } 


这 里 的 目的 是 创建 一 个 由 n 个 指针 组 成 的 数组 ， 每 个 指针 都 指向 一 个 包含 m 个 int 的 数组 。 然 
而 ， 因 为 程序 员 在 第 5 行将 sizeof(int *) 写 成 了 sizeof(int)， 代 码 实 际 创建 的 是 一 个 im MRA. KB 
代码 只 有 在 int 和 指 回 int 的 指针 大 小 相同 的 机 器 上 运行 良好 。 

但 是 ， 如 末 我 们 在 像 Alpha 这 样 的 机 器 上 运行 这 段 代 码 ， 其 中 指针 大 于 int， 那 么 第 7 行 和 第 8 
行 的 循环 将 写 到 超出 A 数组 末端 的 地 方 。 因 为 这 些 字 中 的 一 个 很 可 能 是 已 分 配 块 的 边界 标记 脚 部 ， 
所 以 我 们 可 能 不 会 发 现 这 个 错误 ， 直 到 我 们 在 这 个 程序 的 后 面 很 久 释放 这 个 块 时 ， 此 时 ， 分 配器 中 
的 合并 代码 会 戏剧 性 地 失败 ， 而 没有 任何 明显 的 原因 。 这 是 “在 远 处 起 作用 (action at distance)” ff) 
一 个 阴险 示例 ， 这 类 “在 远 处 起 作用 ”是 与 存储 器 有 关 的 编程 错误 的 典型 情况 。 


10.11.5 造成 错位 错误 
错位 〈Off-by-one) 错误 是 另 一 种 很 常见 的 覆盖 错误 发 生 的 原因 : 


1 /* Create an nxm array */ 

2 int **makeArray2 (int n, int m) 

3 { 

4 int 1; 

5 int **A = (int **)Malloc(n * sizeof(int)); 
6 

7 for (1 = 0; 1 <= n; i++) 

8 Afi] = (int *)Malloc(m * sizeof(int)):; 
9 return A; 

10 } 


这 是 前 面 一 节 中 程序 的 男 一 个 版 本 。 这 里 我 们 在 第 5 TET hn SCRE BAL. (AR 
随后 在 第 7 行 和 第 8 行 试图 初始 化 这 个 数组 的 n+] 个 元 素 , ERATE RRS A 数组 后 面 的 某 个 
和 存储器。 


10.11.6 引用 指针 ， 而 不 是 它 所 指向 的 对 象 
如 条 我 们 不 太 注 意 C 操作 符 的 优先 级 和 结合 性 ， 我 们 就 会 错误 地 操作 指针 ， 而 不 是 期 望 操 作 指 


针 所 指 问 的 对 象 。 比 如 ， 考 虑 下 面 的 函数 ， 其 目的 是 删除 一 个 有 *size 项 的 二 叉 堆 里 的 第 一 项 ， 然 后 
对 剩 下 的 *size-1 项 重新 建 堆 。 


int *binheapDelete(int **binheap, int *size) 


{ 
int *packet = binheap[0]; 
binheap[0] = binheap[*size - 1]: 
*size--; /* this should be (*size)-- */ 


heapify(binheap, *size, 0); 
return(packet) ， 


Oo wma DA We w HO t+ 


} 
在 第 3 行 ， 目 的 是 减少 size 指针 指向 的 整数 的 值 (也 就 是 说 是 (*size) -- )。 然 而 ， 因 为 一 元 -- 
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和 * 运算 符 优 先 级 相同 ， 从 右 同 左 结合 ， 所 以 第 6 行 中 的 代码 实际 减少 的 是 指针 目 己 的 值 ， 而 不 是 
它 所 指 辐 的 整数 的 值 。 如 果 我 们 幸运 好话， 程序 会 立即 失败 ， 但 是 更 有 可 能 发 生 的 是 ， 当 程序 在 它 
执行 过 程 的 很 后 面 产生 出 一 个 不 正确 的 结果 时 ， 我 们 只 能 在 那里 抓 破 脑袋 了 了 。 这 里 的 原则 是 如 果 你 
对 优先 级 和 结合 性 有 疑问 ， 就 使 用 插 号 。 比 如 ， 在 第 6 行 ， 我们 可 以 清晰 地 表示 我 们 的 目的 ， 使 用 
表达 式 (*size)---。 


10.11.7 误解 指针 运算 
另 一 种 常见 的 错误 是 忘记 了 指针 的 算术 操作 是 以 它们 指向 的 对 象 的 大 小 为 单位 来 进行 的 ， 而 这 


种 大 小 单位 并 不 一 定 是 字 节 。 例 如 ， 下 面 兄 数 的 目的 是 扫描 一 个 int 的 数组 ， 并 返回 一 个 指针 ， 指 
向 val RH A H IR: 


1 int *search(int *p, int val) 

2 { 

3 while (*p && *p f= val) 

4 p += sizeof(int); /* should be p++ */ 
5 return p; 


6 } 


然而 ， 因 为 每 次 循环 时 ， 第 4 行 都 把 指针 加 了 4 (一 个 整数 的 字 节 数 )， 函 数 就 不 正确 地 扫描 数 
组 中 每 4 个 整数 。 


10.11.8 引用 不 存在 的 变量 
没有 太 多 经 验 的 C 程序 员 不 理解 栈 的 规则 ， 有 时 会 引用 不 再 合法 的 本 地 变量 ， 如 下 列 所 示 : 


1 int *stackref () 
2 { 

3 int val; 

4 

5 return &val; 
6 } 


这 个 转 数 退回 一 个 指针 《比如 说 是 p7， 指 向 栈 里 的 一 个 局 部 变量 ， 然 后 弹出 它 的 栈 帧 。 尽 管 p 
仍然 指 问 一 个 合法 的 存储 器 地 址 ， 但 是 它 已 经 不 再 指向 一 个 合法 的 变量 了 。 当 以 后 在 程序 中 调用 其 
他 函数 时 ， 存 储 器 将 重用 它们 的 栈 帧 。 后 来 ， 如 果 程 序 分 配 某 个 值 给 和 ip， 那么 它 可 能 实际 正在 修改 
万 一 个 函数 的 栈 帧 中 的 一 个 条 目 ， 从 而 带 来 潜在 地 灾难 性 的 、 令 人 困惑 的 后 果 。 


10.11.9 引用 空闲 堆 块 中 的 数据 
一 个 相似 的 错误 是 引用 已 经 被 释放 了 的 堆 块 中 的 数据 。 例 如 ， 考 虑 下 面 的 示例 ， 这 个 示例 在 第 
6 行 分 配 了 一 个 整数 数组 x， 在 第 12 行 先 释放 了 块 x， 然 后 在 第 14 行 又 引用 了 它 。 


1 int *heapref(int n, int m) 
< 

3 int i; 

4 int *x, *y; 

5 

6 


x = (int *)Malloc(n * sizeofilint)); 
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8 /* ... */ /* other calls to malloc and free go here */ 

9 

10 Free (x); 

11 

12 y = (int *)Malloc(m * sizeof (int)); 

13 for (i = 0; 1 <m; i++? 

14 vii] = x[i]-+; /* oops! x[i] is a word in a free block */ 
15 

16 return y; 

17 } 


取决 于 在 第 6 行 和 第 10 行 发 生 的 malloc 和 free 的 调用 模式 ， 当 程序 在 第 14 行 引 用 xf 时 ， 数 
组 x 可 能 是 某 个 其 他 已 分 配 堆 块 的 一 部 分 了 ， 因 此 其 内 容 被 重 写 了 。 和 其 他 许多 与 存储 器 有 关 的 独 
误 一 样 ， 这 个 错误 只 会 在 程序 执行 的 后 面 ， 当 我 们 注意 到 y 中 的 值 被 破坏 了 时 ， 才 会 显现 出 来 。 


10.11.10 ”引起 存储 器 港 漏 
存储 器 泄漏 是 缓慢 、 隐 性 的 杀手 ， 当 程序 员 不 小 心 忘记 释放 已 分 配 块 ， 而 在 堆 里 创建 了 垃圾 时 ， 
会 发 生 这 种 问题 。 例 如 ， 下 面 的 函数 分 配 了 一 个 扒 块 x， 然 后 不 释放 它 就 返回 。 


1 void leak(int n) 

2 { 

3 int *x = (int *)Malloc(n * sizeof(int)); 
4 

5 return;  /* xis garbage at this point */ 

6 } 


如 果 leak 经 常 被 调用 ， 那 么 渐渐 地 ， 堆 里 就 会 充满 了 垃圾 ， 最 糟糕 的 情况 下 ， 会 占有 整个 虚拟 
地 址 空间 。 对 于 像 守 护 进程 和 服务 器 这 样 的 程序 来 说 ， 存 储 器 泄漏 是 特别 严重 的 ， 根 据 定 义 这 些 程 
序 是 不 会 终止 的 。 


10.12 扼要 重 述 一 些 有 关 虚 拟 存储 器 的 关键 概念 


在 这 一 章 里 ， 我 们 已 经 看 到 了 虚拟 存储 器 是 如 何 工作 的 ， 系 统 如 何 用 它 来 实现 某 些 功能 ， 例 如 
加 载 程序 、 映 射 共 享 库 以 及 为 进程 提供 私有 受 保护 的 地 址 空间 。 我 们 还 看 到 了 许多 应 用 程序 正确 或 
者 不 正确 地 使 用 虚拟 存储 器 的 方式 。 

一 个 关键 的 经 验 教 训 是 , 即使 虚拟 存储 器 是 由 系统 自动 提供 的 , 它 也 是 一 种 有 限 的 存储 器 资源 ， 
应 用 程序 必须 精明 地 管理 它 。 正 如 我 们 从 对 动态 存储 分 配器 的 研究 中 学 到 的 那样 ， 管 理 虚 拟 存储 器 
资源 可 能 包括 一 些微 妙 的 时 间 和 空间 的 平衡 。 另 一 个 关键 的 经 验 教训 是 ， 在 C 程序 中 很 容易 犯 与 存 
储 器 有 关 的 错误 。 坏 的 指针 值 、 释 放 已 经 空间 了 的 块 、 不 恰当 的 强制 类 型 转换 和 指针 运算 ， 以 及 覆 
咨 扒 结 构 ， 这 些 只 是 可 能 给 我 们 带 来 麻烦 的 许多 方式 中 的 一 小 部 分 。 实 际 上 ， 与 存储 器 有 关 的 错误 
候 讨 大 ， 这 是 导致 Java 产生 的 一 个 重要 原因 ，Java 取消 了 取 变 量 地 址 的 能 力 ， 完 全 控制 了 动态 存储 
分 配器 ， 从 而 严格 控制 了 对 虚拟 存储 器 的 访问 。 
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10.13 h2 


虚拟 存储 器 是 对 主 存 的 一 个 抽象 。 支 持 虚 拟 存储 器 的 处 理 器 通过 使 用 一 种 叫做 虚拟 寻 址 的 间接 
形 陈 来 引用 主 存 。 处 理 器 产生 一 个 虚拟 名 址 ， 在 被 友 送 到 主 存 之 本 ， 这 个 地 址 被 翻译 成 一 个 物理 地 
址 。 从 虚拟 地 址 空间 到 物理 地 址 空间 的 地 址 翻译 要 求 硬 件 和 软件 紧密 合作 。 专 门 的 硬件 通过 使 用 页 
表 来 翻 详 虚 拟 地 址 ， 而 页 表 的 内 容 是 由 操作 系统 提供 的 。 

虚拟 存储 器 提供 三 个 重要 的 功能 。 第 一 ， 它 在 主 存 中 自动 缓存 最 近 使 用 的 存放 磁盘 上 的 虚拟 地 
址 空间 的 内 容 。 虚 拟 存储 器 缓存 中 的 块 叫做 页 。 对 磁 失 上 页 的 引用 会 触发 缺 页 ， 缺 页 将 控制 转移 到 
操作 系统 中 的 一 个 缺 页 处 理 程序 。 缺 页 处 理 程 序 将 页 面 从 磁 猎 拷贝 到 主 存 缓存 ， 如 果 必 要 ， 将 写 回 
久 驱 逐 的 页 。 第 二 ， 虚 拟人 存储 器 简化 了 存储 器 管理 ， 进 而 又 简化 了 链接 、 在 进程 间 共 享 数 据 、 进 程 
的 存储 器 分 配 ， 以 及 程序 加 载 。 最 后 ， 虚 拟 存储 器 通过 在 每 条 页 表 条 目 中 加 入 保护 位 ， 从 而 了 简化 
了 存储 器 保护 。 

地 址 翻 详 的 过 程 必须 和 系统 中 任意 硬件 缓存 的 操作 集成 在 一 起 。 大 多 数 页 表 条 目 位 于 Li 高 速 
缓存 中 ， 但 是 一 个 称 为 TLB 的 页 表 条 目 在 芯片 上 的 高 速 缓 存 ， 通 常会 消除 访问 在 LI 上 的 页 表 条 目 
的 开销 。 

现代 系统 通过 将 虚拟 存储 器 组 块 (chunk) 和 磁盘 上 的 文件 组 块 关 联 起 来 , 来 初始 化 虚拟 存储 器 
组 块 ， 这 个 过 程 称 为 存储 器 映射 。 存 储 器 映射 为 共享 数据 、 创 建新 的 进程 以 及 加 载 程 序 ， 提 供 了 一 
种 遍 效 的 机 制 。 应 用 可 以 使 用 mmap 函数 来 手工 地 创建 和 删除 虚拟 地 址 空间 的 区 域 。 然 而 ， 大 多 数 
程序 依赖 于 动态 存储 器 分 配器 ， 例 如 malloce， 它 管理 虚拟 地 址 空间 区 域内 一 个 称 为 堆 的 区 域 。 动 态 
存储 器 分 配器 是 一 个 有 系统 级 感觉 的 应 用 级 程序 , 它 直 接 操作 存储 器 , 而 无 需 类 型 系统 的 很 多 帮助 。 
分 配器 有 了 两 种 类 型 ， 显 式 分 配器 要 求 应 用 显 式 地 释放 它们 的 存储 器 块 ， 隐 式 分 配器 〔〈 垃 圾 收集 器 ) 
目 动 释放 任何 无 用 的 和 不 可 达 的 块 . 

对 于 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 存储 器 是 一 件 困 难 和 容易 出 错 的 任务 。 常 见 的 错误 示例 包 
fi: 间接 引用 坏 指针 ， 读 取 未 初始 化 的 存储 器 ， 允 许 栈 缓冲 区 溢出 ， 假 设 指 针 和 它们 指向 的 对 象 大 
小 相同 ， 引 用 指针 而 不 是 它 所 指向 的 对 象 ， 误 解 指 针 运算 ， 引 用 不 存在 的 变量 ， 以 及 引起 存储 器 污 
Ja o 
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个 简单 的 分 配器 是 基于 显 式 空闲 链表 的 ， 每 个 空闲 块 中 都 有 一 个 块 大 小 和 后 继 指针 。 这 段 代码 使 用 
联合 union ) 来 消除 大 量 的 复杂 指针 运算 ， 这 是 很 有 趣 的， 但 是 代价 是 释放 操作 是 线性 时 间 (而 不 
是 常数 时 间 )。 
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www.cs.colorado.edu/~zorn/DSA.html 上 Zorn 的 Dynamic Storage Allocation Repository (#4 a4 
储 分 配 仓库 ) 是 一 个 很 方便 的 资源 。 它 包括 检测 与 存储 器 相关 的 错误 的 调试 工具 ， 以 及 malloc/free 
和 垃圾 收集 器 的 实现 。 


Pe BEE 

10.11 ¢ 

在 下 面 的 一 系列 问题 中 ,你 要 展示 10.6.4 节 中 的 示例 存储 器 系统 如 何 将 虚拟 地 址 翻译 成 物理 地 
址 ， 以 及 如 何 访问 缓存 。 对 于 给 定 的 虚拟 地 址 ， 请 指出 访问 的 TLB 条 目 、 物 理 地 址 ， 以 及 返回 的 组 
存 字 节 值 , 请 指明 是 否 TLB 不 命中 , 是 否 发 生 了 缺 页 ,， 是否 发 生 了 缓存 不 命中 。 如 果 有 缓存 不 命中 ， 
对 于 “返回 的 缓存 字 节 ”用 “- ”来 表示 。 如 打 有 缺 页 ， 对 于 “PPN” 用 “-” 来 表示 ， 并 把 部 分 C 
Al D 就 空 着 。 

虚拟 地 址 ，0x027c 

A. 虚拟 地 址 格式 


TLB 命中 ? (CY/N) 
ROL? (Y/N) 


C. 物理 地 址 格式 
ll 10 9 8 7 6 5 4 3 2 | 0 
D. 物理 地 址 引用 


Bete oP? (YY/N) 
返回 的 缓存 字 节 
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10.12 © 

对 于 下 面 的 地 址 ， 重 复习 题 10.11: 

虚拟 地 址 : 0x03a9 

A. 虚拟 地 址 格式 

13 12 1l 10 9 8 7 6 5 4 3 2 1 0 
| | | ft {| | [ [| | | | | ft ft | 

B. 地 址 翻译 


mwa 
ome 
roan om | 
rat cm 
moo 


C、 物 理 地 址 格式 
ll 10 9 8 7 6 5 4 3 2 l 0 
D. 物理 地 址 引用 


缓存 命中 ? (Y/N) 
返回 的 组 存 字 节 


10.13 © 
对 于 下 面 的 地 址 ， 重 复习 题 10.11 : 
A. 虚拟 地 址 格式 
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EE | 
ma 
meeer wm) 
em | 
moo 


缓存 命中 ? CYN) 
返回 的 缓存 字 节 


10.14 SS 

假发 有 一 个 输入 文件 hello.txt， 由 字符 串 “Hello, worda” AAR. 编写 一 个 C 程序 ， 使 用 mmap 
来 改变 hello.txt 的 内 容 为 “Jello, world!\n”. 

10.15 © 


确定 下 面 的 malloc 请 求 序 列 得 到 的 块 大 小 和 头 部 值 。 假设; 分 配器 维持 双 字 对 齐 , 使 用 图 10.37 
中 块 烙 式 的 隐 式 空闲 链表 ， 块 大 小 向 上 舍 入 为 最 接近 的 8 字 节 的 倍数 。 


| | 
| | S 
enee | 
Ta | 


10.16 © 
确定 下 面 对 齐 要 求 和 块 格式 的 每 个 组 合 的 最 小 块 大 小 。 假 设 : 显 式 空闲 链表 、 每 个 空闲 块 中 有 


HFR pred 和 suce 指针 、 不 允许 有 效 载荷 的 大 小 为 零 ， 并 且 头 部 和 脚 部 存放 在 一 个 四 字 节 的 字 
里 。 
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已 分 配 块 SAR 
双 字 部 和 脚 部 


BRK (FF) 


头 部 ， 但 是 没有 脚 部 头 部 和 脚 部 


10.17 SS 
开发 10.9.12 市 中 的 分 配器 的 一 个 版 本 ， 执 行 下 一 次 运 配 搜索 ， 而 不 是 首次 运 配 搜索 。 
10.18 OO 


10.9.12 节 中 的 分 配器 要 求 每 个 块 既 有 涉 部 也 有 脚 部 ， 以 实现 常数 时 间 的 合并 。 修 改 分 配器 ,使 
得 空闲 块 裔 要 头 部 和 上 脚 部 ， 而 已 分 配 块 只 裔 要 头 部 。 


10.19 @ 
下 面 给 出 了 三 组 关于 存储 器 管理 和 垃圾 收集 的 陈述 ， 在 每 一 组 中 ， 只 有 一 句 陈 述 是 正确 的 。 你 
的 任务 就 是 判断 哪 一 句 是 正确 的 。 
1. Ca) 在 一 个 伙伴 系统 中 ， 最 高 可 达 50% 的 空间 因为 内 部 碎片 而 被 浪费 了 。 
Cb) 首次 适 配 存储 器 分 配 算法 比 最 佳 适 配 算法 要 慢 一 些 〈 平 均 而 言 )。 
Co) 只 有 当空 闲 链表 按照 存储 器 地 址 递增 排序 时 ， 使 用 边界 标记 来 回收 才 会 快速 。 
Cd) 伙伴 系统 只 会 有 内 部 碎片 ， 而 不 会 有 外 部 碎片 。 
2. Ca) 在 按照 块 大 小 递减 的 顺序 排序 的 空闲 链表 上 , 使 用 首次 适 配 算法 会 导致 分 配 性 能 很 低 ， 
但 是 可 以 避免 外 部 碎片 。 
(b) 对 于 最 佳 适 配 方法 ， 空 朵 块 链表 应 该 按照 存储 器 地 址 的 递增 排序 。 
Cc) 最 佳 适 配 方法 选择 请 求 段 匹配 的 最 大 的 空闲 块 。 
Cd) 在 按照 块 大 小 递增 的 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 与 使 用 最 佳 适 配 算法 等 
价 。 
3. Mark& Sweep 垃圾 收集 器 在 下 列 哪 种 情况 下 叫做 保守 的 : 
(a) 它们 只 有 在 存储 器 请 求 不 能 被 满足 时 才 合 并 被 释放 的 存储 器 。 
Cb) 它们 把 一 切 看 起 来 像 指针 的 东西 都 当 作 指针 。 
Cc) 它们 只 在 用 尽 存 储 器 时 ， 才 执行 垃圾 收集 ， 
(d) 它们 不 释放 形成 循环 链表 的 存储 器 块 。 
10.20 ¢e¢¢ 
编写 你 自己 的 malloc 和 free 版 本 ， 将 它 的 运行 时 间 和 空间 利用 率 与 标准 C 库 提供 的 malloc 版 
本 进行 比较 。 
练习 题 答案 
练习 题 10.1 答案 
这 进 最 让 你 对 不 同 地 址 空间 的 大 小 有 了 些 了 解 。 曾几何时, 一 个 32 位 地 址 空间 看 上 去 似乎 是 不 
可 能 的 大 。 但 是 , 现在 有 些 数 据 库 和 科学 应 用 需要 更 大 的 地 址 空间 , 而 且 你 会 发 现 这 种 趋势 会 继续 。 
在 你 的 有 生 之 年 ， 你 可 能 会 抱怨 你 的 个 人 电脑 上 那 狭 促 的 64 位 地 址 空间 1 
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练习 题 10.2 答案 


因为 每 个 虚拟 页 面 是 已 =22 字 节 ， 所 以 在 系统 中 总 共有 VY = 2 了 7 个 可 能 页 面 ， 其 中 每 个 都 需 
要 一 个 页 表 条 县 (PTE). 


练习 题 10.3 答案 

为 了 完全 掌握 地 址 翻译 , 你 需要 很 好 地 理解 这 类 问题 .下 面 是 如 何 解决 第 一 个 子 问 题 :我 们 有 n=32 
个 虚拟 地 址 位 和 m=24 个 物理 地 址 位 。 页 面 大 小 是 P=1KB， 这 意味 着 对 于 VPO 和 PPO, RITARA 
log,(1K)=10 位 。( 回 想 一 下 ，VPO 和 PPO 是 相同 的 。) 剩 下 的 地 址 位 分 别 是 VPN 和 PPN. 


p | wene | aron | ne 
w| 2 | o | s | o | 
e|) s» foe | " | » 
练习 题 10.4 答案 
做 一 些 这 样 的 手工 模拟 , 能 很 好 地 巩固 你 对 地 址 翻译 的 理解 。 你 会 发 现 写 出 地 址 中 的 所 有 的 位 ， 
然后 在 不 同 的 位 字段 上 通 出 方 柜 ， 例 如 YPN、TLBI 等 等 ， 这 会 很 有 帮助 。 在 这 个 特殊 的 练习 中 ， 
疫 有 任何 类 型 的 不 命中 : TLB 有 一 份 PTE 的 拷贝 ， 而 缓存 有 一 份 所 请 求 数据 字 的 拷贝 。 对 于 命中 和 


不 命中 的 一 些 不同 的 组 合 ， 请 参见 习题 10.11、10.12 和 10.13. 
A. 00 0011 1101 0111 


a 


OO 


B. VPN: Oxf 
TLBI: 0x3 
TLBT : 0x3 
TLB 命中 ? Y 
sR RQ? N 
PPN: Oxd 


C. 0011 0101 0111 


虚拟 存储 器 


CO: 0x3 
CI: 0x5 
CT: Oxd 
高 速 缓存 命中 ? Y 
高 速 缓存 字 节 2? Oxid 


练习 题 10.5 答案 
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解决 这 个 题目 将 帮助 你 很 好 地 理解 存储 器 映射 。 请 自己 独立 完成 这 道 题 。 我 们 疫 有 讨论 open, 


fstat 或 者 write 函数 ， 所 以 你 需要 阅读 它们 的 帮助 页 来 看 看 它们 是 如 何 工作 的 。 


code/vm/mmapcopy.c 


#include "csapp.h" 


/* 
* mmapcopy - uses mmap to copy file fd to stdout 
*/ 
void mmapcopy(int fd, int size) 
{ 
char *bufp; /* ptr to memory mapped VM area */ 


bufp = Mmap (NULL, size, PROT_READ, MAP_PRIVATE, fd, 0); 

Write({1, bufp, size); 

return; 
} 
/* mmapcopy driver */ 
int main(int argc, char **argv) 
{ 

Struct stat stat; 

int fd; 

/* check for required command line argument */ 

if {argc != 2) { 

printf("usage: %s <filename>\n", argv[0]); 
exit (0); 

} 

/* copy the input argument to stdout */ 

fd = Open(argv[1], O_RDONLY, 0); 

fstat(fd, &stat); 

mmapcopy (fd, stat.st_size); 

exit(0); 

code/vm/mmapcopy.c 


练习 题 10.6 答案 
这 道 题 触及 了 一 些 核心 的 概念 ， 例 如 对 齐 要 求 、 最 小 块 大 小 以 及 头 部 编码 。 确 定 块 大 小 的 一 般 
方法 是 ,将 所 请 求 的 有 效 载荷 和 头 部 大 小 的 和 售 入 到 对 齐 要 求 〈 在 此 例 中 是 8 字 节 ) 最 近 的 整数 倍 。 
比如 ，malloc(1) 请 求 的 块 大 小 是 44+1=5, RESAH SB. m malloc(13) 请 求 的 块 大 小 是 1344217, & 
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入 到 24。 


块 大 小 《〈 十 进 制 字 节 ) | 块头 部 〈 十 六 进 制 ) 


malloc(1) Ox 9 


练习 题 10.7 答案 


. ， 基 小 块 大 小 对 内 部 雁 户 有 显著 的 影响 。 因 此 ， 理 解 和 不 同 分 配器 设计 和 对 齐 要 求 相 关联 的 最 小 
块 大 小 是 很 好 的 。 很 有 技巧 的 一 部 分 是 ， 要 意识 到 相同 的 块 可 以 在 不 同时 刻 被 分 配 或 者 被 释放 。 因 
此 ， 基 小 氧 大 小 束 是 最 小 已 分配 块 大 小 和 最 小 空闲 块 大 小 两 者 的 最 大 值 。 例 如 ， 在 最 后 一 个 子 问题 
中 ， 最 小 的 已 分 配 块 大 小 是 一 个 4 字 节 头 部 和 一 个 1 PRAM, SARS 字 节 。 而 最 小 空闲 块 
的 大 小 是 一 个 4 字 世 的 头 部 和 一 个 4 字 节 的 脚 部 ， 加 起 来 是 8 字 节 ， 已 经 是 8 的 倍数 ， 就 不 需要 再 


省 入 了 。 所 以 ， 这 个 分 配器 的 最 小 块 大 小 就 是 8 FT. 


头 部 和 脚 部 头 部 和 脚 部 
头 部 ， 但 是 没有 脚 部 头 部 和 脚 部 
双 字 ; 


头 部 ， 但 是 没有 脚 部 头 部 和 脚 部 


练习 题 10.8 答案 


这 里 没有 特别 的 技巧 。 但 是 解答 此 题 要 求 你 理解 我 们 简单 的 隐 式 链表 分 配器 的 剩余 部 分 是 如 何 


工作 的 ， 是 如 何 操作 和 遍历 块 的 。 


1 Static void *find_fit({size_t asize) 
2 { 
3 void *bp; 
4 
5 /* first fit search */ 
6 for (bp = heap_listp; GET_SIZE(HDRP (bp) ) 
7 
8 return bp; 
9 } 
10 } 
11 return NULL; /* no fit */ 
12 } 
练习 题 10.9 答案 


code/vm/malloc.c 


> 0; bp = NEXT _BLKP{bp)) { 


if (!GET_ALLOC(HDRP(bp!) && (asize <= GET _SIZE(HDRP(bp)))) f 


code/vm/malloc.c 


这 又 是 一 个 帮助 你 熟悉 分 配器 的 热身 练习 。 注 意 对 于 这 个 分 配器 ,最 小 块 大 小 是 16 Fii. wR 
分 割 后 剩 下 的 块 大 于 或 者 等 于 最 小 块 大 小 ,那么 我 们 就 分 割 这 个 块 〈 第 6 一 10 行 )。 这 里 惟一 有 技巧 
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的 部 分 是 要 意识 到 在 移动 到 下 一 块 之 前 《第 8 行 )， 你 必须 放置 新 的 已 分 配 块 《第 6 行 和 第 7 行 )。 


code/ym/malloc.c 
1 Static void place(void *bp, size_t asize) 
2 { 
3 size_t csize = GET_SIZE(HDRP (bp) ); 
4 
5 if {({csize - asize) >= (DSIZE + OVERHEAD)) { 
6 PUT (HDRP (bp}, PACK(asize, 1)); 
7 PUT (FTRP (bp), PACK (asize, 1)); 
8 bp = NEXT_BLKP (bp) ; 
9 PUT(HDRP(bp), PACK (csize-asize, Q)); 
10 PUT (FTRP (bp), PACK(csize-asize, 0)): 
11 } 
12 else { 
13 PUT (HDRP (bp), PACK(csize, 1)); 
14 PUT(FTRP (bp), PACK(cs1ze, 1)); 
15 } 
16 } 


code/vm/malloc.c 


练习 题 10.10 答案 

这 里 有 一 个 会 引起 外 部 碎片 的 模式 : 应 用 对 第 一 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 然 后 对 第 
二 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 接 下 来 是 对 第 三 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 以 此 类 
推 。 对 于 每 个 大 小 类 ， 分 配器 都 创建 了 许多 不 会 被 回收 的 存储 器 ， 因 为 分 配器 不 会 合并 ， 也 因为 应 
用 不 会 再 网 这 个 大 小 类 再 次 请 求 块 了 。 


mit 


程序 间 的 交互 和 通信 


输入 和 输出 。 然 而， 在 现实 世界 里 ， 应 用 程序 利用 操作 系统 提供 的 服务 来 与 


55% 们 学 习 计 算 机 系统 到 现在 ， 一 直 假 设 程序 是 独立 运行 的 ， 只 包含 最 小 限度 的 
VO 设备 及 其 他 程序 通信 。 


本 书 的 这 一 部 分 将 使 你 了 解 Unix 操作 系统 提供 的 基本 IO 服务 ,以 及 如 何 用 这 些 


”服务 来 构造 应 用 程序 ， 例 如 Web 客户 庙 和 服务 器 ， 它 们 是 通过 mtemet 彼此 通信 的 。 


你 将 学 习 编 号 诸如 Web 服务 器 这 样 的 可 以 同时 为 多 个 客户 端 提供 服务 的 并 发 程序 。 
当 你 学 完 了 这 个 部 分 ， 你 将 稳健 步 入 权威 程序 员 的 行列 ， 能 够 充分 理解 计算 机 系 
统 以 及 它们 对 你 程序 的 影响 。 
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系统 级 I/O 


11.1 Unix I/O 
11.2 打开 和 关闭 文件 
11.3 ” 读 和 写 文 件 


11.4 用 Rio 包 进行 健壮 地 读 和 写 
1.5 ” 读 取 文件 元 数据 


11.6 ”共享 文件 

11.7 VO 重 定 向 

11.8 标准 1/O 

11.” FRA: 我 该 使 用 哪些 |/O 函数 ? 
11.10 小结 
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输入 /输出 (LO) 是 在 主 存 (main memory) 和 外 部 设备 〈 例 如 磁盘 驱动 器 、 终 端 和 网 络 ) 之 间 
找 册 数据 的 过 程 。 输 入 操作 是 从 VO 设备 拷贝 数据 到 主 存 ， 而 输出 操作 是 从 主 存 找 贝 数据 到 IO w 
备 。 

所 有 语言 的 运行 时 系统 都 提供 执行 VO 的 较 高 级 别 的 工具 。 例 如 ，ANSI C 提供 标准 IO 库 ， 包 
含 像 printf 和 scanf 这 样 执行 带 缓冲 的 IO 函数 。C++ 语 言 用 它 的 重 载 操作 符 << (输入 ) 和 >> (输出 ) 
提供 了 类 似 的 功能 。 在 Unix 系统 中 ， 是 通过 使 用 由 内 核 提 供 的 系统 级 Unix VO 函数 来 实现 这 些 较 
高 级 别 的 IO 函数 的 。 大 多 数 时 候 ， 高 级 别 IO 函数 工作 良好 ， 没 有 必要 直接 使 用 Unix VO. 那么 
为 什么 还 要 麻烦 地 学 习 Unix IO Ye? 

。 TÆ Unix VO 将 帮助 你 理解 其 他 的 系统 概念 。L/O 是 系统 操作 不 可 或 缺 的 一 部 分 ， 因 此 ,我 
NAH IBA VO 和 其 他 系统 概念 之 间 的 循环 依赖 。 例 如 ，LO 在 进程 的 创建 和 执行 中 扮演 着 
关键 的 角色 。 反 过 来 ， 进 程 创建 又 在 不 同 进程 间 的 文件 共享 中 扮演 着 关键 角色 。 因 此 ， 要 
真正 理解 WJO， 你 必须 理解 进程 ， 反 之 亦 然 。 在 对 存储 器 (memory) 结构 、 结 构 链 接 和 加 
载 、 进 程 以 及 虚拟 存储 器 的 讨论 中 ， 我 们 已 经 接触 了 VO 的 某 些 方面 。 既 然 你 对 这 些 概念 
有 了 比较 好 的 理解 ， 我 们 就 能 闭合 这 个 循环 ， 更 加 深入 地 研究 VO. 

© 有 时 你 除了 使 用 Unix VO 以 外 别 无 选择 。 在 某 些 重要 的 情况 中 ， 使 用 高 级 IO MARA 
能 ， 或 者 不 太 合 适 。 例 如 ， 标 准 VO 库 没 有 提供 读 取 文件 元 数据 的 方式 ， 这 些 元 数据 包括 
文件 大 小 或 文件 创建 时 间 。 更 有 甚 者 ，LIO 库 还 存在 一 些 问题 ， 使 得 用 它 来 进行 网 络 编程 非 
T Be. 

这 一 章 问 你 介绍 Unix VO 和 标准 VO 的 一 般 概念 ， 并 且 向 你 展示 在 你 的 C 程序 中 如 何 可 靠 地 使 

用 它们 。 除 了 作为 一 般 性 的 介绍 之 外 , 这 一 章 还 为 我 们 随后 学 习 网 络 编 程 和 并 发 性 奠定 坚实 的 基础 。 


11.1 Unix I/O 


一 个 Unix 文件 就 是 一 个 m 字 节 的 序列 
Bo, Be, Bp, Bm) 
所 有 的 VO 设备 ， 例 如 网 络 、 磁 盘 和 终端 ， 都 被 模型 化 为 文件 ， 而 所 有 的 输入 和 输出 都 被 当 作 
对 相应 文件 的 读 和 写 来 执行 。 这 种 将 设备 优雅 地 映射 为 文件 的 方式 ， 人 允许 Unix 内 核 引 出 一 个 简单 、 
低级 的 应 用 接口 ， 称 为 Unix IO， 这 使 得 所 有 的 输入 和 输出 都 能 以 一 种 统一 旦 一 致 的 方式 来 执行 : 
e。 打开 浆 件 。 一 个 应 用 程序 通过 要 求 内 核 打 开 相 应 的 文件 ， 来 宣告 它 想 要 访问 一 个 W/O 设备 。 
内 核 返 回 一 个 小 的 非 负 整数 ， 叫 做 描述 符 ， 它 在 后 续 对 此 文件 的 所 有 操作 中 标识 这 个 文件 。 
内 核 记 录 这 个 打开 文件 的 所 有 信息 ， 而 应 用 程序 只 需 记 住 这 个 描述 符 。 

Unix shell 创建 的 每 个 进程 开始 时 都 有 三 个 打开 的 文件 ， 标 准 输 入 (描述 符 为 0)、 标 准 
输出 (描述 符 为 1) 和 标准 错误 (描述 符 为 2)。 头 文件 <unistd.h> 定 义 了 常量 STDIN_FILENO、 
STDOUT_FILENO 和 STDERR_FILENO， 它 们 可 用 来 代替 显示 的 描述 符 值 。 

e 改变 当前 的 文件 位 置 。 内 核 保持 着 一 个 文件 位 置 k， 对 于 每 个 打开 文件 ， 初 始 为 0。 这 个 文 
件 位 置 是 从 文件 开头 起 始 的 字 节 偏 移 量 。 应 用 程序 能 够 通过 执行 seek 操作 ， 显 式 地 设置 文 
件 的 当前 位 置 为 &。 

© KIH. SERIE EM OE DW n>0 个 字 节 到 存储 器 ， 从 当前 文件 位 置 开始 ， 然 
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后 将 天 增加 到 kan, 给 定 一 个 大 小 为 m 字 节 的 文件 , 5 kam 时 执行 读 操作 会 触发 一 个 称 为 
end-of-file (EOF) 的 条 件 ， 应 用 程序 能 检测 到 这 个 条 件 。 在 文件 结尾 处 并 没有 明确 的 “EOF 
从 号 ”。 
类 似 地 ， 写 操作 就 是 从 存储 器 描 贝 nx>0 个 字 节 到 一 个 文件 ， 从 当前 文件 位 置 k 开始， 然 

后 更 新 k。 

© 关闭 文件 。 当 应 用 完成 了 对 文件 的 访问 之 后 ， 它 就 通知 内 核 关 闭 这 个 文件 。 内 核 释 放 文 件 
打开 时 创建 的 数据 结构 ， 并 恢复 描述 符 到 可 获得 描述 符 池 中 ， 以 示 啊 应 。 无 论 一 个 进程 因 
为 何 种 原因 终止 时 ， 内 核 都 会 关闭 所 有 打开 的 文件 并 释放 它们 的 存储 器 资源 。 


11.2 打开 和 关闭 文件 
进程 是 通过 调用 open 函数 来 打开 一 个 已 存在 的 文件 或 者 创建 一 个 新 文件 的 : 


#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 


int open{char *filename, int flags, mode_t mode); 


返回 : 若 成 功 则 为 新 文件 描述 罕 ， 若 出 错 为 ~1。 


open 函数 将 filename 转换 为 一 个 文件 描述 符 ， 并 且 返 回 描述 符 数字 。 返 回 的 描述 符 总 是 在 进程 
中 当前 没有 打开 的 最 小 描述 符 。flags 参数 据 明 了 进程 打算 如 何 访问 文件 : 

e O RDONLY: Riz. 

e O WRONLY: 只 与 。 

e O_RDWR: 可 读 可 写 。 

例如 ， 下 面 的 代码 说 明 如 何以 读 的 方式 打开 一 个 已 存在 的 文件 : 

fd = Open("foo.txt", O_RDONLY, 0); 

flags 参数 也 可 以 是 一 个 或 者 更 多 位 掩 码 的 或 ， 为 写 提供 给 一 些 额 外 的 指示 : 

© O_CREAT: 如 果 文 件 不 存在 ， 就 创建 它 的 一 个 截断 的 (truncated ) CF) 文件 。 

© O_TRUNC: 如 杂文 件 已 经 存在 ， 就 截断 它 。 

e O_APPEND: 在 每 次 写 操作 前 ， 设 置 文 件 位 置 到 文件 的 结尾 处 。 

例如 ， 下 惫 的 代码 说 明 的 是 如 何 打 开 一 个 已 存在 文件 ， 并 在 后 面 添 加 一 些 数据 . 

fd = Open("foo.txt", O WRONLY|O APPEND, 0); 

mode 参数 指定 了 新 文件 的 访问 权限 位 。 这 些 位 的 符号 名 字 如 图 11.1 所 示 。 

作为 上 下 文 的 一 部 分 ， 每 个 进程 都 有 一 个 umask， 它 是 通过 调用 umask 函数 来 设置 的 。 当 进程 
通过 市 茶 个 mode 参数 的 open 函数 调用 来 创建 一 个 新 文件 时 ， 文 件 的 访问 权限 位 被 设置 为 mode & 
~umask。 例 如 ， 假 设 我 们 给 定 下 面 的 mode 和 umask 默认 值 : 


#define DEF_MODE S_IRUSR|S_IWUSRIS_IRGRP|S_IWGRP|S_IROTH!|S_IWOTH 
#define DEF_UMASK S_IWGRP{S_IWOTH 


S_IRUSR 使 用 者 (拥有 者 ) 能 够 读 这 个 文件 
S_IWUSR 使 用 者 〈 拥 有 者 ) 能 够 写 这 个 文件 
S_IXUSR 使 用 者 《拥有 者 ) 能 够 执行 这 个 文件 


S_IRGRP 拥有 者 所 在 组 的 成 员 能 够 读 这 个 文件 
S_IWGRP 拥有 者 所 在 组 的 成 员 能 够 写 这 个 文件 
S_IXGRP 拥有 者 所 在 组 的 成 员 能 够 执行 这 个 文件 
S_IROTH 其 他 成 员 《 任 何 成 员 ) 能 够 读 这 个 文件 
S_IWOTH FRA i CAE AR A) 能 够 写 这 个 文件 
S_IXOTH 其 他 成 员 〔 人 和 任何 成 员 ) 能 够 执行 这 个 文件 


图 11.1 访问 权限 位 


在 sys/stat.h 中 定义 。 
接 下 来 ， 下 面 的 代码 片段 创建 一 个 新 文件 ， 文 件 的 拥有 者 有 读 写 权限 ， 而 所 有 其 他 的 用 户 都 有 
读 权 限 : 


umask (DEF_UMASK) ; 
fd = Open("foo.txt", O_CREAT|O_TRUNC|O_WRONLY, DEF_MODE) ; 


mis, BER A close AARAA SST FAY OE. 


#include <unistd.h> 


int close(int fd); 


返回 : 着 成 功 则 为 0， 才 出 错 则 为 -1。 


关 财 一 个 已 关闭 的 描述 从 会 出 错 。 


练习 题 11.1 

下 面 程序 的 输出 是 什么 ? 

1 #include "csapp.h" 

2 

3 int maint) 

4 { 

5 int fdl, id2; 

6 

7 fdl = Open("foo.txt", C_RDONLY, 0); 
8 Close(fdli; 

9 fd2 = Open("baz.txt", C_RDONLY, 0); 
10 printft("fd2 = d\n", fd2); 

11 exit (Q); 


12 } 
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1.3 读 和 写 文件 
应 用 程序 是 通过 分 别 调用 read 和 write 函数 来 执行 输入 和 输出 的 。 


#include <unistd.h> 


Ssize_t read(int fd, void *buf, size_t n); 


返回 : ERAN ARMS PTR, FS EOF 则 为 0， 若 出 错 为 -1， 


Sslze_t write(int fd, const void *buf, size_t n); 
返回 : 若 成 功 则 为 写 的 字 节 数 ， 若 出 错 则 为 -1， 
read PRAM HIATT A fd 的 当前 文件 位 置 拷贝 至 多 天 个 字 节 到 存储 器 位 轩 buf. 返回 值 -1 表示 一 
个 错误 ， 而 返回 值 0 表示 EOF。 否 则 ， 返 回 值 表 示 的 是 实际 传送 的 字 节 数量 。 
write 图 数 从 存储 器 位 置 buf 拷贝 至 多 n 个 字 节 到 描述 符 fd 的 当前 文件 位 置 。 图 11.2 展示 了 一 
个 程序 使 用 read 和 write 调用 一 次 一 个 字 节 地 从 标准 输入 拷贝 到 标准 输出 。 


code/io/cpstdin.c 


1 #include "csapp.h" 

2 

3 int main(void) 

4 { 

5 char c; 

6 

7 while(Read(STDIN_FILENO, &c, 1) != 0) 
8 Write (STDOUT_FILENO, &c, 1); 

9 exit (0); 

10 } 


code/io/cpstdin.c 
图 11.2 一 次 一 个 字 节 地 从 标准 输入 拷贝 到 标准 输出 
通过 调用 lseek 函数 ， 应 用 程序 能 够 显示 地 修改 当前 文件 的 位 置 ， 这 部 分 内 容 不 在 我 们 的 讲述 
范围 之 内 。 
Bit: ssize tMsize + 有 些 什 么 区 别 ? 
你 可 能 已 经 注意 到 了 ，read 函数 有 有 一 个 size t 的 输入 参数 和 一 个 ssize t 的 返回 值 。 那 么 这 两 种 - 
类 型 之 间 有 什么 区 别 呢 ?size_1 被 定 头 为 unsigned int, 而 ssize_t (有 答 号 的 大 小 ) 被 定义 为 int. read 
池 数 返回 一 个 有 符号 的 大 小 ， 而 不 是 一 个 无 符号 大 小 ， 这 是 因为 出 错时 它 必须 返回 -1。 有 趣 的 是 ， 
返回 一 个 -1 的 可 能 性 使 得 read 的 最 大 值 减 小 一 半 ， 从 4GB 减 小 到 了 2GB. 


在 某 些 情况 下 ，read 和 write 传送 的 字 节 比 应 用 程序 要 求 的 要 少 。 这 些 不 足 值 (short count) 不 
一 定 是 错误 。 因 为 一 些 原因 ， 会 出 现 这 样 的 情况 ， 


© 读 时 遇 到 EOF, 假设 我 们 准备 读 一 个 文件 , 该 文件 从 当前 文件 位 置 开始 只 含有 20 多 个 字 节 ， 
而 我 们 以 50 个 字 节 的 组 块 (chunk) 进行 读 取 。 这 样 一 来 , 下 一 个 read 返回 的 不 足 值 为 20, 
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此 后 的 read 将 通过 返回 0 发 出 EOF 信号。 
© 从 终端 读 玉 本 行 。 如 果 打 开 文 件 是 与 终端 相关 联 的 〈 例 如 ， 键 盘 和 显示 器 )， 那 么 每 个 read 
画 数 将 一 次 传送 一 个 文本 行 ， 返 回 的 不 足 值 等 于 文本 行 的 大 小 。 
© 读 和 写 网 络 套 接 字 ( socket )。 如 果 打 开 的 文件 对 应 于 网 络 套 接 字 (123.3 节 )， 那 么 内 部 组 
冲 约束 和 较 长 的 网 络 延 迟 会 引起 read 和 write 返回 不 足 值 。 对 Unix 管道 (pipe) 调用 read 
和 wfite， 也 有 可 能 出 现 不 自 值 ， 这 种 进程 间 通 信 机 制 不 在 我 们 讨论 的 范围 之 内 。 
灾 际 上 ， 除 了 EOF， 当 你 在 读 磁 盘 文件 时 ， 将 不 会 遇 到 不 足 值 ， 而 且 在 写 磁 盘 文 件 时 ， 也 不 会 
过 到 不 足 值 。 然 而 ， 如 果 你 想 创建 健壮 的 (可 靠 的 ) 诸如 Web 服务 器 这 样 的 网 络 应 用 ， 就 必须 处 理 
由 于 有 反复 调用 read 和 write 引起 的 不 足 值 ， 直 到 所 有 需要 的 字 节 都 传送 完毕 。 


11.4 用 Rio 包 进 行 健壮 地 读 和 写 
在 这 一 小 节 里 ， 我 们 会 讲述 一 个 VO 包 ， 称 为 Rio (Robust UO， 健壮 的 VO) 包 ， 它 会 自动 为 
你 处 理 上 文中 所 述 的 不 足 值 。 在 像 网 络 程序 这 样 容易 出 现 不 足 值 的 应 用 中 ，Rio 包 提 供 了 方便 、 健 
壮 和 高 效 的 VO. Rio 提供 了 两 类 不 同 的 函数 ， 
© 无 缓冲 的 给 入 输出 函数 。 这 些 衣 数 直接 在 存储 器 和 文件 之 间 传 送 数据 ， 没 有 应 用 级 缓冲 。 
它们 对 将 二 进 制 数据 读 写 到 网络 和 从 网 络 读 写 二 进 制 数 据 尤其 有 用 。 
© 带 缓冲 的 给 入 函数 。 这 些 函 数 允 许 你 高 效 地 从 文件 中 读 取 文本 行 和 二 进 制 数据 ， 这 些 文件 
的 内 容 缓 存在 应 用 级 缓冲 区 内 ， 相 似 于 为 printf 这 样 的 标准 VO 函数 提供 的 缓冲 区 。 与 [81] 
中 讲述 的 带 缓冲 的 IO 例 程 不 同 ， 带 缓冲 的 Rio 输入 函数 是 线程 安全 的 (13.7.1 节 )， 它 在 
同一 个 描述 符 上 可 以 被 交错 地 调用 。 例 如 ， 你 可 以 从 一 个 描述 符 中 读 一 些 文本 行 ， 然 后 读 
取 一 些 二 进 制 数据 ， 接 着 下 多 读 取 一 些 文本 行 。 
我 们 提出 Rio 例 程 为 了 两 个 原因 : 第 一 ， 在 接 下 来 的 两 章 中 ， 我 们 开发 的 网 络 应 用 中 使 用 了 它 
们 ; 第 二 ， 通 过 学 习 这 些 例 程 的 代码 ， 你 将 对 Unix VO 有 更 深入 的 了 解 。 


11.4.1 Rio 的 无 组 冲 的 输入 输出 函数 
通过 调用 rio_readn 和 rio_writen 函数 ， 应 用 程序 可 以 在 存储 器 和 文件 之 间 直 接 传送 数据 。 


#include "csapp.h" 


Ssize_t rio_readn(int fd, void *usrbuf, size tn); 
Ssize_t rio_writen(int fd, void *usrbuf, size_t n); 


退回 ; SRAM ABRAMS PH, ZS EOF 则 为 0 (只 对 Tio_readn 而 言 ) ， 若 出 错 则 为 -1， 


rio_readn 图 数 从 描述 符 fd 的 当前 文件 位 置 最 多 传送 n 个 字 节 到 存储 器 位 置 usrbuf， 类 似 地 ， 
rio_writen KAMAE usrbuf 传送 n 个 字 节 到 描述 符 fd。rio_read 函数 在 遇 到 EOF 时 只 能 返回 一 个 
不 足 值 。rio_writen 函数 决 不 会 返回 不 足 值 。 对 同一 个 描述 符 ， 可 以 任意 交错 地 调用 rio_readn 和 
rio writen. 

图 11.3 显示 了 rio_readn 和 rio_writen 的 代码 。 注 意 ， 如 果 read 和 write 函数 被 一 个 从 应 用 程序 
信号 处 理 程序 的 返回 中 断 ， 那 么 每 个 函数 都 会 手动 地 重启 read 或 write。 为 了 尽 可 能 有 较 好 的 可 移 


系统 级 IO 67) 


植 性 ， 我 位 允许 被 中 断 的 系统 调用 ， 且 在 必要 时 重启 它们 。( 参 见 85.4 节 中 关于 被 中 断 的 系统 调用 


的 讨论 。) 
code/src/csapp.c 
1 ssize_t rio_readn(int fd, void *usrbuf, size_t n) 
2 ( 
3 size_t nleft = n; 
4 ssize_t nread; 
5 char *bufp = usrbuf:; 
6 
7 while (nleft > 0) { 
8 if ({mread = read(fd, bufp, nleft)) < 0) { 
9 if (errno == EINTR) /* interrupted by sig handler return */ 
10 nread = Q; /* and call read() again */ 
11 else 
12 return -1; /* errno set by read() */ 
13 } 
14 else if (nread == Q) 
15 break; /* EOF */ 
16 nleft -= nread; 
17 bufp += nread; 
18 } 
19 return (n - nleft); /* return >= Q */ 
20 } 
code/src/csapp.c 
code/src/csapp.c 
1 ssize_t rio_writen(int fd, void *usrbuf, size t n) 
2 { 
3 size_t nleft = n: 
4 SS1ze_t nwritten; 
5 char *bufp = usrbuf; 
6 
7 while (nleft > 0) { 
8 1f (({nwritten = write(fd, bufp, nleft)) <= 0) { 
9 if (errno == EINTR)  /* interrupted by sig handler return */ 
10 nwritten = 0; /* and call writeQ again */ 
11 else 
12 return -1; /* errorno set by write() */ 
13 } 
14 nleft -= nwritten; 
15 bufp += nwritten; 
16 } 
17 return n; 
18 } 


code/src/csapp.c 


图 11.3 ro_readn Al rio_writen 函数 
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11.4.2 Rio 的 市 缓冲 的 输入 函数 

一 个 文本 行 台 是 一 个 由 换行 符 结尾 的 ASCH 码 字 符 序列 。 在 Unix 系统 中 ， 换 行 他 CW) 与 
ASCII 码 换行 他 (LF) 相同， 数字 值 为 0x0a。 假设 我 们 要 编写 一 个 程序 来 计算 文本 文件 中 文本 行 的 
数量 ,我 们 该 如 何 来 实现 呢 ? 一 种 方法 就 是 用 read 函数 来 一 次 一 个 字 节 地 从 文件 传送 到 用 户 存 储 器 ， 
检查 每 个 字 节 来 查找 换行 符 。 这 个 方法 的 缺点 是 它 的 效率 不 是 很 高 ， 每 读 取 文 件 中 的 一 个 字 节 都 要 
求 陷 入 内 核 。 

一 种 更 好 的 方法 是 调用 包装 (wrapper) 函数 (rio_readlineb )， 它 从 一 个 内 部 读 缓冲 区 拷贝 一 个 
文本 行 ， 当 缓冲 区 变 空 时 ， 会 自动 地 调用 read 重新 填 满 缓冲 区 。 对 于 既 包 含 文本 行 也 包含 二 进 制 数 
据 的 文件 〈 例 如 12.5.3 市 中 描述 的 HTTP Ww), RAET A nio_readn 带 缓 冲 区 .的 版 本 ， 叫 
做 rio_readnb， 它 从 和 rio_readlineb 一 样 的 缓冲 区 中 传送 原始 字 节 。 


#include 


"csapp.h” 


void rio_readinitb(rio_t *rp, int fd); 


返回 : A. 
ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen); 
ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n); 
返回 : SRAM ARS PH, FEOF 则 为 0， 若 出 错 则 为 -1。 
每 打开 一 个 描述 符 , 都 会 调用 rio_readinitb RRM. CHAT fa 和 地 址 rp 处 的 一 个 类 型 为 rio_t 
的 读 缓冲 区 联系 起 来 。 
rio_readinitb 函数 从 文件 p 读 出 一 个 文本 行 〈 包 括 结尾 的 换行 符 )， 将 它 找 贝 到 存储 器 位 置 
usrbuf， 并 且 用 null ( 空 ) 字符 来 结束 这 个 文本 行 。rio_readinitb 函数 最 多 读 maxlen-1 个 字 节 ， 余 下 
的 一 个 字符 留 给 结尾 的 空 字符 。 超 过 maxlen-1 字 节 的 文本 行 被 截断 ， 并 用 一 个 空 字符 结束 。 
rio_readnb KAA XIF rp 最 多 读 nn 个 字 节 到 存储 器 位 置 usrbuf。 对 同一 描述 符 ， 对 rio_readlineb 
MI rio_readn 的 调用 可 以 任意 交叉 进行 。 然 而 ， 对 这 些 带 缓冲 的 函数 的 调用 却 不 应 和 不 带 缓冲 的 
rio_readn A% VAE H. 


你 将 在 本 书 剩 下 的 部 分 中 遇 到 大 量 的 Rio 函数 的 示例 。 图 11.4 展示 了 如 何 使 用 Rio 函数 来 一 次 
一 行 地 从 标准 输入 拷贝 一 个 文本 文件 到 标准 输出 。 


code/io/cpfile.c 
#include "csapp.h" 


1 

2 

3 int main(int argc, char **argv) 
4 ( 

5 int n; 

6 rio_t rio; 

7 char buf [MAXLINE] : 

8 

9 

1 


Rio_readinitb(&rio, STDIN FILENO) ， 
0 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) 


11 
12 
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Rio_writen(STDOUT_FILENO, buf, n); 


code/io/cpfile.c 
图 11.4 从 标准 输入 拷贝 一 个 文本 文件 到 标准 输出 


图 11.5 展示 了 一 个 谈 缓 名 区 的 格式 ， 以 及 初始 化 它 的 rio_readinitb 图 数 的 代码 。rio_readinitb & 


数 创 建 了 一 个 空 的 读 缓冲 区 ， 并 且 将 一 个 打开 的 文件 描述 符 和 这 个 缓冲 区 联系 起 来 。 
Rio 读 程序 的 核心 是 图 11.6 所 示 的 rio_read 孙 数 。rio_read 函 数 是 Unix read 函 数 的 带 缓冲 的 版 本 。 


Œ J e w V e TIA UB Ww he 
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code/include/csapp.h 
#define RIO_BUFSIZE 8192 
typedef struct { 
int rio_fd; /* descriptor for this internal buf */ 
int rio_cent; /* unread bytes in internal buf */ 
char *rio_bufptr; /* next unread byte in internal buf */ 
char rio_buf [RIO _BUFSIZE}; /* internal buffer */ 
} rio_t; 
code/ include /csapp.h 


code/src/csapp.c 
void rio_readinitb(rio_t *rp, int fd) 
{ 
rp-~>rio_fd = fd; 
rp->rio_cnt = 0; 
rp->rio_bufptr = rp->rio_buf; 


code/src/csapp.c 


图 11.5 一 个 类 型 为 riot 的 读 缓 冲 区 和 初始 化 它 的 rice_readinitb 函数 


code/src/csapp.c 
Static ssize_t rio_read(rio_t *rp, char *usrbuf, size_t n) 
( 


int cnt: 


while (rp->rio_cnt <= 0) { /* refill if buf is empty */ 
rp->rio_cnt = read(rp->rio_fd, rp->rio_buf, 
sizeof (rp->rio_buf)); 

it (rp->rio_cnt < 0) { 

1f (errno != EINTR) /* interrupted by sig handler return */ 
return -1; 
} 

else if (rp->rio_cnt == 0) /* EOF */ 
return 0; 

else 
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15 rp->rio_bufptr = rp->rio_buf; /* reset buffer ptr */ 
16 } 
7 
18 /* Copy min(n, rp->rio_ent) bytes from internal buf to user buf */ 
19 cnt = n; 
20 if (rp->rio_cnt < n) 
21 cnt = rp->rio_cnt; 
22 memcpy (usrbuf, rp->rio_bufptr, cnt); 
23 rp->rio_bufptr += cnt; 
24 rp->rio_cnt -= cnt: 
25 return cnt; 
26 } 


code/src/csapp.c 


图 11.6 内 部 的 rio_read 函数 


当 调 用 rio_read 要 求 读 n 个 字 节 时 ， 读 缓冲 区 内 有 mp->rio_cnt 个 未 读 字 节 。 如 果 缓 冲 区 为 空 ， 
那么 会 通过 调用 read 再 次 填充 它 。 这 个 read 调用 收 到 一 个 不 足 值 并 不 是 错误 ,只 不 过 读 缓 冲 区 是 部 
分 填充 的 。 一 旦 缓冲 区 非 空 ，rio_read 就 从 读 缓冲 区 拷贝 n 和 mp->rio_cnt 中 最 小 值 的 字 节 到 用 户 组 
冲 区 ， 并 返回 找 贝 的 字 节 数 。 

对 于 一 个 应 用 程序 ，rio_read 函数 和 Unix read 函数 有 同样 的 语义 。 在 出 错时 ， 它 返回 值 -1， 并 
HEKE erno. Æ EOF 时 ， 它 返回 值 0。 如 果 要 求 的 字 节 数 超过 了 读 缓 冲 区 内 未 读 的 字 节 的 数 
量 ， 它 会 返回 一 个 不 足 值 。 两 个 函数 的 相似 性 使 得 很 容易 通过 用 rio_read 代替 read 来 创建 不 同类 型 
A RTPA Be PR. BGO, FA rio_read 代替 read， 图 11.7 中 的 rio_readnb 函数 和 rio_ readn 有 相同 的 
结构 。 相 似 地 ， 图 11.7 中 的 rio_readlineb 程序 最 多 调用 rio_read maxlen-1 次 。 每 次 调用 都 从 读 缓冲 
区 返回 一 个 字 节 ， 然 后 会 检查 这 个 字 节 是 否 是 结尾 的 换行 符 。 


code/src/csapp.c 


1 ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size t maxlen) 
2 { 

3 int n, re: 

4 char c, *bufp = usrbuf: 

5 

6 for (n = 1; n < maxlen; n++) { 

7 1f ((re = rio_read(rp, &c, 1)) == 1) { 

8 *bufp++ = Cc; 

9 1f (c == ‘\n’) 

10 break; 

11 } else if {rc == QO) { 

12 if (n == 1) 

13 return 0; /* EOF, no data read */ 

14 else 

15 break; /* EOF, some data was read */ 


16 } else 
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17 return -1; /* error */ 
18 } 

19 *pufp = Q; 

20 return n; 

21 } 


code/src/csapp.c 
code/src/csapp.c 
Sssize t rio_readnb(rio_t *rp, void *usrbuf, size_t n) 
{ 
size_t nleft = n; 
ssize_t nread; 
char *bufp = usrbuf; 


while (nleft > 0) { 
if ((mread = rio_read(rp, bufp, nleft)) < 0) { 


if (errno == EINTR) /* interrupted by sig handler return */ 
nread = Q; /* call readQ again */ 
else 
return -1; /* errno set by read() */ 


} 


else if (nread == Q) 


a ee oo oo oO 
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break; /* EOF */ 
nleft -= nread; 
bufp += nread; 
18 } 
19 return (n - nleft); /* return >= 0 */ 
20 ) 


code/src/csapp.c 


13.7 rio_readlineb Ñ rio_readnb 函数 


Sit: Rio 包 的 起 源 

Rio 4k) 28K YF W. Richard Stevens 在 他 的 经 典 网 络 编程 作品 [81] 中 描述 的 readline、readn 
和 writen $A. rio_readn 和 rio_writen 4) 4¢-5 Stevens 的 readn 和 writen 函数 是 一样 的 .然而 ，Stevens 
的 readline Bk — ERE Rio 中 得 到 了 纠正 。 第 一 ， 因 为 readjline 是 带 缓冲 的 ， 而 readn RÆ, MT 
以 这 两 个 函数 不 能 在 同一 描述 符 上 一 起 使 用 。 第 二 ， 因 为 它 使 用 一 个 静态 的 缓冲 区 ,Stevens 的 readline 
函数 不 是 线程 安全 的 ， 这 就 要 求 Stevens 引入 一 个 不 同 的 线程 安全 版 本 ， 称 为 readline_r。 我 们 已 经 在 
rio_readlineb 和 rio_readn 也 数 中 修改 了 这 两 个 续 陷 ， 使 得 这 两 个 函数 是 相互 兼容 和 线程 级 安全 的 。 


11.5 读 取 文件 元 数据 


应 用 程序 能 够 通过 调用 stat 和 fstat 函数 ， 检 索 到 关于 文件 的 信息 〈 有 时 也 称 为 文件 的 元 数据 ， 
metadata ) 。 
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#include <unistd.h> 
#include <sys/stat.h> 


Int stat (const char *filename, struct stat *buf); 
int fstat(int fd, struct stat *buf); 


返回 : 若 成 功 则 为 0， 老 出 错 则 为 -1. 


stat 函数 以 一 个 文件 名 作为 输入 ,并 填写 如 图 11.8 所 示 的 一 个 stat 数据 结构 中 的 各 个 成 员 。fstat 

苹 数 是 相似 的 ， 只 不 过 是 以 文件 描述 符 而 不 是 文件 名 作为 输入 。 当 我 们 在 12.5 节 中 讨论 Web 服务 
器 时 ， 会 霸 要 stat 数据 结构 中 的 st_mode 和 st_size 成 员 ， 其 他 成 员 则 不 在 我 们 的 讨论 之 列 。 

statbuf.h(includeed by sys/stat.h) 


/* Metadata returned by the stat and fstat functions */ 
struct stat { 


dev_t st_dev; /* device */ 

ino_t St_ino; /* inode */ 

mode_t st mode: /* protection and file type */ 
nlink_t st _nlink; /* number of hard links */ 

uid t st uid; /* user ID of owner */ 

gid t st_gid; /* group ID of owner */ 

dev_t st_rdev; /* device type (if inode device) */ 
off_t st_size; /* total size, in bytes */ 
unsigned long st_blksize; /* blocksize for filesystem I/O */ 
unsigned long st_blocks; /* number of blocks allocated */ 
time_t st _atime; /* time of last access */ 

time t st _mtime: /* time cf last modification */ 
time_t St_ctime; /* time cf last change */ 


statbuf.h(includeed by sys/stat.h) 
11.8 stat 数据 结构 


st_size 成 员 包 含 了 文件 的 字 节 数 大 小 。st_mode 成 员 则 编码 了 文件 访问 许可 位 (图 11.1) 和文 
件 类 型 。Unix 识别 大 量 不 同 的 文件 类 型 。 普 通 文件 包括 某 种 类 型 的 二 进 制 或 文本 数据 。 对 于 内 核 而 
言 ， 文 本 文件 和 二 进 制 文件 豪 无 区 别 。 目 录 文 件 包 含 关 于 其 他 文件 的 信息 。 套 接 字 是 一 种 用 来 通过 
网 络 与 其 他 进程 通信 的 文件 。 

Unix 提供 的 宏 指令 根据 st_mode 成 员 来 确定 文件 的 类 型 。 图 11.9 列 出 了 这 些 宏 的 一 个 子 集 。 


() 
_Is { ) 


图 11.9 BÆ st_mode 位 确定 文件 类 型 的 宏 指 令 


在 sys/stat.h 中 定义 。 
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图 11.10 展示 了 我 们 会 如 何 使 用 这 些 宏和 stat 函数 ， 来 读 取 和 解释 一 个 文件 的 st_mode 位 。 


11.6 


#include "“csapp.h’ 


int main (int argc, char **argv) 


{ 


struct stat stat; 
char *type, *readok; 


Stat (argv[1], &stat); 

if (S_ISREG(stat.st_mode) ) /* Determine file type */ 
type = "regular"; 

else if (S_ISDIR(stat.st_mode) ) 
type = "directory"; 

else 
type = "other"; 

if ((stat.st_mode & S_IRUSR)) /* Check read access */ 
readok = "yes"; 

else 


readok = "no"; 


printf("type: %s, read: s\n", type, readok); 
exit (0); 


110 查询 和 处 理 一 个 文件 的 Smode 位 


HEM HH 


codefho/statcheck.c 


codefio/statcheck.c 


可 以 用 许多 不 同 的 方式 来 共享 Unix 文件 。 除非 你 很 清楚 内 核 是 如 何 表 示 打 开 的 文件 , 否则 文件 
共享 的 概念 相当 难 懂 。 内 核 用 三 种 相关 的 数据 结构 来 表示 打开 的 文件 : 
© FER (descriptor table). 每 个 进程 都 有 它 独立 的 描述 符 表 , 它 的 表 项 是 由 进程 打开 的 文 


件 描述 符 来 索引 的 。 每 个 打开 的 描述 符 表 项 指向 文件 表 中 的 一 个 表 项 。 


Kt RK (file table)。 打 开 文 件 的 集合 是 由 一 张 文 件 表 来 表示 的 ， 所 有 的 进程 共享 这 张 表 。 

每 个 文件 表 的 表 项 组 成 〈 针 对 我 们 的 目的 ) 包括 有 当前 的 文件 位 置 、 引 用 计数 (reference 
count) 如 当前 指向 该 表 项 的 描述 符 表 项 数 ， 以 及 一 个 指向 v-node 表 中 对 应 表 项 的 指针 。 关 
朵 一 个 描述 符 会 减少 相应 的 文件 表 表 项 中 的 引用 计数 。 内 核 不 会 删除 这 个 文件 表 表 项 ， 直 
到 它 的 引用 计数 为 零 。 


èe v-node & (v-node table )。 同 文件 表 一 样 ， 所 有 的 进程 共享 这 张 v-node 表 。 每 个 表 项 包含 
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stat 结构 中 的 大 多 数 信 息 ， 包 括 st_mode 和 st_size 成 员 。 
图 11.11 展示 了 一 个 示例 ， 其 中 描述 符 1 和 4 通过 不 同 的 打开 文件 表 表 项 来 引用 两 个 不 同 的 文 
件 。 这 是 一 种 典型 的 情况 ， 没 有 共 至 文件 ， 并 日 每 个 描述 得 对 应 一 个 不 同 的 文件 。 


描述 付 表 打开 文件 表 V-node 表 
(每 个 进程 一 张 表 ) (所 有 进程 共 至 ) (所 有 进程 共 储 ) 
文件 A 
stdin fd0| | po 文件 访问 
stdout fdt| | 文件 位 置 文件 大 小 
stderr fd2 加 列国 
fd 3 refcnt=1 | 文件 类 型 
fd4[ | pe Po 
文件 B 
TENA 文件 大 小 


文件 类 型 


图 11.11 典型 的 打开 文件 的 内 核 数据 结构 
在 这 个 示例 中 ， 两 个 描述 符 引用 不 同 的 文件 。 没 有 共享 。 


如 图 11.12 所 示 ， 多 个 描述 符 也 可 以 通过 不 同 的 文件 表 表 项 来 引用 同一 个 文件 。 例 如 ， 如 果 以 
同一 个 文件 名 调用 open 函数 两 次 , 就 会 发 生 这 种 情况 。 关 键 思 想 是 每 个 描述 符 都 有 它 自己 的 文件 位 
置 ， 所 以 对 不 同 描述 符 的 读 操作 可 以 从 文件 的 不 同位 置 获取 数据 。 


描述 从 表 打开 文件 表 V-node 表 
(每 个 进程 一 张 表 ) (所 有 进程 共享 ) (所 有 进程 共享 ) 
XFA 
fa 0 po 文件 访问 
fd 2 文件 位 置 文件 大 小 
fd3| | 文件 类 型 
fd4| | | i 


文件 B 


加 时 是 时 
文件 位 置 
refent=1 | 
On 


图 11.12 文件 共享 
这 个 例子 展示 了 两 个 描述 符 通过 两 个 打开 文件 表 表 项 共享 同 “个 磁盘 文件 。 


我 们 也 能 理解 父子 进程 是 如 何 共享 文件 的 。 假 设 在 调用 fork 之 前 ， 父 进程 有 如 图 11.11 所 未 的 
打开 文件 。 这 时 ， 图 11.13 展示 了 调用 fork 后 的 情况 ， 

子 进 程 有 一 个 父 进程 描述 符 表 的 副本 。 父 子 进程 共享 相同 的 打开 文件 表 集 合 ， 因 此 共 学 相同 的 
文件 位 置 。 一 个 很 重要 的 结果 就 是 ， 在 内 核 删 除 相应 文件 表 表 项 之 前 ， 父 子 进程 必须 都 关闭 了 它们 
的 描述 符 。 


描述 符 表 


父 进 程 的 表 
fd0| | 
fd1| | 
fd2| 
fd3| | 
fd4| | 


子 进程 的 表 
fd0l | 
fd1| | 
fd2| | 
fd3| ë | 
fd4| | 
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打开 文件 表 V-node 表 
(所 有 进程 共享 ) (所 有 进程 共享 ) 
文件 A 


文件 B 


11.13 子 进 程 如 何 继承 父 进程 的 打开 文件 


初始 状态 如 图 11.11 所 示 。 


练习 题 11.2 
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假设 磁盘 文件 foobartxt 由 6 个 ASCII 码 字 符 “foobar” 组 成 。 那 么 ， 下 列 程序 的 输出 是 什么 ? 


fdl = Open ("foobar.txt", O RDONLY, 0); 
fd2 = Open("foobar.txt", O_RDONLY, 0); 


1 #include "csapp.h" 
2 

3 int main () 

4 { 

5 int fal, fd2. 
6 char c; 

7 

8 

9 


10 Read(fdl, &c, 

11 Read(fd2, &c, 

12 printf ("c = %c\n", c); 
13 exit (0); 

14 } 

练习 题 11.3 


就 像 前 面 那样 ， 假 设 磁盘 文件 foobartxt 由 6 个 ASCII 码 字 符 “foobar” 组 成 


输出 是 什么 ? 


#include "csapp.h" 


int main () 


1 
2 
3 
4 { 


。 RAF FFE HY 
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5 int fd; 

6 char c; 

7 

8 fd = Open("foobar.txt", O_RDONLY, 0); 
9 if (Fork() == 0) { 

10 Read(fd, &c, 1); 
11 exit(0); 

12 } 

13 Wait (NULL); 

14 Read(fd, &c, 1); 

15 printf ("c = $c\n", cC); 
16 exit (0); 

17 } 


11.7 10 重 定 向 
Unix shell 提供 了 LO 重 定向 操作 符 ， 允 许 用 户 将 磁盘 文件 和 标准 输入 输出 联系 起 来 。 例 如 ， 键 入 


Unix> LS > foo.txt 


使 得 shell 加 载 和 执行 ls 程序 ， 将 标准 输出 重 定 向 到 磁盘 文件 foo.txt。 就 如 我 们 将 在 12.5 节 中 看 到 
的 那样 ， 当 一 个 Web 服务 器 代表 客户 端 运 行 CGI 程序 时 ， 它 就 执行 一 种 相似 类 型 的 重 定 向 。 那 么 
VO 重 定 同 是 如 何 工 作 的 呢 ? 一 种 方式 是 使 用 dup2 AA. 


#include <unistd.h> 


int dup2(int oldfd, int newfd); 


返回 : 郑成功 则 为 非 负 的 描述 符 ， 若 出 错 则 为 -1。 


dup2 函数 拷贝 描述 符 表 表 项 oldfd 到 描述 符 表 表 项 newld, MHRA RRM newfd 以 前 的 内 
容 。 如 果 newfd 已 经 打开 了 ，dup2 会 在 拷贝 oldfd 之 前 关闭 newfd. 

假设 在 调用 dup2(4,1) 之 前 ， 我 们 的 状态 如 图 11.11 所 示 ， 其 中 描述 符 1 (标准 输出 ) 对 应 于 文 
件 A 比如 说 一 个 终端 )， 描 述 符 4 对 应 于 文件 B 《比如 说 一 个 磁盘 文件 )。A 和 B 的 引用 计数 都 等 
于 1。 图 11.14 显示 了 调用 dup2(4,1) 之 后 的 情况 。 两 个 描述 符 现在 都 指向 BB. 文件 A 已 经 被 关闭 了 ， 
并 且 它 的 文件 表 和 v-node 表 表 项 也 己 经 删除 了 ; 文件 B 的 引用 计数 已 经 增加 了 。 从 此 以 后 ,任何 写 
到 标准 输出 的 数据 都 被 重 定向 到 文件 B. 
旁 注 ， 左 边 和 右边 的 hoinkies。 

为 了 避免 和 其 他 括号 类 型 操作 符 比 如 “]” 和 “[” 相 混 消 ， 我 们 总 是 将 外 壳 的 “>” 操 作 符 称 为 

“ 右 hoinky”， 而 将 “<” 操 作 符 称 为 “ 左 hoinky”. 


练习 题 11.4 
如 何 用 dup2 将 标准 输入 重 定向 到 描述 符 5? 
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描述 符 表 打开 文件 表 
(每 个 进程 一 张 表 ) (所 有 进程 共享 ) 
文件 A 
fd 0 a 
Hi 
{d2 文件 位 置 
fd 3 i refent=0 | 
fd 4 


TIT ttt Tih et 


po 
i 
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V-node & 
(所 有 进程 共享 ) 


PP el ee OTT DA 


eer? Let eet 


图 11.14 通过 调用 dup2(4,1) 重 定向 标准 输出 之 后 的 内 核 数 据 结构 


初始 状态 如 图 11.11 所 示 。 


练习 题 11.5 


假设 磁盘 文件 foobartxt 由 6 个 ASCII 码 字 符 “foobar” 组 成 ， 那 么 下 列 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 int fdi, fd2; 
6 char c; 
7 
8 fdl = Open("foobar.txt", O_RDONLY, 
9 fd2 = Open("foobar.txt", O _RDONLY, 
10 Read(fd2, &c, 1); 
11 Dup2z (fd2, fal); 
12 Read(fdl, &c, 1); 
13 printf("c = %c\n", c); 
14 exit (0); 
15 } 
11.8 标准 VO 


0); 
0); 


ANSIC 定义 了 一 组 品级 输入 输出 函数 , 称 为 标准 VO 库 , 为 程序 员 提 供 了 Unix VO 的 较 高 级 别 
的 接口 。 这 个 库 dibo) 提供 了 打开 和 关闭 文件 的 函数 (fopen 和 fclose)、 读 和 写字 节 的 函数 (fread 
和 fwrite)、 读 和 写字 符 串 的 函数 (fgets 和 fputs)， 以 及 复杂 的 格式 化 VO 函数 (scanf 和 printf). 

标准 VO 库 将 一 个 打开 的 文件 模型 化 为 一 个 流 。 对 于 程序 员 而 言 ， 一 个 流 就 是 一 个 指向 类 型 为 
FILE 缩 构 的 指针 。 每 个 ANSI C 程序 开始 时 都 有 三 个 打开 的 流 stdin. stdout 和 stderr， 分 别 对 应 于 


标准 和 输入、 标准 输出 和 标准 错误 : 
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finclude <stdio.h> 


extern FILE *stdin; /* standard input (descriptor 0) */ 
extern FILE *stdout; /* standard output (descriptor 1) */ 
extern FILE *stderr; /* standard error (descriptor 2) */ 


类 型 为 FILE AES CE IR RR RAR. RAK AAD Rio RRMA PE: 
就 是 使 开销 较 高 的 Unix VO RSA SOT REG >. PION, Pela ANET, ERM 
标准 VO 的 gete PAK, 每 次 调用 返回 文件 的 下 一 个 字符 。 当 第 一 次 调用 gete IN, 库 通 过 调用 -次 read 
角 数 来 填充 流 缓冲 区 ， 然 后 将 缓冲 区 中 的 第 一 个 字 节 返 回 给 应 用 程序 。 只 要 缓冲 中 还 有 本 读 的 区 
节 ， 接 下 来 对 gete 的 调用 就 能 直接 从 流 绥 冲 区 得 到 服务 。 


11.9 综合 : 我 该 使 用 哪些 VO wR? 
图 11.15 总 结 了 我 们 在 这 - - 章 里 讨论 过 的 各 种 IO E. 


fopen fdopen 
fread fwrite 
fscan* fprintf 


sscanf sprintf 
fgets fputs 
ffiush fseek 
fclose 


rio readn 


rio writen 
rio readinitb 
rio readiineb 


| om Rome j 


open read rio readnb 
write lseek Geese Unix V/O 函数 
stat close (通过 系统 调用 来 访问 ) 


图 11.15 Unix I/O, ARE I/O 和 Rio 之 间 的 关系 


Unix VO 是 在 操作 系统 内 核 中 实现 的 。 应 用 程序 可 以 通过 open, close, lseek, read AI write 这 
样 的 函数 来 访问 Unix VO. Bera RANA) Rio 和 标准 LO eh Bea ET CHAT) Unix VO K ROR S IH 
Rio PR EN AHH ACH read 和 write 的 健壮 包装 Cwrapper) 因数 。 它 们 日 动 处理 不 十 但 〈short 
counts)， 并 日 为 恋 文 本 行 提供 一 种 高 笋 的 带 缓 冲 的 方法 。 标 准 LO ph te tT Unix VO MAR 个 
BOSE TRA aha, FART VO 例 程 。 

那么 , ZETA FRY REE PPP AEH R E PR BCPA AE? 标准 VO RRE AR i TH IO ZI. 
大 多 数 C 程序 员 在 他 们 的 职业 生涯 中 只 使 用 标准 UO， 而 从 不 涉及 低级 Unix VO AX. JA fE, 
我 们 推荐 你 也 这 样 做 。 

不 竺 的 是 ， 当 我 们 试图 对 网 络 输入 输出 使 用 标准 VOW, CATR CHES ATR le. oh 
像 我们 将 在 12.4 节 中 看 到 的 那样 ，Unix 对 网 络 的 抽象 是 一 种 称 为 套 接 字 的 文件 类 型 。 和 任何 Unix 
文件 一 样 ， 僚 接 字 也 是 用 文件 找 述 符 来 引用 的 ， 在 这 种 情况 中 被 称 为 套 接 字 描 述 符 。 应 用 进程 通过 
读 写 优 接 字 找 述 符 来 与 运行 在 其 他 计算 机 上 的 进程 通信 。 

RE VO 流 ， 从 某 种 意义 上 而 言 是 全 双 工 的 ， 因 为 程序 能 够 在 同一 个 流 上 执行 输入 和 输出 。 然 
而 ， 很 少 有 文字 记载 和 和 售 接 字 限定 相关 的 流 限 定 : 

e 限定 一 : 输入 邓 数 跟 在 输出 函数 之 后 。 如 果 中 间 没 有 插入 对 fflush, fseek, fsetpos 或 者 rewind 
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的 调用 ， 一 个 输入 项 数 不 能 跟随 在 一 个 输出 函数 之 后 。fnush KROF T WARRE. 
后 二 个 上 昭 数 使 用 Unix VO lseek KARER SA CEA 
e 限定 二 : 输出 函数 跟 在 输入 函数 之 后 .如 果 中 则 没有 插入 对 ffllush fseek, fsetpos 或 者 rewind 
的 调用 ， 一 个 输出 上 数 不 能 跟随 企 一 个 输入 图 数 忆 后， 除非 用 输入 图 数 录 到 T — Aa 
oR o 
这 些 限制 给 网 络 应 用 带 来 了 一 个 问题 ,因为 对 套 接 字 使 用 lseek PRIETO 的 第 一 
个 限定 能 够 通过 采用 在 每 个 输入 操作 前 刷新 缓冲 区 这 样 的 规则 来 保证 实现 。 然 而 ， 保 证 实现 第 二 个 
限定 的 惟一 办 法 是 ， 对 同一 个 打开 的 矢 接 字 找 述 符 打 开 两 个 流 ， 一 个 用 来 读 ， 一 个 用 来 写 : 


FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "“r"); 

fpout = fdopen(sockfd, “w"); 

但 是 这 种 方法 也 有 问题 ， 因 为 它 要 求 应 用 程序 在 两 个 流 上 都 要 调用 fclose， 这 样 才能 释放 与 每 
个 流 相 关联 的 存储 融资 源 ， 避 免 存 储 器 泄漏 : 

fclose(fpin) ; 

fclose(fpout); 

这 些 操作 中 的 每 一 个 都 试图 关闭 同一 个 底层 的 套 接 字 描 述 符 ， 所 以 第 二 个 cose 操作 就 会 失败 。 
对 顺序 的 程序 来 说 ， 这 并 不 是 问题 , 但 是 在 一 个 线程 化 的 (threaded) 程序 中 关闭 - :个 已 经 关闭 了 的 
挤 述 符 是 会 导致 灾难 的 〈 参 见 13.7.4 节 )。 

因此 ， 我 们 推荐 你 在 网 络 套 接 字 上 不 要 使 用 标准 VO 函数 来 进行 输入 和 输出 ， 而 要 使 用 Rio ef 
数 。 如 过 你 需要 格式 化 输出 ， 使 用 sprintf 项 数 在 存储 器 中 格式 化 一 个 字符 串 ， 然 后 用 rio_writen 把 
它 发 送 到 父 接 口 。 如 果 你 需要 格式 化 输入 ， 使 用 rio_readlineb 来 读 一 个 完整 的 文本 行 ， 然 后 用 scanf 
从 文本 行 提取 不 同 的 字段 。 


11.10 b4 


Unix 提供 了 少量 的 系统 级 函数 ， 它 们 允许 应 用 程序 打开 、 关 闭 、 读 和 写 文件 ， 提 取 文 件 的 元 数 
fi, LARA VO EEn., Unix 的 读 和 写 操作 会 出 现 不 足 值 (short counts )， 应 用 程序 必须 能 正确 地 
珊 计 和 处 理 这 种 情况 。 应 用 程序 不 直接 调用 Unix VO 函数 ， 而 应 该 使 用 Rio 包 ，Rio 包 通 过 反复 执 
行 谈 号 操作 ， 直 到 传送 完 所 有 的 请 求 数据 ， 自 动 处 理 不 足 值 。 

Unix 内 核 使 用 一 种 相关 的 数据 结构 来 表示 打开 的 文件 。 描 述 符 表 中 的 表 项 指向 打开 文件 表 中 的 
衣 项 ， 而 打开 文件 表 中 的 表 项 又 指向 v-node 表 中 的 表 项 。 每 个 进程 都 有 它 自 己 单独 的 描述 符 表 ， 而 
所 有 的 进程 共享 同一 打开 文件 表 和 v-node K. 理解 这 些 结构 的 一 般 构 成 就 能 使 我 们 清楚 地 理解 文件 
SM VO WE In]. 

PME VO 库 是 基于 Unix LO 实现 的 ， 并 提供 了 一 组 强大 的 高 级 VO 例 程 。 对 于 大 多 数 应 用 程序 
而 吾 ， 标 准 VO 更 简单 ， 是 优 于 Unix VO 的 选择 。 然 而 ， 因 为 对 标准 VO 和 网 络 文件 的 一 些 相 互 不 
兼容 的 限制 ，Unix VO 比 之 标准 VO 更 该 适用 于 网 络 应 用 程序 。 
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参考 文献 说 明 
Stevens 编写 了 Unix VO 的 标准 参考 文献 [76]。Kernighan 和 Ritchie 对 于 标准 VO RRB SiR 
晰 而 完整 的 讨论 [40]。 


家 庭 作 业 
11.6 @ 
下 面 题目 的 输出 是 什么 ? 
1 #include "csapp.h" 
2 
3 int main() 
4 ( 
5 int fdl, fd2; 
6 
7 fdl = Open("foo.txt", O_RDONLY, 0); 
8 fd2 = Open("bar.txt", O_RDONLY, 0); 
9 Close(fd2); 
10 fd2 = Open("baz.txt", O RDONLY, 0); 
11 printf("fd2 = d\n", fd2); 
12 exit (0); 
13 } 
11.7 @ 


修改 图 11.4 中 所 示 的 cpfile 程序 , 使 得 它 用 Rio 函数 从 标准 输入 拷贝 到 标准 输出 ,一 次 MAXBUF 
DFT 

11.8 人 多 

编写 儿 11.10 中 的 statcheck 程序 的 一 个 版 本 ， 叫 做 fstatcheck， 它 从 命令 行 上 取得 一 个 摘 述 符 数 
宇 而 不 是 文件 名 。 

11.9 人 SS 

考虑 下 面 对 习 题 11.8 中 的 对 fstatcheck 程序 的 调用 : 

unix> fstatcheck 3 < foo.txt 

你 可 能 会 预想 这 个 对 fstatcheck 的 调用 将 提取 和 显示 文件 foo.txt 的 元 数据 。 然 而 ， 当 我 们 在 我 
们 的 系统 上 运行 它 时 , CHAM, 返回 * 坏 的 文件 描述 符 ”。 根 据 这 种 情况 , 填写 shell 在 fork 和 execve 
调用 之 间 必 须 执 行 的 伪 代 但 : 


if (Fork() == 0) { /* child */ 
/* What code is the shell executing right here? */ 
Execve ("fstatcheck", argv, envp); 


} 
11.10 o@ 
修改 图 11.4 中 的 cpfile 程序 ， 使 得 它 有 一 个 可 选 的 命令 行 参数 infile。 如 果 给 定 了 infile, MAK 
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DU infile 到 标准 输出 ， 否 则 像 以 前 那样 拷贝 标准 输入 到 标准 输出 。 一 个 要 求 是 对 于 两 种 情况 ， 你 的 解 
答 都 必须 使 用 原来 的 拷贝 循环 〈 第 9 一 1 行 )。 只 人 允许 你 插入 代码 ， 而 不 允许 更 改 任何 已 存在 的 代码 。 


练习 题 答 案 


练习 题 11.1 答案 
Unix 进程 生命 周期 开始 时 ， 打 开 的 描述 符 赋 给 了 stdin〈 描 述 符 OD. stdout (HIRIT 1) 和 stderr 
(描述 符 2)。open 函数 总 是 返回 最 低 的 未 打开 的 描述 符 ， 所 以 第 一 次 调用 open 会 返回 描述 符 3。 
调用 close 函数 会 释放 描述 符 3。 最 后 对 open 的 调用 会 返回 描述 符 3， 因 此 程序 的 输出 是 “fd2=3”。 


练习 题 11.2 答案 
描述 符 fdl 和 fd2 每 个 都 有 各 自 的 打开 文件 表 表 项 ， 所 以 每 个 描述 符 对 于 foobartxt WA € B E 
的 文件 位 置 。 因 此 ， 从 fd2 的 读 操作 会 读 取 foobar.txt 的 第 一 个 字 节 ， 并 输出 


C = Í 
而 不 是 像 你 开始 可 能 想 的 


练习 题 11.3 答案 

回想 一 下 ， 子 进程 会 继承 父 进程 的 描述 符 表 ， 以 及 所 有 进程 共享 的 同一 个 打开 文件 表 。 因 此 ， 
描述 符 fa 在 父子 进程 中 都 指向 同一 个 打开 文件 表 表 项 。 当 子 进程 读 取 文件 的 第 一 个 字 节 时 , 文件 位 
置 如 1。 因 此 ， 父 进程 会 读 取 第 二 个 字 节 ， 而 输出 就 是 


C = O 


练习 题 11.4 答案 

Be min thm A (RRA 0) 到 描述 符 5， 我 们 将 调用 dup250 或 者 等 价 的 
dup2(5,STDIN_FILENO). 

练习 题 11.5 答案 

第 一 眼 你 会 想 输出 应 该 是 

C = £ 

但 是 因为 我 们 将 fa1 重 定 向 到 了 fa2， 输 出 实际 上 是 


C = 0O 
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人 网络 应 用 随处 可 见 。 任 何 时 候 你 浏览 Web、 发 送 email 信息 或 者 弹出 一 个 X window, PRIE. fE 
使 用 一 个 网 络 应 用 程序 。 有 趣 的 是 ， 所 有 的 网 络 应 用 都 是 基于 相同 的 基本 编程 模型 ， 有 痢 相 似 的 整 
体 逻 辑 结 构 ， 并 且 依 赖 相同 的 编程 接口 。 

网 络 应 用 依赖 于 很 多 在 我 们 的 系统 研究 中 己 经 学 习 过 的 概念 。 例 如 ， 进 程 、 信 号 、 字 节 排 序 、 
TRER (memory) 映射 以 及 动态 存储 分 配 ， 都 扮演 着 重要 的 角色 。 即 使 是 对 于 专家 而 言 ， 也 还 是 有 
一 些 新 的 概念 。 我们 需要 理解 基本 的 客户 端 -服务 器 编程 模型 ,以 及 如 何 编 写 使 用 因特网 提供 的 服务 
的 客户 端 -服务 器 程序 。 最 后 ， 我 们 将 把 所 有 这 些 概念 结合 起 来 ， 开 发 一 个 小 但 是 功能 齐全 的 Web 
服务 器 ， 能 够 为 真实 的 Web 浏览 器 提供 静态 和 动态 的 文本 和 图 形 内 容 。 


12.1 客 尸 端 -服务 器 编程 模型 


每 个 网 络 应 用 都 是 基于 客户 端 -服务 器 模型 的 。 根 据 这 个 模型 ， 一 个 应 用 是 由 一 个 服务 器 进程 
和 一 个 或 者 多 个 客户 端 进程 组 成 。 服 务 器 管理 某 种 资源 ， Wr 
供 某 种 服务 。 例 如 ， 一 个 Web 服务 器 管理 了 一 组 磁盘 文件 ， 它 会 代表 客户 端 进行 检索 和 执行 。 一 个 
FTP 服务 器 就 管理 了 一 组 磁盘 文件 ， 它 会 为 客户 端 进行 存储 和 检索 相似 地 ， 一 个 电子 邮件 服务 名 
管理 了 一 些 文件 ， 它 为 客户 端 进行 读 和 更 新。 

客户 端 -服务 器 模型 中 的 基本 操作 是 事务 〈transaction) (图 12.1)。 一 个 客户 着 -服务 器 事务 由 
四 步 组 成 : 

1， 当 一 个 客户 端 需要 服务 时 ， 它 向 服务 器 发 送 一 个 请 求 ， 发 起 一 个 事务 。 例 如 ， 当 Web wit 
器 需要 一 个 文件 时 ， 它 就 发 送 一 个 请 求 给 Web ARF 28 o 

2. 服务 器 收 到 请 求 后 ， 解 释 它 ， 并 以 适当 的 方式 操作 它 的 资源 。 例 如 ， 当 Web IRI art ENX] 
览 占 发 出 的 请 求 后 ， 它 就 读 一 个 磁盘 文件 。 

3. 服务 器 给 客户 端 发 送 一 个 响应 ， 并 等 待 下 一 个 请 求 . 例如， Web 服务 器 将 文件 发 送 回 客户 闻 。 

4. 客户 端 收 到 响应 并 处 理 它 。 例 如 ， 当 Web 浏览 器 收 到 来 自 服务 器 的 一 页 后 ， 它 就 在 屏幕 上 
显示 此 页 。 


4. RP ig 
处 理 响 应 


图 12.1 ”一 个 客户 端 -服务 器 事务 


认识 到 客户 端 和 服务 器 是 进程 , 而 不 是 在 本 上 下 文中 常 被 称 为 的 机 器 或 者 主机 , 这 是 很 重要 的 。 
一 台 主 机 可 以 同时 运行 许多 不 同 的 客户 端 和 服务 器 ， 而 且 客 户 端 和 服务 器 的 事务 可 以 在 同一 人 台 或 是 
不 同 的 主机 上 。 盛 论 客户 端 和 服务 器 是 怎样 映射 到 主机 上 的 ， 客 户 端 -服务 器 模型 是 相同 的 。 


劳 注 ， 客 刻 端 -服务 器 事务 与 数据 库 事务 


客户 端 -服务 器 事务 不 是 数据 库 事 务 ， 而 且 也 没有 数据 库 事 务 的 特性 ， 例 如 原子 性 。 在 我 们 的 上 
下 文中 ， 事 务 仅仅 是 客户 端 和 服务 器 之 间 执 行 的 一 系列 步 又。 
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12.2 网 络 


客户 端 和 服务 器 通常 运行 在 不 同 的 主机 上 ， 并 且 通 过 计算 机 网 络 的 硬件 和 软件 资源 来 通信 。 网 
络 是 复 洒 的 系统 ， 在 这 里 我 们 只 想 了 解 一 点 皮毛 。 我 们 的 目标 是 从 程序 员 的 角度 给 你 一 个 可 工作 的 
思考 模型 。 

对 于 一 个 主机 而 言 ， 网 络 只 是 又 一 种 VO 设备 ， 作 为 数据 源 和 数据 接收 方 ， 如 图 12.2 所 示 。 一 
个 插 到 VO 总 线 扩 展 槽 的 适配器 提供 了 到 网 络 的 物理 接口 。 从 网 络 上 接收 到 的 数据 从 适配器 经 过 LO 
和 存储 器 总 线 拷贝 到 存储 器 ， 和 典型 地 是 通过 DMA (直接 存储 器 存 取 方式 ) 传送 。 相 似 地 ， 数 据 也 


nd 
系统 总 线 。 ”存储 器 总 线 
| 


能 从 存储 器 拷贝 到 网 络 。 
CPU 芯片 
寄存 器 文件 


O A 
桥接 口 


ra 上 


磁盘 控制 路 


wee 图 形 适配器 


Ri 。 键盘 TRAS 


12.2 一 个 网 络 主机 的 硬件 组 成 


物理 上 而 言 ， 网 络 是 一 个 按照 地 理 远近 组 成 的 层次 系统 。 最 低层 是 LAN (Local Area Network, 
局 域 网 )， 范 围 在 一 个 建筑 或 者 校园 和 内。 迄今 为 止 ， 最 流行 的 局 域 网 技术 是 以 太 网 (Ethernet),， 它 是 
由 施乐 公司 帕 洛 阿尔 托 研 究 中 心 (Xerox PARC) 在 20 世纪 70 年 代 中 期 提出 的 。 以 太 网 技术 被 证 明 
在 3Mb/s~ 1Gb/s 之 间 都 是 相当 适合 的 。 

一 个 以 太 网 段 (Ethernet segment) 包括 一 些 电缆 〈 通 常 是 双 绞 线 ) 和 一 个 叫做 集线器 的 小 盒子 ， 
如 图 12.3 所 示 。 以 太 网 段 通常 服务 于 一 个 小 的 区 域 ， 例 如 某 建筑 物 的 一 个 房间 或 者 -一 个 楼 层 。 每 根 
电缆 都 有 相同 的 最 大 位 带宽 ， 典 型 的 是 100Mb/s 或 者 1Gb/s。 一 端 连 楼 到 主机 的 适配器 ， 而 另 一 站 
则 连接 到 集线器 的 一 个 端口 上 。 集 线 器 不 加 分 辨 地 将 从 一 个 端口 上 收 到 的 每 个 位 复制 到 其 他 所 有 的 
iO. Alt, 每 台 主 机 都 能 看 到 每 个 位 。 

每 个 以 太 网 适配器 都 有 一 个 全 球 惟一 的 48 位 地 址 , 它 存 储 在 这 个 适配器 的 永久 性 存储 器 上 。 一 
台 主 机 可 以 发 送 一 段位 ， 称 为 帧 (frame)， 到 这 个 网 段 内 其 他 任何 主机 。 每 个 帧 包括 一 些 固定 数量 
INA (header) 位 ， 用 来 标识 此 帧 的 源 和 目的 地 址 以 及 此 帧 的 长 度 ， 此 后 紧 随 的 就 是 数据 位 的 有 效 
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载荷 《payload)。 每 个 主机 适配器 都 能 看 到 这 个 帧 ， 但 是 只 有 上 日 的 主机 实际 读 取 和 它 。 


图 12.3 ”以 太 网 分 段 


使 用 一 些 电缆 和 叫做 网 桥 (bridge) 的 小 盒子， 多 个 以 太 网 段 可 以 连接 成 较 大 的 局 域 网 ， 称 为 
桥接 以 太 网 (bridged Ethernet), Wn 12.4 所 示 。 桥 接 以 太 网 能 够 跨越 整个 建筑 物 或 者 校区 。 仕 一 个 
桥接 以 太 网 里 ，……: 些 电缆 连接 网 桥 与 网 桥 ， 而 另外 -一些 连接 网 桥 和 集 线 占 。 这 些 电缆 的 审 宽 可 以 是 
不 辐 的 。 在 我 们 的 示例 中 ， 网 桥 与 网 桥 之 间 的 电 绕 有 1Gb/s ATT HE. TT POA EAT AR oS ZT A 
的 市 宽 却 是 100Mbys 。 

A B 


一 


主机 EBL EHL | 十 机 | 主机 


X 
E 集线器 | 
KEk 100 Mb/s 100 Mb/s san 


1 Gb/s —-— -l - 
+ 机 | 主机 
ge op ae 100 Mb/s oe | 100 Mb/s 集线器 | 
+ 机 | | 主机 | EBL | I Hl | KL | 
C 


图 12.4 桥接 以 太 网 


网 桥 比 集线器 更 充分 地 利用 了 电缆 带宽 。 利 用 一 种 聪明 的 分 配 算法 ， 它 们 随 淖 时 间 日 动 学 习 哪 个 
主机 可 以 通过 哪个 端口 吕 达 ， 然 后 作 有 必要 时 ， 有 选择 地 将 帧 从 一 个 端口 撕 贝 到 其 他 端口 。 例 如 ， 如 
REAL A 屎 送 - 个 帆 到 辣 网 段 上 的 主机 B， 当 该 帧 到 达 网 桥 X SA OI, ERR, Alri 
符 了 其 他 网 段 上 的 市 宽 。 然 而 ， 如 果 主 机 A 发 送 一 个 帧 到 一 个 不 回 网 段 上 的 主机 C， 财 么 网 桥 X LIS 
把 此 帆 找 贝 到 和 网 桥 YY 相连 的 端口 上 ， 网 桥 Y 会 只 把 此 帧 找 贝 到 与 主机 C 的 网 段 连 接 的 端口 。 

为 了 简化 局 域 网 的 表示 ,我 们 将 把 集线器 和 网 桥 以 及 连接 它们 的 电缆 甫 成 - - 根 水 平 线 , 如 图 12.5 
所 水 。 

仁 肢 次 的 更 总 级 别 中 ， 多 个 不 车 容 的 局 域 网 可 以 通过 叫做 路 由 器 (router) 的 特殊 计算 机 连接 起 
来 ， 组 成 一 个 internet (五 联网 络 )。 


1 此 处 原文 为 网 桥 C，bridge C's， 但 我 认为 应 该 是 卡 机 C，host C's， 泽 者 


网 络 编程 695 


12.5 局 域 网 的 概念 视图 


Sit: Internet 和 internet 
我 们 经 常用 小 写字 母 的 internet 描述 一 般 概 念 , 而 用 大 写字 母 的 Internet 来 描 述 一 种 特殊 的 实际 
应 用 ， 也 就 是 所 谓 的 全 球 IP 因特网 . 


每 台 路 由 器 对 于 它 所 连接 的 每 个 网 络 都 有 一 个 适配器 (端口 )， 路 由 器 也 能 连接 高 速 点 到 点 电话 
连接 ， 这 是 WAN (Wide-Area Network， 广 域 网 ) 的 一 种 示例 ， 之 所 以 这 么 叫 是 因为 它们 覆盖 的 地 
理学 围 比 局 域 网 的 大 。 一 般 而 言 ， 路 由 器 可 以 用 来 由 各 种 局 域 网 和 广域网 构建 internet (互联 网 络 )。 
例如 ， 图 12.6 展示 了 一 个 intemet 示例 ，3 台 路 由 器 连接 了 一 对 局 域 网 和 广域网 。 


| 主机 


”i ie a 


ih 


PES i 
二 


WAN WAN 


12.6 一 个 小 型 的 internet (互联 网 络 ) 
蝎 个 局 域 网 和 购 个 广域网 用 三 台 路 由 器 连接 起 来 。 


il ows 
LAN 


intemet (互联 网 络 ) 至 关 重 要 的 特性 是 ， 它 能 由 采用 完全 不 同和 不 兼容 技术 的 各 种 局 域 网 入 
域 网 组 成 。 每 台 主 机 和 其 他 每 台 主机 都 是 物理 相连 的 ， 但 是 如 何 使 得 某 台 源 主 机 跨 过 所 有 这 些 不 兼 
容 的 网 络 发 送 数据 位 到 另 -一 台 目 的 主机 成 为 可 能 呢 ? 

解决 办 法 是 一 层 运行 在 每 台 主 机 和 路 由 器 上 的 协议 软件 ， 它 消除 了 不 同 网 络 之 问 的 差异 。 这 个 
软件 执行 一 种 协议 ， 控 制 主机 和 路 由 器 如 何 协同 工作 来 实现 数据 传输 。 这 种 协议 必需 提供 两 种 基本 
He JJ: 

e FB Ht. ANF) RSE AR AAS] AOS RAS TG ROK EBL Ebh. intenet (互联 网 

络 ) 协议 通过 定义 一 种 一 致 的 主机 地 址 格式 ， 消 除了 这 些 差异 。 每 台 主 机 会 被 分 配 至 少 一 
个 这 种 internet 地 址 (internet address)， 这 个 地 址 惟一 地 标识 了 它 。 
。 传送 机 制 。 在 电线 上 编码 位 和 将 这 些 位 封装 成 帧 方面 ， 不 同 的 网 络 互联 技术 有 不 同 的 和 不 
兼容 的 方式 - internet (互联 网 络 ) 协议 通过 定义 一 种 把 数据 位 捆扎 成 不 连续 的 组 块 Cchunk) 
也 就 是 色 一 一 的 统 一 方式 ， 从 而 消除 了 这 些 差 异 。 一 个 包 是 由 包头 (header) MAAR 
$T (payload) 组 成 的 ， 其 中 包头 括 包 的 大 小 以 及 源 主 机 和 目的 主机 的 地 址 ， 有 效 载 何 包 括 
从 源 主机 发 出 的 数据 位 。 

图 12.7 展示 了 一 个 主机 和 路 由 器 如 何 使 用 intemet (互联 网 络 ) 协 以 在 不 兼容 的 局 域 网 间 传 送 

数据 的 示例 。 这 个 intemet (互联 网 络 ) 示例 由 两 个 局 域 网 通过 一 台 路 由 器 连接 而 成 。 一 个 客户 端 运 
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行 在 主机 A 上 上 ， 主 机 A 5 LANI 相连 ， 它 发 送 了 一 串 数据 字 节 到 运行 在 主机 B ERRE m. E 
ALB MERE LAN? 上 。 这 个 过 程 有 8 个 基本 步骤 : 

1. 运行 在 主机 A 上 的 客户 端 进 行 了 一 个 系统 调用 , 从 客户 端的 虚拟 地 址 空间 拷贝 数据 到 内 核 组 
冲 区 .。 

2. 主机 A 上 的 协议 软件 通过 在 数据 前 附加 internet (互联 网 络 ) 包头 和 LANI1 帧 头 ， 创 建 了 一 
个 LANI1 的 帧 。internet (互联 网 络 ) 包头 寻 址 到 internet (互联 网 络 ) 主机 B。LAN1 tik ht Ee 
由 器 。 然 后 它 传 送 此 帧 到 适配器 。 注 意 ，LANI1 帧 的 有 效 载 倚 是 一 个 internet〈 互 联网 络 ) 包 ， 其 有 
效 载 傈 是 实际 的 用 户 数据 。 这 种 封装 是 基本 的 网 络 互联 方法 之 一 。 

3. LAN1 适配器 拷贝 该 帧 到 网 络 上 。 

4， 当 此 巾 到 达 路 由 器 时 ， 路 由 器 的 LAN] 适配器 从 电 绕 上 读 取 它 ， 并 把 它 传送 到 协议 软件 。 

5. 路 由 器 从 internet 包头 中 提取 出 目的 internet 地 址 ， 并 用 它 作 为 路 由 表 的 索引 , 确定 同 嘟 里 转 
发 这 个 包 ， 在 本 例 中 是 LAN2。 路 由 器 剥落 旧 的 LANI 的 帧 头 ， 加 上 寻 址 到 主机 了 的 新 的 LAN2 帧 
头 ， 并 把 得 到 的 帧 传送 到 适配器 。 

6. 路 由 器 的 LAN2 适配器 拷贝 该 帧 到 网 络 上 。 

7. 当 此 帧 到 达 主 机 B 时 ， 它 的 适配器 从 电缆 上 读 到 此 帧 ， 并 将 它 传 送 到 协议 软件 。 

8. 最 后 ,主机 B 上 的 协议 软件 剥落 包头 和 帧 头 。 当 服务 器 进行 一 个 读 取 这 些 数据 的 系统 调用 时 ， 
协议 软件 最 终 将 得 到 的 数据 拷贝 到 服务 器 的 虚拟 地 址 空间 。 

主机 A 
客户 端 


A TA FH2 
对 


pes A E ae a cee EL 
= 


| 协议 软件 | 


12.7 在 internet (互联 网 络 ) 上 ， 数 据 是 如 何 从 一 台 主 机 传送 到 另 一 台 主 机 的 


关键 词 ， PH: internet (互联 网 络 ) 包头 ，FHI，LANI 的 帧 头 ，FH2: LAN? W biek. 


当然 ， 在 这 里 我 们 掩盖 了 许多 复杂 的 问题 。 如 果 不 同 的 网 络 有 不 同 帧 大 小 的 最 大 值 ， 该 怎么 办 
Me? 路 由 器 如 何 知道 往 哪里 转发 帧 昵 ? 当 网 络 拓扑 变化 时 ， 如 何 通知 路 由 器 ? 如 果 一 个 包 担 失 了 又 
会 如 何 呢 ? 虽然 如 此 ， 我 们 的 示例 抓 住 了 internet (互联 网 络 ) 思想 的 精 敌 ， 封 装 是 关键 。 
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12.3 SE IP 因特网 


全 球 IP 因特网 是 internet (互联 网 络 ) 最 著名 和 最 成 功 的 实现 。 从 1960 年 起 ， 它 就 以 这 样 或 那 
样 的 形式 存在 了 。 虽 然 因 特 网 的 内 部 体系 结构 复杂 而 且 不 断 变化 ， 但 是 自从 20 世纪 80 年 代 早期 以 
来 , 客户 端 -服务 器 应 用 的 组 织 就 一 直 保 持 相 当 的 稳定 。 图 12.8 展示 了 一 个 因特网 客户 端 -服务 器 应 
用 程序 的 基本 硬件 和 软件 组 织 。 


互联 网 络 客户 端 主机 LRA RA EEN 


| TcPnp | 内 核 代 三 | teeme | 


全 球 PAKK 


图 12.8 一 个 因特网 应 用 程序 的 硬件 和 软件 组 织 


每 台 因 特 网 主机 都 运行 实现 TCP/IP (Transmission Control Protocol/Internet Protocol, 444143 
制 协议 /互联 网 络 协议 ) 的 软件 ， 几乎 每 个 现代 计算 机 系统 都 支持 这 个 协议 。 因特网 的 客户 端 和 服 
务 器 混合 使 用 套 接 字 接 口 函 数 和 Unix VO 消 数 来 进行 通信 (我们 将 在 12.4 节 中 介绍 套 接 字 接口 )。 
套 接 字 函 数 典 型 地 是 作为 系统 调用 来 实现 的 ， 这 些 系统 会 陷入 内 核 ， 并 调用 各 种 内 核 模式 的 
TCP/IP KX. 

TCP/IP 实际 是 一 个 协议 族 ， 其 中 每 一 个 都 提供 不 同 的 功能 。 例如 ,IP 协议 提供 基本 的 命名 方法 
和 带 送 机 制 |， 这 种 递送 机 制 能 够 从 一 台 因 特 网 主机 往 其 他 主机 发 送 包 ， 也 叫做 数据 报 (datagram). 
IP 机 制 从 某 种 意义 上 而 言 是 不 可 靠 的 ， 因 为 ， 如 采 数 据 报 在 网 络 中 丢失 或 者 重复 ， 它 并 不 会 恢复 。 
UDP 《不 可 靠 数 据 报 协议 ) 稍微 扩展 了 IP 协议 ， 这 样 :一 来 ， 包 可 以 在 进程 间 而 不 是 在 主机 间 传 送 。 
TCP 古 一 个 建筑 在 他 之 上 的 复杂 协议 , 提供 了 进程 间 可 靠 的 全 双 工 (双向 的 ) 连接 。 为 了 简化 我 们 
的 讨论 ， 我 们 将 TCP/P 看 做 是 一 个 单独 的 整体 协议 。 我 们 将 不 讨论 它 的 内 部 工作 ， 只 讨论 TCP 和 
IP 为 应 用 程序 提供 的 某 些 基本 功能 。 我 们 将 不 讨论 UDP. 

从 程序 员 的 角度 ， 我 们 可 以 把 因特网 看 做 -个 世界 范围 的 主机 集合 ， 满 足以 下 特性 : 

。 主机 集合 被 映射 为 一 组 32 位 的 IP 地 址 。 

o 这 组 IP 地址 被 映射 为 一 组 称 为 因特网 域名 Internet domain name) 的 标识 。 

© 一 个 因特网 主机 上 的 进程 能 够 通过 一 个 连接 (connection ) 和 任何 其 他 因特网 主机 上 的 进程 

通信 < 
下 三 区 将 更 详细 地 讨论 这 些 基本 的 因特网 概念 。 
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12.3.1 IP 地址 
个 IP hE -个 32 位 无 符号 整数 。 网 络 程序 将 IP 地 址 存放 在 如 图 12.9 A a) IP 地 址 结 
Hy} 
netinet/in.h 
/* Internet address structure */ 
Struct in_addr { 
unsigned int s_addr; /* network byte order (big-endian) */ 
l; 
netinet/in,h 


图 12.9 IP 地 址 结构 


劳 注 ， 为 什么 要 用 结构 来 鼻 放 标量 IP 地 址 ? 
把 一 个 标量 地 址 育 放 在 结构 中 ， 是 套 接 字 接口 早期 实现 的 不 六 产物 。 AIP 地 址 定义 一 个 标量 类 
型 该 更 有 意义 ， 但 是 现在 更 改 已 经 太 迟 了 ， 因 为 已 经 有 大 量 应 用 是 基于 此 的 。 


因为 因特网 主机 可 以 有 不 同 的 主机 字 节 顺序 , TCP/IP 为 任意 整数 数据 项 定义 三 - 致 的 网 络 字 节 
排序 (network byte order) (大 端 字 节 顺序 )， 例 如 IP 地 址 ， 它 放 在 包头 中 ， 通 过 网 络 。 在 IP 地 址 结 
构 中 仔 放 的 地 址 总 是 以 (大 器 法 ) 网 络 字 必 顺序 存放 的 ， 即 使 主机 字 WIF Cost byte order) 是 小 
Wiz. Unix 提供 了 下 面 这样 的 函数 在 网 络 和 主机 字 节 顺序 间 实 现 转换 : 


#include <netinet/in.h> 


unsigned long int htonl(unsigned long int hostlong) ; 
unsigned short int htons(unsigned short int hostshort) ; 


返回 : 按照 网 络 守节 顺序 的 值 。 
unsigned long int ntohl(unsigned long int netlong!; 
unsigned short int ntohs(unsigned short int netshort}); 


返回 : 按照 主机 守节 顺序 的 值 。 

hotnl KROK 32 位 整数 由 主机 字 和 节 有 顺序 转换 为 网 络 字 季 顺序 。ntohl eh BO 32 位 整数 从 网 络 字 
出 序 转换 为 主机 字 节 。htons 和 ntohs eh BOA 16 位 的 整数 执行 相应 的 转换 。 

PP 地 址 是 以 总 分 十 进 制 表 示 法 表示 ， 这 里 ， 每 个 字 He tA, OPEL AGA HAt 
£ WISP FF. BIEN, 128.2.194.242 就 是 地 址 0x8002c2f2 的 点 分 十 进 制 表 涉 。 丰 Linux 系统 |:.， 你 能 
够 使 用 HOSTNAME 命令 来 设置 你 自己 主机 的 点 分 十 进 制 地 址 : 

linux> hostname -1 

128.2.194.242 

因特网 程序 使 用 inet_aton 和 inet_ntoa pki BOK SHE IP Hy bE AN ca tae e fa) SER: 


#include <arpa/inet.h> 


int inet_aton(const char *cp, struct in_addr *inp):; 


返回 : SRAM AL, SHU O. 


char *inet_ntoa(struct in_addr in): 


返回 : 指向 点 分 十 进 制 事 的 指针 。 
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OE 9 
inet_aton PA BCR} —“S KA} TEER Cop) 转换 为 -- 个 网 络 字 PIRH 下 地 址 (inp)。 相 似 地 ， 


inet_ntoa 函数 将 -一 个 网 络 字 节 顺 序 的 下 地 址 转换 为 它 所 对 应 的 点 分 十 进 制 串 。 注 意 ， 对 inet_aton 
的 调用 传递 的 是 指向 结构 的 指针 ， 而 对 inet_ntoa 的 调用 传递 的 是 结构 本 身 。 


Sit: ntoa 和 aton 是 什么 意思 ? 
“n” 表 示 的 是 网 络 (network), “a” 表示 应 用 ( application )， 而 “to” 表 示 转 换 。 


练习 题 12.1 
完成 下 表 : 


wm | 
estes 
C 
EE 
| 
ee o 


205.188.146.23 


练习 题 12.2 


编写 程序 hex2dd.c, 它 将 它 的 十 六 进 制 参数 转换 为 点 分 十 进 制 串 并 打印 出 结果 ， 例如 
unix> ./hex2dd 0x8002c2£f2 
26220194 2249 


练习 题 12.3 


编写 程序 dd2hex.c, 它 将 它 的 点 分 十 进 制 参数 转换 为 十 六 进 制 数 并 打印 出 结果 。 例如 
unix> ./dd2hex 128.2.194.242 
0x8002c2f2 


12.3.2 因特网 域名 

本 特 网 客户 端 和 服务 器 互相 通信 时 使 用 的 是 IP 地 址 。 然而， 对 于 人 们 而 言 ， 大 整数 是 很 难 记 住 
的 ， 所 以 因特网 也 定义 了 一 -组 更 加 入 性 化 的 域名 (domain name), 以 及 一 种 将 域名 映射 到 IP 地 址 的 
饥 制 。 域 名 是 一 串 用 句点 分 隔 的 单词 (字母 、 数 字 和 破 折 号 )， 例 如 


kittyhawk.cmcl1 .cs.cmu.edu 


域名 集合 形成 了 一 个 层次 结构 ， 每 个 域名 编码 了 它 在 这 个 层次 中 的 位 置 。 通 过 - 个 示例 你 将 很 容易 
理解 这 点 。 图 12.10 展示 了 域名 层次 结构 的 一 部 分 。 层次 结构 被 表示 为 一 棵 树 。 树 的 节点 表示 域名 ， 
反问 到 根 的 路 径 形 成 了 域名 。 子 树 称 为 子 域 (subdomain )。 后 次 结构 中 的 第 一 层 是 一 个 未 命名 的 根 
节操 。 下 一 层 是 一 组 第 一 层 域 名 (first-level domain names), H JES FH R ICANN(Internet Corporation 
for Assigned Names and Numbers， 因 特 网 分 配 名 字数 字 协 会 ) 定义 。 常 见 的 第 一 层 域名 包括 com、 


edu. gov, org 和 net. 


下 一 层 是 第 二 层 (second-level) 域名 ， 例 如 cmu.edu， 这 些 域名 是 由 ICANN 的 各 个 授权 代理 
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按照 先 到 先 服务 的 基础 分 配 的 。 一 旦 一 个 组 织 得 到 了 一 个 第 二 层 域名 ， 那 么 它 就 可 以 在 这 个 子 域 中 
创建 任何 新 的 域名 了 。 


不 命名 的 根 
mil edu gov com 第 一 层 域名 
AN \ 第 二 层 域名 
mit cmu berkeley amazon 
cs ece WWW 
JN 208.216.181.15 
cmcl pdl 


kittyhawk imperial 
128.2.194.242 128.2.189.40 


M1210 ”因特网 域名 层次 结构 的 一 部 分 
因特网 定义 了 域名 集合 和 IP 地 址 集合 之 间 的 映射 。 直 到 1988 年 ， 这 个 映射 都 是 通过 一 个 叫做 
HOSTS.TXT 的 文本 文件 来 手工 维护 的 。 从 那 以 后 ， 这 个 映射 是 通过 分 布 世界 范围 内 的 数据 库 一 一 称 
为 DNS (域名 系统 ) 一 一 来 维护 的 。 从 概念 上 而 言 ，DNS 数据 库 由 上 百 万 的 图 12.11 所 示 的 主机 条 目 
结构 《host entry structure 〉 组 成 的 ， 其 中 每 条 定义 了 一 组 域名 (一 个 官方 名 字 和 一 组 别名 〉 和 一 组 IP 
地 址 之 间 的 映射 。 从 数学 意义 上 讲 ， 你 可 以 认为 ， 每 条 主机 条 目 就 是 一 个 域名 和 下 地址 的 等 价 类 ，。 


netdb.h 
/* DNS host entry structure */ 
Struct hostent { 
char *h_name; /* official domain name of host */ 
char **h_aliases; /* null-terminated array of domain names */ 
int h_addrtype; /* host address type (AF_INET) */ 
int h_length; /* length of an address, in bytes */ 
char **h_addr_list; /* null-terminated array of in_addr structs */ 
}; 
netdb.h 


12.11 DNS 主机 条 目 结 构 


因特网 应 用 程序 通过 调用 gethostbyname 和 gethostbyaddr 函数 ， 从 DNS 数据 库 中 检索 任意 的 主 
机 条 目 。 


#include <netdb.h> 


struct hostent *gethostbyname(const char *name); 
退回 : 老成 功 则 为 非 NULL 484+, 489) NULL 指针 ， 同 时 设置 h_errno. 
Struct hostent *gethostbyaddr(const char *addr, int len, O); 


返回: ERAR AE NULL, ENA NULL 指针 ， 同 时 设置 h_ermo. 
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gethostbyname AREARE name 相关 的 主机 条 目 。gethostbyaddr 函数 返回 和 IP 地 址 addr 
相关 的 主机 条 目 。 第 二 个 参数 给 出 了 一 个 P 地址 的 字 节 长 度 , 对 于 目前 的 因特网 而 言 总 是 四 个 字 节 。 
对 于 我 们 的 要 求 来 说 ， 第 三 个 参数 总 是 零 。 

我 们 可 以 借助 于 图 12.12 中 的 HOSTINFO 程序 ， 来 挖掘 一 些 DNS 映射 的 特性 ， 这 个 程序 从 命 
令 行 读 取 一 个 域名 或 点 分 十 进 制 地 址 ， 并 显示 相应 的 主机 条 有 目 。 


code/netp/hostinfo.c 


1 #include "csapp.h" 

2 

3 int main(int argc, char **argv) 

4 { 

5 char **pp; 

6 struct in_addr addr; 

7 struct hostent *hostp; 

8 

9 if (argc != 2) { 

10 fprintf(stderr, "usage: $s <domain name or dotted-decimal>\n", 
11 argv{[0]); 

12 exit(0); 

13 } 

14 

15 if (inet_aton(argv[1], &addr) != 0) 

16 hostp = Gethostbyaddr( (const char *)&addr, sizeof (addr), AF_INET) ; 
17 else 

18 hostp = Gethostbyname(argv[l]); 

19 

20 printf("official hostname: %s\n", hostp->h_name) ; 
21 

22 for (pp = hostp->h_aliases; *pp != NULL; pp++) 

23 printf("alias: %s\n", *pp); 

24 

25 for (pp = hostp->h_addr_list; *pp != NULL; pp++) { 
26 addr.s_addr = *((unsigned int *)*pp); 

27 printf ("address: %$s\n", inet_ntoa(addr)); 

28 } 

29 exit(0); 

30 } 


code/netpshostinfo.c 


12.12 检索 并 打印 DNS 主机 条 目 


每 全 因特网 主机 都 有 本 地 定义 的 域名 localhost， 这 个 域名 总 是 映射 为 本 地 回 送 地 址 (loopback 
address ) 127.0.0.1: 


unix> ./hostinfo localhost 
official hostname: localhost 
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alias: localhost.localdomain 
address: 127.0.0.1 


localhost 名 字 为 引用 运行 在 同一 台 机 器 上 的 客户 端 和 服务 器 提供 了 一 种 便利 和 可 移植 的 方式 ， 
这 对 调试 相当 有 用 。 我 们 可 以 使 用 HOSTNAME 来 确定 我 们 本 地 主机 的 实际 域名 : 


unix> ./hostname 
kittyhawk.cmcl.cs.cmu.edu 


在 最 简单 的 情况 中 ， 一 个 域名 和 一 个 IP 地 址 之 间 是 一 一 映射 : 


unix> ./hostinfo kittyhawk.cmcil.cs.cmu.edu 
official hostname: kittyhawk.cmcl.cs.cmu.edu 
address: 128.2.194.242 


然而 ， 在 某 些 情况 下 ， 多 个 域名 可 以 映射 为 同一 个 下 地址， 


unix> ./hostinfo cs.mit.edu 
official hostname: EECS.MIT. EDU 
alias: cs.mit.edu 

address: 18.62.1.4 


(ERO ATL 下， 多 个 域名 可 以 映射 到 多 个 IP 地 址 : 


unix> ./hostinfo www.aol.com 

official hostname: aol .com 

alias: www.aol.com 

address: 205.188.160.121 

address: 64.12.149.13 

address: 205.188.146.23 

最 后 ， 我 们 注意 到 某 些 合法 的 域名 没有 映射 到 任何 IP 地 址 : 

unix> ./hostinfo edu 

Gethostbyname error: No address associated with name 
unix> ./hostinfo cmcl.cs.cmu.edu 


Gethostbyname error: No address associated with name 


Sit: 82> RSME? 

因特网 软件 协会 (Internet Software Consortium, www.isc.org) 自从 1987 年 以 后 ， 每 年 进行 两 
次 因特网 域名 调查 .这 个 调查 , 通过 计算 已 经 分 配给 一 个 域名 的 IP 地 址 的 数量 来 估算 因特网 主机 的 
数量 ， 展 示 了 一 种 令 人 吃惊 的 趋势 。 自从 1987 年 以 来 ， 当 时 一 共 大 约 有 20 000 台 因 特 网 主机 ， 每 
年 主机 数量 都 大 概 会 翻 一 番 。 到 2001 年 6 月 ， 全 球 已 经 有 超过 120 000 000 台 因 特 网 主机 了 ， 


练习 题 12.4 

编译 图 12.12 中 的 HOSTINFO 程序 ， 然 后 在 你 的 系统 上 连续 运行 hostinfo.aolcom =X. 
A. 在 三 个 主机 条 目的 IP 地 址 顺序 中 ， 你 注意 到 了 什么? 

B. 这 种 顺序 有 何 作 用 ? 
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12.3.3 ”因特网 连接 

因特网 客户 端 和 服务 器 通过 在 连接 (connection) 上 发 送 和 接收 字 节 流 来 通信 。 从 连接 一 对 进程 
的 意义 上 而 言 ， 连 接 是 点 对 点 (point-to-point) 的 。 从 数据 可 以 同时 双向 流动 的 角度 来 说 ， 它 是 全 
双 工 〈full-duplex) 的 。 并 且 从 一 一 除了 一 些 如 粗心 的 耕 铀 机 操作 员 切 断 了 电线 引起 灾难 性 的 失败 以 
外 一 一 由 源 进程 发 出 的 字 节 流 最 终 被 目的 进程 以 它 发 出 的 顺序 收 到 它 的 角度 来 说 ， 它 也 是 可 靠 的 。 

EEF (socket) 是 连接 的 端点 (end-point)。 每 个 套 接 字 都 有 相应 的 套 接 字 地 址 ， 是 由 一 
特 网 地 址 和 一 个 16 位 的 整数 端口 组 成 的 , 用 “地 址 : 问 口 ”来 表示 。 当 客户 端 发 起 一 个 连接 请 求 时 ， 
客户 羔 套 接 字 地 址 中 的 端口 是 由 内 核 自 动 分 配 的 ， 称 为 临时 端口 (ephemeral port)。 然 而 ， 服 务 器 
套 接 字 地 址 中 的 端口 通常 是 某 个 知名 的 端口 ,是 和 服务 对 应 的 。 例如 ,Web 服务 器 通常 使 用 端口 80, 
而 电子 邮件 服务 器 使 用 端口 23。 在 Unix 机 器 上 ， 文 件 /etc/services 包含 一 张 这 台 机 器 提供 的 服务 以 
及 它们 的 知名 端口 号 的 综合 列表 。 

一 个 连接 是 由 它 两 端的 套 接 字 地 址 惟一 确定 的 。 这 对 套 接 字 地 址 叫做 套 接 字 对 (socket pair), 
由 下 列 三 元 组 来 表示 的 : 


(cliaddr:clipart, servaddr: servport) 


其 中 cliaddr 是 客户 端的 下 地 址 ,cliport 是 客户 端的 端口 ,servaddr 是 服务 器 的 IP 地 址 ,而 servport 
是 服务 器 的 端口 。 例 如 , 图 12.13 展示 了 一 个 Web 客户 端 和 一 个 Web 服务 器 之 间 的 连接 。 在 这 个 示 
例 中 ，Web 客户 端的 套 接 字 地 址 是 


128.2.194.242:51213 


客户 端 套 接 字 地 址 ARH ae EB Hh dk 
128.2.194.242:51213 208.216.181.15:80 


(EEE a a eg TT 


3 连接 套 接 字 对 
(128.2194.242:51213, 208.216.181.15:80) : .i 


ET 服务 器 主 机 地 址 
128.2.194.242 208.216.181.15 


图 12.13 因特网 连接 的 分 析 


其 中 端口 号 51213 是 内 核 分 配 的 临时 端口 号 。Web 服务 器 的 套 接 字 地 址 是 : 

208.216.181.15:80 

其 中 端口 号 80 是 和 Web 服务 相关 联 的 知名 端口 号 ， 给 定 这 些 客户 端 和 服务 器 套 接 字 地 址 ， 客 
户 疾 和 服务 器 之 间 的 连接 就 由 下 列 套 接 字 对 惟一 确定 了 : 

(128.2.194.242:51213, 1208.216.181.15:80) 
T: ARRAREN 

因特网 是 政府 、 学 校 和 工业 界 合作 的 最 成 功 的 示例 之 一 。 它 成 功 的 因素 很 多 ， 但 是 我 们 认为 有 
两 点 尤其 重要 : 美国 政府 30 年 持续 不 变 的 投资 ， 以 及 充满 激情 的 研究 人 员 对 麻 省 理工 大 学 的 Dave 
Clarke 提出 的 “ 扯 略 一 至 和 能 用 的 代码 ”的 投入 ， 

因特网 的 种 子 是 在 1957 年 播 下 的 ， 其 时 ， 正 值 准 战 的 高 峰 ， 苏联 发 射 Sputnik, %—-WA its 
REE, ERTER. 作为 响应 ， 美 国政 府 创建 了 高 级 研究 计划 署 (ARPA )， 其 任务 就 是 重建 美国 . 


704 第 12 章 


在 科学 与 技术 上 的 领导 地 位 。1967 年 ，ARPA 的 Lawrence Roberts 提出 了 一 个 计划 ， 建 立 一 个 叫做 
ARPANET 的 新 网 络 。 第 一 个 ARPANET 节点 是 在 1969 年 建立 并 运行 的 。 到 1971 +, AY 13 个 
ARPANET 节点， 而 且 email 作为 第 一 个 重要 的 网 络 应 用 涌现 出 来 。 

1972 年 ，Robert Kahn 概括 了 网 络 互 联 的 一 般 原 则 : 一 组 互相 连接 的 网 络 ， 通 过 叫做 “路 由 器 ” 
HRRTRER “尽力 传送 基础 ”在 互相 独立 处 理 的 网 络 间 实 现 通信 。1974 年 ，Kahn 和 Vinton Cerf 
R&T TCP/IP 协议 的 第 一 本 详细 资料 ， 到 1982 年 它 成 为 了 ARPANET 的 标准 网 络 互 联 协议 。1983 
年 1 月 1 日 ARPANET 的 每 个 节点 都 切换 到 TCPAP, HSH IP 因特网 的 诞生 . 

1985 年 , Paul Mockapetris 发 明了 DNS, 有 1 000 多 台 因 特 网 主机 . 次 年 , 国家 科学 基金 会 (NSF ) 
用 56Kb/s 的 电话 线 连 接 了 13 个 节点 , 构建 了 NSFNET 的 骨干 网 . 其 后 在 1988 年 升级 到 1.5Mb/s T1 
的 连接 还 率 ，1991 年 为 45Mb/s T3 的 连接 速率 。 到 1988 年 ， 有 超过 50000 台 主 机 。1989 年 ， 原 始 
的 ARPANET 正式 退休 了 . 1995 年 , 已 经 有 几乎 10 000 000 台 因 特 网 主机 了 , NSF 取消 了 NSFNET， 
并 县 用 基于 由 一 打 左 右 的 公众 网 络 接 入 点 连接 的 私有 商业 骨干 网 的 现代 因特网 架构 取代 了 它 。 


12.4 EFKA 


BE FHEU (socket interface) 是 一 组 用 来 结合 Unix VO 函数 创建 网 络 应 用 的 函数 。 大 多 数 现代 
系统 上 都 实现 它 ， 包 括 所 有 的 Unix 变种 、Windows 和 Macintosh 系统 。 图 12.14 给 出 了 一 个 典型 的 
客户 帽 -服务器 事务 的 上 下 文中 的 套 接 字 接口 。 当 我 们 讨论 各 个 函数 时 ， 你 可 以 使 用 这 张 图 来 作为 
回 寻 图 。 


客户 端 AR ap 
open_clientfd 
connect rebel accept 


等 待 来 自 下 -个 
BF Sony APSE BT OK 


FOF 


"= rio_readlineb 


图 12.14 套 接 字 接 口 概述 


旁 注 ， 套 接 宇 接口 的 起 源 
套 接 字 接 口 是 加 州 伯克利 分 校 的 研究 人 员 在 20 世纪 80 年 代 早期 提出 的 。 因 为 这 个 原因 ， 它 也 
经常 被 叫做 伯克利 套 接 字 。 伯 克利 的 研究 者 使 得 套 接 字 接 口 适用 于 任何 底层 的 协议 。 第 一 个 实现 的 
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就 是 基于 TCP/IP 协议 的 ， 他 们 把 它 包 括 在 Unix 4.2 BSD HARE, HAJAS ERHRETZ, 
这 在 因特网 的 历史 上 是 一 个 重大 事件 几乎 一 夜 之 间 , 成 千 上 万 的 人 们 接触 到了 TCPYIP HE HARK 
码 ， 它 引起 了 巨大 的 兴趣 ， 并 激发 了 新 的 网 络 和 网 络 互联 研究 的 浪潮 . 


12.4.1 套 接 字 地 址 结构 
从 Unix 内 核 的 角度 来 看 ， 套 接 字 就 是 通信 的 端点 (end-point)。 从 Unix BPP RA, BR 
字 就 是 一 个 有 相应 描述 符 的 打开 文件 。 
因特网 的 套 接 字 地 址 存放 在 如 图 12.15 所 示 的 类 型 为 sockaddr_ in 的 16 字 节 结构 中 。 对 于 因 特 
网 应 用 ，sin_family 成 员 是 AF_INTE，sin_port 成 员 是 一 个 16 位 的 关口 号 ， 而 sin_addr 成 员 就 是 一 
个 32 位 的 焉 地址 。 下 地址 和 症 口 号 总 是 以 网 络 字 节 顺 序 (大 上 闯 法 ) 存放 的 。 
A sockaddr: socketbits.h (included by socket.h). sockaddr in: netinit/in.h 
/* Generic socket address structure (for connect,. bind, and accept) */ 
Struct sockaddr { 
unsigned short sa_family; /* protocol family */ 
char Sa_data[14]; /* address data. */ 
}; 


/* Internet-style socket address structure */ 
Struct sockaddr_in { 


unsigned short sin_family; /* address family (always AF_INET) */ 
unsigned short sin_port; /* port number in network byte order */ 
Struct in_addr sin_addr; /* IP address in network byte order */ 
unsigned char sin_zero[8]; /* pad to sizeof(struct sockaddr) */ 


sockaddr: socketbits.h (included by socket.h). sockaddr_in: netinit/in.h 
图 12.15 套 接 字 地 址 结构 


in_addr 结构 如 图 12.9 Brac. 


旁 注 ，_in 后 纺 意 昧 什么 ? 

in 后 绥 是 互联 网 络 (internet ) HRE, PRERA (ina) HWE. 

connect. bind 和 accept 消 数 要 求 一 个 指向 与 协议 相关 的 套 接 字 地 址 结构 的 指针 。 套 接 字 接 口 的 
研 计 者 面临 的 问题 是 ， 如 何 定义 这 些 图 数 ， 使 之 能 接受 各 种 类 型 的 套 接 字 地 址 结构 。 今 天 ， 我 们 可 
以 使 用 通用 的 void* 指 针 ， 那 时 在 C 中 并 不 存在 这 种 类 型 的 指针 。 解 决 办 法 是 定义 套 接 字 范 数 要 求 
一 个 指 同 通用 sockaddr 结构 的 指针 ， 然 后 要 求 应 用 程序 将 与 协议 特定 的 结构 的 指针 强制 转换 成 这 个 
通用 结构 。 为 了 简化 我 们 的 代码 示例 ， 我 们 跟随 Steven 的 指导 ， 定 义 下 面 的 类 型 ， 

typedef struct sockaddr SA; 


然后 无 论 何 时 我 们 需要 将 sockaddr_in 结构 强制 转换 成 通用 sockaddr 结构 时 ， 我 们 都 使 用 这 个 
类 型 (参见 图 12.16 的 第 20 行 的 了 示例)。 


12.4.2 socket 函数 
客户 端 和 服务 器 使 用 socket 函数 来 创建 一 个 套 接 字 描 述 符 (socket descriptor). 
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#include <sys/types.h> 
#include <sys/socket.h> 


int socket (int domain, int type, int protocol); 


返回 : SRAM HA RMA, Bh 4-1, 


在 我 们 的 代码 中 ， 我 们 总 是 带 这 样 的 参数 来 调用 socket HH: 

client fd=Socket (AF_INET, SOCK _ STREAM，0) ， 

其 中 ，AF_INET 表明 我 们 正在 使 用 因特网 ， 而 SOCK_STREAM 表示 人 套 接 字 是 因特网 连接 的 端 
kA Cend-point). socket 返回 的 clientfd 描述 符 仅 是 部 分 打开 ， 并 且 不 能 用 于 读 写 。 我 们 如 何 完成 打 
开 套 接 字 的 工作 ， 取 决 于 我 们 是 客户 端 还 是 服务 器 。 下 一 节 描 述 当 我 们 是 客户 端 时 如 何 完成 打开 让, 
接 字 的 工作 。 
12.4.3 connect 函数 

客户 端 是 通过 调用 connect 函数 来 建立 和 服务 器 的 连接 的 。 


#include <sys/socket .h> 


int connect (int sockfd, struct sockaddr *serv_addr, int addrlen ); 


返回 : 老成 功 则 为 0， 若 出 错 则 为 -1， 


connect 消 数 试图 与 套 接 字 地 址 为 serv_addr 的 服务 器 建立 一 个 因特网 连接 ， 其 中 addrlen 是 
sizeof(sockaddr_in). connect 函数 会 阻塞 ， 一 直到 连接 成 功 建立 或 是 发 生 错 误 。 如 果 成 功 ，sockfd # 
述 伯 现在 束 准 备 好 读 写 了 ， 并 且 ， 得 到 的 连接 是 由 套 接 字 对 

(x:y, serv_addr.sin_addr:serv_addr.sin_port) 

ANB, EE x 表示 客户 端的 IP 地 址 ， 而 y 表示 临时 端口 ， 它 惟一 地 确定 了 客户 端 主机 上 的 客户 端 
进程 。 
12.4.4 open_clientfd 函数 

我 们 发 现 将 socket 和 connect 函数 包装 成 一 个 叫做 open_clientfd 的 辅助 函数 是 很 方便 的 ， 客 户 

蜗 站 以 用 它 来 和 服务 器 建立 连接 。 


finclude "csapp.h" 


int open_clientfd(char *hostname, int port); 


返回 : SRAM AMA, Æ Unix 出 错 则 为 -1， 若 DNS 出 错 则 为 -2， 


open_clientfd 哨 数 和 服务 器 建立 一 个 连接 ,该 服务 器 运行 在 主机 hostname 上 ,并 在 知名 端口 port 
上 监听 连接 请 求 。 它 返回 一 个 打开 的 套 接 字 描 述 符 ， 该 描述 符 准备 好 了 ， 可 以 用 Unix LO A SUA 
入 和 输出 。 图 12.16 给 出 了 open_clientfd 的 代码 。 


code/src/csapp.c 
1 int open_clientfd(char *hostname, int port) 
2 { 
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3 int clientfd; 
4 Struct hostent *hp; 
5 Struct sockaddr_in serveraddr; 
6 
7 if ((clientfd = socket (AF_INET, SOCK_STREAM, 0)) < 0) 
8 return -1; /* check ermo for cause of error */ 
9 
10 /* Fill inthe server s IP address and port */ 
11 if ((hp = gethostbyname(hostname)) == NULL) 
12 return -2; /* check h_errno for cause of error */ 
13 bzero((char *) &serveraddr, sizeof (serveraddr)); 
14 serveraddr.sin_family = AF_INET; 
15 bcopy ( (char *)hp->h_addr, 
16 (char *)&serveraddr.sin_addr.s_addr, hp->h_length)}; 
17 serveraddr.sin_port = htons(port); 
18 
19 /* Establish a connection with the server */ 
29 If (connect (clientfd, (SA *) &sServeraddr, sizeof(serveraddr)) < 0) 
21 return -l1; 
2 return clientfd; 
23 } 


code/src/csapp.c 
12.16 open_clientfd: 和 服务 器 建立 连接 的 辅助 函数 

在 创建 了 套 接 字 朱 述 符 《第 7 行 ) 后 ， 我 们 为 服务 器 检索 DNS 主机 条 目 ， 并 拷贝 主机 条 目 中 的 
第 一 个 IPP 地 址 (已 经 是 按照 网 络 字 市 顺序 的 了 ) 到 服务 器 的 套 接 字 地 址 结构 (第 11 一 16 行 )。 在 用 
按照 网 络 字 节 顺 序 的 服务 器 的 知名 端口 号 初始 化 套 接 字 地 址 结构 (第 17 行 ) 之 后 , 我 们 发 起 了 一 个 
到 服务 器 的 连接 请 求 “ 第 20 行 )。 当 connect 函数 返回 时 ， 我 们 返回 套 接 字 描 述 符 给 客户 端 ， 客 户 
端 就 可 以 立即 开始 用 Unix VO 和 服务 器 通信 了 。 
12.4.5 bind 函数 

Se) FA EES eh bind, listen Al accept 被 服务 器 用 来 和 客户 端 建立 连接 。 


| #include <sys/socket.h> 


int bind(int sockfd, struct sockaddr *my_addr, int addrlen); 
返回 : SRAM AO, Ske) 4-1. 

bind RA EVA my_addr 中 的 服务 器 套 接 字 地 址 和 套 接 字 描 述 符 sockfd 联系 起 来 。 参 数 
addrlen 就 是 sizeof(sockaddr_in). 
12.4.6 listen 函数 

客户 端 是 友 起 连接 请 求 的 主动 实体 。 服 务 器 是 等 竺 来 自 客 户 端的 连接 请 求 的 被 动 实体 。 默 认 情 
况 下 ， 内 核 会 认为 socket 函数 创建 的 描述 符 对 应 于 主动 套 接 字 (active socket)， 它 存在 于 一 个 连接 
的 客户 痢 。 服 务 器 调用 listen 函数 告诉 内 核 ， 描 述 符 是 被 服务 器 而 不 是 客户 端 使 用 的 。 
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#include <sys/socket.h> 


int listen(int sockfd, int backlog); 


返回 : SRAM AO, SER A-1. 


listen RCH sockfd 从 一 个 主动 套 接 字 转 化 为 一 个 监听 套 接 字 (listening socket), HER ATV 
接受 来 自 客户 端的 连接 请 求 。backlog 参数 暗示 了 内 核 在 开始 拒绝 连接 请 求 之 前 , 应 该 放 入 队列 中 等 
行 的 未 完成 连接 请 求 的 数量 。backlog 参数 的 确切 含义 要 求 对 TCP/IP 协议 的 理解 ， 这 超出 了 我 们 讨 
论 的 范围 。 通 常 我 们 会 把 它 设置 为 一 个 较 大 的 值 ， 比 如 1024. 


12.4.7 open_listenfd & 
我 们 发 现 将 socket. bind 和 listen 哨 数 结合 成 一 个 叫做 open_listenfd 的 辅助 图 数 是 很 有 帮助 的 ， 
服务 器 可 以 用 它 来 创建 一 个 监听 描述 符 。 


#include "csapp.h" 


int open_listenfd(int port); 


返回 : BAAR) ABER, BS Unix 出 错 则 为 -1 


open_listenfd 也 数 打开 和 返回 一 个 监听 描述 符 ， 这 个 描述 符 准备 好 在 知名 闫 口 port 上 接收 连接 
请 求 。 图 12.17 Æa T open_listenfd 的 代码 。 在 我 们 创建 了 listenfd 套 接 字 描述 符 之 后 ， 我 们 使 用 
setsockopt MA AKERA WR) 来 配 置 服 务 器 ， 使 得 它 能 被 立即 终止 和 重启 。 默 认 时 ， 一 个 重 局 
的 服务 器 将 在 大 约 30 秒 内 拒绝 客户 端的 连接 请 求 ， 严 重地 阻碍 了 调试 。 


code/src/csapp.c 


1 int open_listenfd(int port) 

2 { 

3 int listenfd, optval=1; 

4 struct sockaddr_in serveraddr; 

5 

6 /* Create a socket descriptor */ 

7 1f ((listenfd = socket (AF_INET, SOCK STREAM, 0)) < 0) 
8 return -1; 

9 

10 /* Eliminates "Address already in use" error from bind. */ 

11 if (setsockopt(listenfd, SOL SOCKET, SO REUSEADDR, 

12 (const void *)&optval , sizeof(int)) < 0) 
13 return -1; 

14 

15 /* Listenfd will be an endpoint for all requests to port 

16 on any IP address for this host */ 

17 bzero((char *)&serveraddr, sizeof (serveraddr)); 

18 serveraddr.sin_family = AF_INET; 

19 serveraddr.sin_addr.s_addr = htonl(INADDR_ANY); 


20 serveraddr.sin_port = htons((unsigned short)port) ; 
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21 if (bind(listenfd, (SA *)&serveraddr, sizeof(serveraddr)} < 0) 
22 return -1; 
23 
24 /* Make it a listening socket ready to accept connection requests */ 
25 if (listen(listenfd, LISTENQ) < 0) 
26 return -1; 
7 return listenfd; 
28 } 


code/src/csapp.c 
12.17 open_listenfd: 打开 和 返回 一 个 监听 套 接 字 的 辅助 函数 


接 下 来 ， 我 们 初始 化 服务 器 的 套 接 字 地 址 结构 ， 为 调用 bind 函数 做 准备 。 在 这 个 例子 中 ， 我 们 
用 INADDR_ANY 通配符 地 址 来 告诉 内 核 这 个 服务 器 将 接受 来 自 这 全 主机 的 任何 IP 地 址 (第 19 行 ) 
和 到 知名 端口 port CS 2047) 的 请 求 。 注 意 ， 我 们 用 htonl 和 htons 函数 将 IP 地 址 和 端口 号 从 主机 
字 节 顺序 转换 为 网 络 字 节 顺序 。 最 后 ， 我 们 将 listenfd 转换 为 一 个 监听 描述 符 (第 25 行 )， 并 将 它 
返回 给 调用 者 。 


12.48 accept 函数 
A S48 tye AY accept 函数 来 等 竺 来 自 客户 端的 连接 请 求 : 


#include <sys/socket.h> 


int accept(int listenfd, struct sockaddr *addr, int *addrlen); 


返回 : SRM AA RRA, SRM) A-1. 


accept PA BLS FF OK AP m AE Be a oR AIA (AT IAF listenfd, 然后 在 addr 中 填写 客户 端的 套 
接 字 地 址 ， 并 返回 一 个 已 连接 描述 符 Cconnected descriptor)， 这 个 描述 符 可 被 用 来 利用 Unix I/O ei 
NSE Paes o 

KEUTER I A HR RAR FZ VBS KH AE RS fea] ee RB RRR. US HEIR TF EE Pa EE HR 
KAN Si. HH, ERE IK, HAPS RMB ERA. CRRA EEP it 
和 服务 器 之 间 已 经 建立 起 来 了 的 连接 的 一 个 端点 。 服 务 器 每 次 接受 连接 请 求 时 ， 都 会 创建 一 次 ， 只 
存在 于 服务 器 为 一 个 客户 端 服 务 的 过 程 中 。 

图 12.18 摘 绘 了 监 昕 擅 述 侍 和 已 连接 描述 符 的 和 角色。 在 第 一 步 中 ， 服 务 器 调用 accept， 等 待 连 
接 请 求 到 达 监 听 描 述 符 ， 具 体 地 我 们 设 定 为 描述 符 3。 回 忆 一 下 ， 描 述 符 0 一 2 预 留 给 了 标准 文件 。 

在 第 二 步 中 ， 客 户 端 调用 connect 攻 数 ， 发 送 一 个 连接 请 求 到 listenfd。 第 三 步 ，accept BAIT 
开 了 一 个 新 的 已 连接 描述 符 connfd (我 们 假设 是 描述 符 4)， 在 clientfd 和 connfd 之 间 建 立 连 接 ， 并 
HERE] connfd 给 应 用 程序 。 客 户 端 也 从 connect 返回 ， 在 这 一 点 以 后 ， 客 户 端 和 服务 器 就 分 别 
可 以 通过 读 和 写 clientfd 和 connfd 来 回 传送 数据 了 。 


Bit: AA AMAA BERRA ZRH? 
你 可 能 很 想 知 道 为 什么 套 接 字 接 口 要 区 别 监 听 描 述 符 和 已 连接 描述 符 。 乍 一 和 看， 这 像 是 不 必要 
的 复杂 化 。 然 而 ， 区 分 这 两 者 被 证 明 是 很 有 用 的 ， 因 为 它 使 得 我 们 可 以 建立 并 发 服务 器 ， 它 能 够 同 
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时 处 理 许 多 客户 端 连 接 。 例 如 ， 每 次 一 个 连接 请 求 到 达 监 听 描 述 符 时 ， 我 们 可 以 派生 (fork) 一 个 
新 的 进程 , 它 通过 它 的 已 连接 描述 符 与 客户 端 通信 。 你 将 在 第 13 章 中 学 习 更 多 关于 并 发 服务 器 的 内 
容 。 


listenfa (3) 
6 1. 服务 器 阻塞 在 accept, 等 待 监听 描 
客户 端 | mas | 述 符 listenfd 上 的 连接 请 求 。 


clientfd 


Ptr tL Pte Tice titi rire if titer et rit te ee eee ee ee ee ee ee 


Le 2. 客户 端 通过 调用 和 阻塞 在 connect, 
AP 创建 连接 请 求 。 


ea a a a FEE RR Ree a Re EEE EEE EEE EE g 


listenfd (3) 
I 3. 服务 器 从 accept 返回 connfd。 客 
ar Pi Pi AM connect 返回 。 现 在 在 clientfd 
和 connfd 之 间 已 经 建立 起 了 连接 。 


clientid connfd{4) 


图 12.18 监听 描述 符 和 已 连接 描述 符 的 角色 


12.49 echo 客户 端 和 服务 器 的 示例 

学 习 套 接 字 接口 的 最 好 方法 是 研究 示例 代码 。 图 12.19 展示 了 一 个 echo 客户 端的 代码 。 在 和 
服务 器 建立 连接 之 后 ， 客 户 端 进入 一 个 循环 ,反复 从 标准 输入 读 取 文本 行 ， 发 送 文本 行 给 服务 器 ， 
从 服务 器 读 取 啊 应 行 ， 并 输出 结果 到 标准 输出 。 当 fgets 在 标准 输入 上 遇 到 EOF 时 ， 或 者 因为 用 
Pte ak FRA ctrl-d, 或 者 因为 在 一 个 重 定向 的 输入 文件 中 用 尽 了 所 有 的 文本 行 时 , 循环 就 终止 。 

循环 终止 之 后 ， 客 户 端 关闭 描述 符 。 这 会 导致 发 送 一 个 EOF 通知 到 服务 器 ， 当 服务 器 从 它 的 
rio_readlineb 毅 数 收 到 一 个 为 零 的 返回 码 时 ， 就 会 检测 到 这 个 结果 。 在 关闭 它 的 描述 符 后 ， 客 户 端 
惑 终止 了 。 既 然 客 户 端 内 核 在 一 个 进程 终止 时 会 自动 关闭 所 有 打开 的 描述 符 ， 第 24 行 的 close 就 没 
有 必要 了 。 不 过 ， 显 式 地 关闭 我 们 已 经 打开 的 任何 描述 符 是 一 个 良好 的 编程 习惯 。 


code/netp/echoclient.c 


1 #include "csapp.h" 

2 

3 int main(int argc, char **argv) 
4 { 

5 int clientfd, port; 

6 char *host, buf [MAXLINE]; 

7 riot rio; 

8 

9 if (argc != 3) { 

10 fprintf(stderr, "usage: %s <host> <port>\n", argv[0]); 
11 exit(d); 

12 } 

13 host = argv[1]; 

14 port = atoi(argv[2])}; 
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15 

16 clientfd = Open_clientfd(host, port); 

17 Rio_readinitb(&rio, clientfd); 

18 

19 while (Fgets(buf, MAXLINE, stdin) != NULL) { 
20 Rio _writen(clientfd, buf, strlen(buf)); 
21 Rio_readlineb(&rio, buf, MAXLINE); 

22 Fputs (buf, stdout}; 

23 } 

24 Close (client fd); 

25 exit(0); 

26 } 


code/netp/echoclient.c 


12.19 echo 客户 端的 主 程序 


图 12.20 展示 了 echo 服务 器 的 主 程序 。 在 打开 监听 描述 符 后 ， 它 进入 一 个 无 限 循 环 。 每 次 御 环 
部 等 待 一 个 来 目 客 户 端的 连接 请 求 ， 输 出 已 连接 客户 端的 域名 和 P 地 址 ， 并 调用 echo 函数 为 这 些 
客户 端 服务 。 在 echo 程序 返回 后 ， 主 程序 关闭 已 连接 描述 符 。 一 旦 客户 端 和 服务 器 关闭 了 它们 各 目 
的 描述 符 ， 连 接 也 就 终止 了 。 


code/netp/echoserveri.c 
#3nclude "csapp.h" 


void echo(int connfd); 


int main(int argc, char **argv) 
{ 
int listenfd, connfd, port, clientlen; 
struct sockaddr_in clientadar; 
struct hostent *hp; 
char *haddrp; 
if (argc != 2) { 
fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 


O ~ 人 ] Nr w PY e 


\O 


} 
port = atoi(argv[1]}; 


listenfd = Open_listenfd(port) ; 
while (1) { 
clientlen = sizeof (clientaddr) ; 
connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 


NNN PRE PRP RPP RP PRR 
NP OWANHAOPWNHH O 


/* determine the domain name and IP address of the client */ 


23 hp = Gethostbyaddr((const char *)&clientaddr.sin_addr.s_addr, 
24 sizeof (clientaddr.sin_addr.s_addr),AF_INET) ; 
25 haddrp = inet_ntoa(clientaddr.sin addr); 

26 printf (“server connected to %s (%s)\n", hp->h name, haddrp) ; 


NO 
~] 
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28 echo(connfd); 
29 Close (connfd) ; 
30 } 

31 exit(0); 

32 ) 


code/netp/echoserveri.c 
12.20 ik echo 服务 器 的 主 程序 


注意 ， 我 们 的 简单 的 echo 服务 器 一 次 只 能 处 理 一 个 客户 端 。 这 种 类 型 的 服务 器 一 次 一 个 地 在 客 
Falak, MARRI (iterative server)。 在 第 13 章 中 ， 我 们 将 学 习 如 何 建立 更 加 复杂 的 并 
发 服务 器 (concurrent server)， 它 能 够 同时 处 理 多 个 客户 端 。 

最 后 ， 图 12.21 Ras T echo 程序 的 代码 ， 该 程序 反复 读 写 文本 行 ， 直 到 rio_readlineb RTA 
10 行 过 到 EOF. 


code/netp/echo.c 


1 #include "“csapp.h" 

2 

3 void echo(int connfd) 

4 { 

5 size_t n; 

6 char buf [MAXLINE]; 

7 rio_t rio; 

8 

9 Rio_readinitb(&rio, connfd); 

10 while((n = Rio_readlineb(é&rio, buf, MAXLINE)) != 0) { 
11 printf ("server received $d bytes\n", n}; 
12 R1O_writen(connfd, buf, n}; 

13 } 

14 } 


code/netp/echo.c 
图 12.21 读 和 各 回 送 文本 行 的 echo 函数 


Fit: EER h EOF 意味 什么 ? 

EOF 的 概念 常常 使 学 生 们 感到 迷 熙 ， 尤 其 是 在 因特网 连接 的 上 下 文中 首先， 我 们 需要 理解 其 
实 并 没有 像 EOF 字符 这 样 的 一 个 东西 。 进 一 步 来 说 ，EOF 是 由 内 核 检 测 到 的 一 种 条 件 。 应 用 程序 
在 它 接收 到 一 个 由 read 函数 返回 的 霍 返 回 码 时 ， 它 就 会 发 现 出 EOF 条 件 。 对 于 磁盘 文件 ， 当 前 文 
件 位 置 超出 文件 长 度 时 ， 会 发 生 EBOF。 对 于 因特网 连接 ， 当 一 个 进程 关闭 连接 在 它 的 那 一 端 时 ， 会 
发 生 BOF。 连 接 另 一 端的 进程 在 试图 读 取 流 中 最 后 一 个 字 节 之 后 ， 会 检测 到 EOF. 


12.5 Web 服务 器 


迄今 为 目 ， 我 们 已 经 讨论 了 一 个 简单 的 echo 服务 器 上 下 文中 的 网 络 编程 。 在 这 一 - 节 里 ， 我 们 将 
癌 你 展示 如 何 利用 网 络 编程 的 基本 概念 ， 来 创建 你 自己 的 虽然 小 但 是 功能 齐全 的 Web 服务 器 。 
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12.5.1 Web 基础 

Web 客户 端 和 服务 器 之 间 的 诡 互 用 的 是 一 个 基于 文本 的 应 用 级 协议 ， 叫 做 HTTP (Hypertext 
Transfer Protocol， 超 文本 传输 协议 )。HTTP 是 一 个 简单 的 协议 。 一 个 Web Fig CRE KS) 
打开 一 个 到 服务器 的 因特网 连接 ， 并 且 请 求 某 些 上 内容。 服务器 啊 应 所 请 求 的 内 容 ， 然 后 关闭 连接 。 
Xl AIM AA, HOC RARER RL. 

Web 服务 和 常规 的 文件 检索 服务 (例如 FTP) AAKRE? 主要 的 区 别 是 Web 内 容 可 以 用 一 
种 叫做 HTML (Hypertext Markup Language, 超 文 本 标记 语言 ) 的 语言 来 编写 ,一 个 HTML 程序 (页 ) 
包含 指令 《标记 符 )， 它 们 告诉 浏览 器 如 何 显 示 这 页 中 的 各 种 文本 和 图 形 对 象 。 例 如 ， 代 但 


<b> Make me bold! </b> 


告诉 浏览 器 用 粗 体 字 类 型 输出 <b> 和 </b> 标 记 之 间 的 文本 。 然 而 ，HTML 真正 的 强大 之 处 在 于 一 个 
页 面 可 以 包含 指针 (〈 超 链接 )， 这 些 指针 可 以 指向 存放 在 任何 因特网 主机 上 的 内 容 。 例 如 ， 一 个 格式 
如 下 的 HTML 行 


<a hreft="http://www.cmu.edu/index.html">Carnegie Mellon</a> 
告诉 浏览 器 高 亮 显示 文本 对 象 “Carnegie Mellon”, #AGIE—-PBEE, CHB FATE CMU Web 


服务 器 上 叫做 index.html 的 HTML 文件 ， 如 果 用 户 单 击 了 这 个 噩 亮 文本 对 象 ， 浏 览 器 从 CMU 服务 
器 中 请 求 相 应 的 HTML 文件 ， 并 显示 它 。 


Sit: AHR sem 

万 维 网 是 Tim Berners-Lee 创建 的 ， 他 是 一 位 在 瑞典 物理 实验 室 CERN (欧洲 粒子 物理 研究 所 ) 
工作 的 软件 工程 师 。1989 年 ，Berners-Lee 号 了 一 个 内 部 备忘录 ， 提 出 了 一 个 分 布 式 超 文 本 系统 ， 它 
能 连接 “用 链 组 成 的 笔记 的 网 ( web of notes with links 站， 提出 这 个 系统 的 目的 是 帮助 CERN 的 科 
学 家 共享 和 管理 信息 。 在 接 下 来 的 两 年 多 里 ，Berners-Lee 实现 了 第 一 个 Web 服务 器 和 Web 浏览 器 
之 后 ,在 CERN 内 部 以 及 其 他 一 些 网 站 中 ，Web 发 展 出 了 小 规模 的 拥护 者 。1993 年 一 个 关键 事件 发 
Æ T, Marc Andreesen (后 来 创建 了 Netscape ) 和 他 在 NCSA 的 同事 发 布 了 一 种 图 形 化 的 浏览 器 ， 
叫做 MOSAIC， 可 以 为 三 种 主要 的 平台 所 使 用 : Unix. Windows 和 Macintosh. Æ MOSAIC 发 布 后 ， 
对 Web 的 兴趣 爆发 了 , Web 网 站 以 每 年 10 倍 或 更 南 的 数量 增长 . 到 2002 年 , 已 经 有 超过 36 000 000 
个 世界 范围 的 Web 网 站 了 ( 源 自 www.netcraft.com 的 Netcraft Web 调查 )。 


12.5.2 Web 内 容 


对 于 Web 客户 端 和 服务 器 而 言 ， 内 容 是 与 一 个 MIME (Multipurpose Internet Mail Extensions, 
多 用 途 的 网 际 邮 件 扩 充 协 议 ) 类 型 相关 的 字 节 序列 。 图 12.22 展示 了 一 些 常用 的 MIME 类 型 。 


text/html 


HTML 页 面 
ARAXE 

PS 文档 

GIF 格式 编码 的 二 进 制图 像 
JPEG 格式 编码 的 二 进 制图 像 


12.22 MIME 类 型 示例 


text/plain 
application/postscript 
image/gif 
image/jpeg 
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Web 服务 器 以 两 种 不 同 的 方式 同 客 户 端 提供 内 容 : 

© 取 一 个 磁盘 文件 ， 并 将 它 的 内 容 返 回 给 客户 端 。 磁盘 文件 称 为 静态 内 容 (static content), 
而 返回 文件 给 客户 端的 过 程 称 为 服务 静态 内 容 (serving static content). 

e 运行 一 个 可 执行 文件 ， 并 将 它 的 输出 返回 给 客户 端 。 运 行 时 可 执行 文件 产生 的 输出 称 为 动 
态 内 容 (dynamic content)， 而 运行 程序 并 返回 它 的 输出 到 客户 端的 过 程 称 为 服务 动态 内 容 
(serving dynamic content ). 

每 条 由 Web 服务 器 返回 的 内 容 都 是 和 它 管理 的 某 个 文件 相关 联 的 。 这 些 文 件 中 的 每 一 个 都 有 一 

个 惟一 的 名 字 ， 叫 做 URL (Universal Resource Locator， 通 用 资源 定位 行 )。 例 如 ，URL 


http: //www.aol.com:80/index.html 


表示 因特网 主机 www.aol.com 上 一 个 称 为 index.html 的 HTML 文件 , 它 是 由 一 个 监听 80 端口 的 Web 
服务 器 管理 的 。 端 口号 是 可 选 的 ， 而 知名 的 HTTP 默认 的 端口 就 是 80。 可 执行 文件 的 URL 可 以 在 
文件 名 后 包括 程序 参数 。“?” 字 符 分 隔 文件 名 和 参数 ， 而 且 每 个 参数 都 用 “人 ”字符 分 陋 开 ， 例 如 ， 
URL 


http: //kittyhawk.cmcl.cs.cmu.edu:8000/cgi-bin/adder?15000&213 
标识 了 一 个 叫做 /cgi-bin/addr 的 可 执行 文件 , 会 带 两 个 参数 字符 串 15000 和 213 来 调用 它 。 在 事务 过 
程 中 ， 客 户 端 和 服务 器 使 用 的 是 URL 的 不 同 部 分 。 例 如 ， 客 户 端 使 用 前 缀 


http: //www.aol.com: 80 


来 决定 与 哪 类 服务 器 联系 ， 服 务 器 在 哪儿 ， 以 及 它 监听 的 端口 号 是 多 少 。 服 务 器 使 用 后 缀 


/index. html 


来 发 现在 它 文件 系统 中 的 文件 ， 并 确定 请 求 的 是 静态 内 容 ， 还 是 动态 内 容 。 

关于 服务 器 如 何 解释 一 个 URL 的 后 经 ， 有 三 点 需要 理解 : 

。 确定 一 个 URL 指 癌 的 是 静态 内 容 还 是 动态 内 容 没 有 标准 的 规则 。 每 个 服务 器 对 它 所 管理 的 
文件 都 有 自己 的 规则 。 一 种 常见 的 方法 是 ， 确 认 一 组 目录 ， 例 如 cgi-bin， 所 有 的 可 执行 性 
文件 都 必须 存放 这 些 目 录 中 。 

© 后 级 中 的 最 开始 的 那个 “/” 不 表示 Unix 的 根 上 县 录 。 相 反 ， 它 表示 的 是 被 请 求 内 容 类 型 的 主 
目录 。 例 如 ， 可 以 将 一 个 服务 器 配置 成 这 样 ; 所 有 的 静态 内 容 存放 在 目录 /usrhttpd/html F, 
而 所 有 的 动态 内 容 都 存放 在 目录 /usrhttps/cgi-bin 下 。 

© 最 小 的 URL 后 缀 是 “/” 字 符 ， 所 有 服务 器 将 其 扩展 为 某 个 默认 的 主页 ， 例 如 /index.html。 
这 解释 了 为 什么 简单 地 在 浏览 器 中 键入 一 个 域名 就 可 以 取出 一 个 网 站 的 主页 。 浏 览 器 在 
URL 后 添加 缺失 的 “/” 并 将 之 传递 给 服务 器 ， 服 务 器 又 把 “/” 扩展 到 某 个 默认 的 文件 
名 。 


125.3 HTTP 事务 
因为 HTTP 是 基于 在 因特网 连接 上 传送 的 文本 行 的 ， 我 们 可 以 使 用 Unix 的 TELNET 程序 来 和 


任何 因特网 上 的 Web 服务 器 执行 事务 。 对 于 调试 在 连接 上 通过 文本 行 来 与 客户 端 对 话 的 服务 器 来 
ii, TELNET 程序 是 非常 便利 的 。 例 如 ， 图 12.23 使 用 TELNET 向 AOL Web 服务 器 请 求 主 页 。 
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1 unix> telnet www.aol.com 80 Client: open connection to server 

2 Trying 205.188.146.23... Telnet prints 3 lines to the terminal 

3 Connected to aol.com. 

4 Escape character is ’%*}"%. 

5 GET / HTYTP/1.1 Client: request line 

6 host: www.aol.com Client: required HTTP/1.1 header 

7 Client: empty line terminates headers. 

8 HTTP/1.0 200 OK Server: response line 

9 MIME-Version: 1.¢ Server: followed by five response headers 


10 Date: Mon, 08 Jan 2001 04:59:42 GMT 

11 Server: NaviServer/2.0 AOQLserver/2.3.3 

12 Content-Type: text/html Server: expect HTML in the response body 

13 Content-Length: 42092 Server: expect 42,092 bytes inthe response body 


14 Server: empty line terminates response headers 
15 «<html> Server: first HTML line in response body 

16 a Server: 766 lines of HTML not shown. 

17 </html> Server: last HTML line in response body 

18 Connection closed by foreign host. Server: closes connection 

19 unix> Client: closes connection and terminates 


图 12.23 一 个 服务 静态 内 容 的 HTTP 事务 


在 第 一 行 , 我 们 从 Unix shell 运行 TELNET, 要 求 它 打开 一 个 到 AOL Web 服务 器 的 连接 .TELNET 
器 终 疾 打 印 三 行 输 出 ， 打 开 连 接 ， 然后 等 待 我 们 输入 文本 (第 5 行 )。 每 次 我 们 输入 一 个 文本 行 ， 并 
EARE, TELNET 会 读 取 该 行 ， 在 后 面 加 上 回 车 和 换行 符号 (在 C 的 表示 中 为 “wn”)， 并 且 
将 这 一 行 发 送 到 服务 器 。 这 是 和 HTTP 标准 相符 的 ，HTTP 标准 要 求 每 个 文本 行 都 由 一 个 回 车 和 换 
行 符 对 来 结束 。 为 了 发 起 事务 , 我 们 输入 一 个 HTTP 请 求 (第 5~7 行 )。 服务 器 返回 HTTP 响应 (第 
8 一 17 行 )， 然 后 关闭 连接 〈 第 18 行 )。 

HTTP 请 求 


一 个 HTTP 请 求 的 组 成 是 这 样 的 ， 一 个 请 求 行 (request J]ine) (第 5 行 )， 后 面 跟随 零 个 或 更 多 
个 请 求 报头 《request header) ($ 6 47), 再 跟随 一 个 空 的 文本 行 来 终止 报头 列表 (第 7 行 )。 一 个 请 
求 行 的 形式 是 

<methoc><url><version> 


HTTP 文 持 许多 不 同 的 方法 ,包括 GET. POST. OPTIONS. HEAD. PUT, DELETE 和 TRACE. 
我 们 将 只 讨论 广 为 应 用 的 GET 方法 ， 根 据 某 研究 调查 ， 它 占 了 99% 的 HTTP 请 求 [791。GET 方法 指 
导 服 务 器 生成 和 返回 URI (Uniform Resource Identifier， 统 一 资源 标识 符 ) 标识 的 内 容 。URI 是 相应 
的 URL 的 后 缀 ， 包 括 文件 名 和 可 选 的 参数 。- 

请 求 行 中 的 <version> 字 段 表 明了 该 请 求 遵循 的 HTTP 版 本 。 最 新 的 HTTP 版 本 是 HTTP/1.1[271。 
HTTP/1.0 是 从 1996 年 沿用 至 今 的 老 版 本 。HTTPB/1.1 定义 了 一 些 附 加 的 报头 ， 为 诸如 缓冲 和 安全 等 
高 级 特性 提供 支持 ， 它 还 文 持 一 种 机 制 ， 允 许 客户 端 和 服务 器 在 同一 条 持久 连接 (persistent 


2 实际 上 ， 只 有 当 浏 览 器 请 求 内 容 时 ， 才 会 这 样 。 如 果 代 理 服务 器 请 求 内 容 ， 那 么 URI 必须 是 完整 的 URL. 
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connection) 上 执行 多 个 事务 。 在 实际 中 ， 两 个 版 本 是 互相 兼容 的 ， 因 为 HTTP/1.0 的 客户 端 和 服务 
器 会 简单 地 忽略 HTTP/1.1 的 报头 。 

轧 地 来 说 ， 第 5 行 的 请 求 行 要 来 服务 器 取出 并 返回 HTML 文件 /index.html。 它 也 告知 服务 器 请 
求 剩 下 的 部 分 是 HTTP/1.1 格式 的 。 

请 求 报头 为 服务 顺 据 供 了 额外 的 信息 ， 鲍 如 浏览 露 的 商标 名 ， 或 者 浏览 器 理解 的 MIME 类 型 。 
请 求 报头 的 格式 为 

<header name>: <header data> 


针对 我 们 的 目的 ， 惟 一 需要 关注 的 报头 是 Host HA CH 6 fT), ADRAC HTTP/1.1 请 求 中 是 
需要 的 ， 而 在 HTTP/1.0 请 求 中 是 不 需要 的 。 代 理 缓存 Cproxy cache) 会 使 用 Host 报头 ， 这 个 代理 
缓存 有 时 作为 浏览 器 和 管理 被 请 求 文件 的 原始 服务 器 Corigin server) 的 中 介 。 客 户 端 和 原始 服务 器 
之 间 ， 可 以 有 多 个 代理 ， 即 所 谓 的 代理 链 〈proxy chain). Host 报头 中 的 数据 ， 指 示 了 原始 服务 器 的 
域名 ， 使 得 代理 链 中 的 代理 能 够 判断 它 是 否 可 以 拥有 一 个 被 请 求 内 容 的 本 地 缓存 的 副本 。 

继续 我 们 图 12.23 中 的 示例 ， 第 7 行 的 空 文本 行 ( 通 过 在 我 们 的 键盘 上 键入 回 车 键 生 成 的 ) & 
止 了 报头 ， 并 指示 服务 器 上 友 送 被 请 求 的 HTML 文件 。 

HTTP 出 应 

HTTP WA HTTP 请 求 是 相似 的 ,一 个 HTTP 响应 的 组 成 是 这 样 的 : 一 个 响应 行 (response line) 
(第 8 行 )， 后 面 跟随 着 零 个 或 更 多 的 响应 报头 《response header) (第 9 一 13 行 )， 再 跟随 一 个 终止 报 
头 的 衬 行 〈 第 14 行 )， 再 跟随 一 个 响应 主体 Cresponse body) (第 15~17 行 )。 一 个 响应 行 的 格式 是 


<version> <status code> <status message> 


版 本 字段 描述 的 是 响应 所 遵循 的 HTTP RÆ. status code (状态 码 ) 是 一 个 三 位 的 正 整数 ， 指 明 
对 请 求 的 处 理 。status message CRAB) 给 出 与 错误 代码 等 价 的 英文 描述 。 图 12.24 列 出 了 一 些 
第 见 的 状态 码 ， 以 及 它们 相应 的 消息 。 


成 功 处 理 博 求 无 误 

永久 移动 内 容 己 移动 到 位 置 头 中 指明 的 主机 上 
错误 请 求 服务 器 不 能 理解 请 求 

禁止 服务 器 无 权 访 问 所 请 求 的 文件 

未 发 现 服务 器 不 能 找到 所 请 求 的 文件 

未 实现 服务 器 不 支持 请 求 的 方法 

HTTP 版 本 不 支持 服务 器 不 支持 请 求 的 版 本 


图 12.24 一 些 HTTP 状态 码 


第 9 一 13 行 的 响应 报头 提供 了 关于 响应 的 附加 信息 。 针 对 我 们 的 目的 ， 两 个 最 重要 的 报头 是 
Content-Type ($ 12 行 )， 它 告诉 客户 端 哆 应 主体 中 内 容 的 MIME 类 型 ， 以 及 Content-Length (第 
13 行 )， 用 来 指示 响应 主体 的 字 节 大 小 。 

第 14 行 的 终止 响应 报头 的 空 文本 行 ， 其 后 跟随 着 响应 主体 ， 响 应 主体 中 包含 着 被 请 求 的 内 容 。 
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125.4 服务 动态 内 容 

如 录 我 们 停 下 来 考虑 一 下 ， 一 个 服务 器 是 如 何 问 客户 端 提供 动态 内 容 的 ， 就 会 发 现 一 些 问题 。 
例如 ， 客 户 端 如 何 将 程序 参数 传递 给 服务 器 ? 服务 器 如 何 将 这 些 参数 传递 给 它 所 创建 的 子 进程 ? AR 
务 器 如 何 将 子 进程 生成 内 容 所 需要 的 其 他 信息 传递 给 子 进程 ?” 子 进程 将 它 的 输出 发 送 到 哪里 ? 一 个 
BRAY CGI (Common Gateway Interface， 通 用 网 关 接 口 ) 的 实际 标准 的 出 现 解 决 了 这 些 问题 。 

客户 端 如 何 将 程序 参数 传递 给 服务 右 ? 

GET 请 求 的 参数 在 URI 中 传递 。 正 如 我 们 看 到 的 ， 一 个 “? ”字符 分 虽 了 文件 名 和 参数 ， 而 每 
个 参数 都 用 一 个 “ 广 ” 字 符 分 隔 开 。 参 数 中 不 允许 有 空格 ， 而 必须 用 字符 串 “%20” 来 表示 。 对 其 
他 特殊 字符 ， 也 存在 着 相似 的 编码 。 
Sit: Æ HTTP POST 请 求 中 传递 参数 

HTTP POST 请 求 中 的 参数 是 在 请 求 主体 (request body) 中 而 不 是 URI 中 传递 的 . 


服务 絮 如何 将 参数 传递 给 子 进 程 ? 

在 服务 器 接收 一 个 如 下 的 请 求 后 

GET /cg1-bin/adder?15000&213 HTTP/1.1 

EWH fork 来 创建 一 个 子 进程 ， 并 调用 execve 在 子 进程 的 上 下 文中 执行 /cgi-bin/adder FEF. 12 
adder 这 样 的 程序 ， 常 常 被 称 为 CGI 程序 ， 因 为 它们 遵守 CGI 标准 的 规则 。 而 且 ， 因 为 许多 CGI 程 
序 是 用 Perl 脚本 编写 的 ， 所 以 CGI 程序 也 常 被 称 为 CGI 脚本 (CGI script)。 在 调用 execve 之 前 ， 
于 进程 将 CGI 环境 变量 QUERY_STRING 设置 为 “15000&213”，adder 程序 在 运行 时 可 以 用 Unix 
getenv 函数 来 引用 它 。 

服务 器 如 何 将 其 他 信息 传递 给 子 进程 ? 

CGI 定义 了 大 量 的 其 他 环境 变量 , 一 个 CGI 程序 在 它 运行 时 , 可 以 设置 这 些 环境 变量 。 图 12.25 
给 出 了 其 中 的 一 部 分 。 


QUERY STRING 
| SERVER_PORT 
| REQUEST_METHOD 
REMOTE_HOST 
| REMOTE_ADDR 
CONTENT_TYPE 
| CONTENT_LENGTH 


程序 参数 
父 进程 侦 听 的 端口 
GET 或 POST 

客户 端的 域名 

客户 端的 点 为 十 进 制 IP 地 址 
只 对 POST 而 言 ， 请 求 体 的 MIME 类 型 
只 对 POST MA: 请 求 体 的 字 节 大 小 


图 12.25 Cgi 环境 变量 示例 
子 进程 将 它 的 输出 发 送 到 哪里 ? 
一 个 CGI 程序 将 它 的 动态 内 容 发 送 到 标准 输出 。 在 子 进程 加 载 并 运行 CGI 程序 之 前 ， 它 使 用 


Unix dup2 明 数 将 标准 输出 重 定向 到 和 客户 端 相关 联 的 已 连接 描述 符 。 因 此 ， 任 何 CGI 程序 写 到 标 
准 答 出 的 东西 都 会 直接 到 达 客 户 端 ， 


注意 ， 因 为 父 进程 不 知道 子 进程 生成 的 内 容 的 类 型 或 大 小 ， 所 以 子 进程 就 要 负责 生成 
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Content-type 和 Content-length 响应 报头 ， 以 及 终止 报头 的 空 行 。 


图 12.26 展示 了 一 个 简单 的 CGI 程序 ， 它 对 两 个 参数 求 和 ， 并 返回 带 结果 的 HTML 文件 给 客户 


Jj Al 12.27 展示 了 一 -个 HTTP BS, CA adder 程序 提供 动态 内 容 。 


code/netp/tiny/cgi-bin/adder.c 


1 #include "csapp.h" 
2 
3 int main(void) { 
4 char *buf, *p; 
5 char argl[MAXLINE], arg2[MAXLINE], content [MAXLINE] ; 
6 int nl=0, n2=0; 
7 
8 /* Extract the two arguments */ 
9 if ((buf = getenv("QUERY_STRING")) != NULL) { 
10 p = strchr (buf, ’'&'’); 
11 Fo = '\0'; 
12 strepy(argl, buf); 
13 strepy(arg2, p+l); 
14 nl = atoi(argl); 
15 n2 = atolfarg2); 
16 } 
17 
18 /* Make the response body */ 
19 Sprintf (content, "Welcome to add.com: "); 
20 Sprintfi(content, “$STHE Internet addition portal.\r\n<p>", content); 
21 sprintf (content, "%sThe answer is: $d + *d = %d\r\n<p>", 
22 content, nl, n2, nl + n2}; 
23 sprintf (content, "%sThanks for visiting!\r\n", content) ; 
24 
25 /* Generate the HTTP response */ 
26 printf("Content-length: td\r\n", strlen(content)); 
27 printf("Content-type: text/html\r\n\r\n"); 
28 printf£("%s", content); 
29 fflush(stdout) ; 
30 exit(d); 
31 
code/netp/tiny/cgi-bin/adder.c 
图 12.26 ”对 两 个 整数 求 和 的 CGI 程序 
1 unix> telnet kittyhawk.cmcl.cs.cmu.edu 8000 Client: open connection 
2 Trying 128.2.194.242... 
3 Connected to kittynhawk.cmcl.cs.cmu.edu. 
4 Escape character is ‘*]’. 
5 GET /cgi-bin/adder?15000&213 HTTP/1.0 Client: request line 
6 Client: empty line terminates headers 
7 


HTTP/1.0 200 OK Server: response line 
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8 Server: Tiny Web Server Server: identify server 

9 Content-length: 115 Adder; expect 115 bytes in response body 
19 Content-type: text/html Adder: expect HTML in response body 

11 Adder: empty line terminates headers 


12 Welcome to add.com: THE Internet addition portal. Adder: first HTML line 
13 <p>The answer is: 15000 + 213 = 15213 Adder: second HTML line in response body 


14 <p>Thanks for visiting! Adder: third HTML line in response body 
15 Connection closed by foreign host. Server: closes connection 
16 unix> Client: closes connection and terminates 


图 12.27 一 个 提供 动态 HTML ABA HTTP 事务 


Sit: 在 HTTP POST 请 求 中 传递 参数 给 CGI 程序 
对 于 POST 请 求 ， 子 进程 也 需要 重 定 向 标准 给 入 到 已 连接 描述 符 ，CGI 程序 将 从 标准 输入 中 读 
取 请 求 主体 中 的 和 参数. 


练习 题 12.5 
在 11.9 节 中 ， 我 们 警告 过 你 关于 在 网 络 应 用 中 使 用 人 C 标准 IO 函数 的 危险 。 然而， 图 12.26 中 
的 CGI 程序 却 能 没有 任何 问题 地 使 用 标准 LO HAAR? 


12.6 综合 : Tiny Web 服务 器 


我 们 通过 创建 一 个 虽然 小 但 是 功能 齐全 的 称 为 Tiny 的 Web 服务 器 来 结束 我 们 对 网 络 编程 的 讨 
wo Tiny 是 一 个 有 趣 的 程序 。 在 短 短 250 行 代码 中 ， 它 结合 了 许多 我 们 已 经 学 习 到 的 思想 ， 例 如 进 
程控 制 、Unix V/O, E Fik OA HTTP。 虽 然 它 缺 乏 一 个 实际 服务 器 所 有 具备 的 功能 性 、 稳 定性 和 安 
全 性 ， 但 是 它 足 够 用 来 为 实际 的 Web 浏览 器 提供 静态 和 动态 内 容 。 我 们 鼓励 你 研究 它 ， 并 且 自 己 实 
现 它 。 将 一 个 实际 的 浏览 器 指 同 你 自己 的 服务 器 ， 看 着 它 显示 一 个 复杂 的 带 有 文本 和 图 片 的 Web 页 
面 ， 真 是 非常 令 人 兴奋 《甚至 对 我 们 这 些 作者 来 说 ， 也 是 如 此 !)。 


Tiny 的 main 程序 


图 12.28 展示 了 Tiny 的 主 程序 。Tiny 是 一 个 迭代 服务 器 ,监听 在 命令 行 中 确定 的 端口 上 的 连接 
请 求 。 在 通过 调用 open_listenfd 函数 打开 一 个 监听 套 接 字 以 后 ，Tiny 执行 典型 的 无 限 服务 器 循环 ， 
反复 地 接受 一 个 连接 请 求 “第 31 行 )， 执 行事 务 〈 第 32 行 )， 并 关闭 连接 的 它 那 一 端 (第 33 行 )。 
一 一 一 一 一 一 一 codemneipjtinwiinyec 
1 
* tiny.c - A simple, iterative HTTP/1.0 Web server that uses the 
* GET method to serve static and dynamic content. 
*/ 

#include "csapp.h" 


void doit(int fd); 
void read_requesthdrs(rio_t *rp): 
int parse_uri(char *uri, char *filename, char *cgiargs); 
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10 void serve_static(int fd, char *filename, int filesize); 
11 void get_filetype(char *filename, char *filetype); 
12 ` void serve_dynamic(int fd, char *filename, char *cgiargs); 
13 void clienterror(int fd, char *cause, char *errnum, 
14 char *shortmsg, char *longmsg) ; 
15 
16 int main(int argc, char **argv) 
17 { 
18 int listenfd, connfd, port, clientlen; 
19 Struct sockaddr_in clientaddr; 
20 
21 /* Check command line args */ 
22 if {argc != 2) { 
23 fprintf(stderr, "usage: %S <port>\n", argv[0])}; 
24 exit (1); 
25 } 
26 port = atoi(argv[1])); 
27 
28 listenfd = Open_listenfd(port); 
29 while (1) { 
30 clientlen = sizeof (clientaddr) ; 
31 connfd = Accept(listenfd, (SA *)é&clientaddr, &clientlen) ; 
32 doit (connfda) ; 
33 Close (connfd) ; 
34 } 
35 } 
code/netp/tiny/tiny.c 
图 12.28 Tiny Web 服务 器 
doit RR 


图 12.29 中 的 doit 函数 处 理 一 个 HTTP 事务 。 首 先 ， 我 们 读 和 解析 请 求 行 〈 第 11 一 12 行 )。 注 


意 ， 我 们 使 用 图 11.7 中 的 rio readlineb 函数 读 取 请 求 行 。 


code/netp/tiny/tiny.c 
void doit (int fd) 
{ 
int is_static; 
Struct stat sbuf; 
char buf [MAXLINE], method [MAXLINE], uri[MAXLINE], version[MAXLINE]; 
char filename[MAXLINE], cgiargs [MAXLINE] ; 
rio_t rio; 


/* Read request line and headers */ 
Rio_readinitb(&rio, fd); 
Rio_readlineb(&rio, buf, MAXLINE) ; 
sscanf(buf, "%s ts %s", method, uri, version); 
if (strcasecmp(method, "GET")) { 
clienterror(fd, method, "501i", “Not Implemented", 
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15 "Tiny does not implement this method"); 

16 return; 

17 ] 

18 read_requesthdrs(&rio) ; 

19 

20 /* Parse URI from GET request */ 

21 1s_Static = parse_uri(uri, filename, cgiargs); 

22 if (stat(filename, &sbuf) < 0) { 

23 clienterror(fd, filename, "404", "Not found", 

24 "Tiny couldn’ t find this file"); 

25 return; 

26 } 

27 

28 if (is_static) { /* Serve static content */ 

29 if (!(S_ISREG(sbuf.st_mode)) || !(S_IRUSR & sbuf.st_mode)) { 
30 clienterror(fd, filename, "403", "Forbidden", 

31 "Tiny couldn’ t read the file"); 

32 return; 

33 } 

34 serve_static(fd, filename, sbuf.st_size) ; 

35 } 

36 else { /* Serve dynamic content */ 

37 if (!(S_ISREG(sbuf.st_mode)) || !(S_IXUSR & sbuf.st_mode)} { 
38 clienterror(fd, filename, "403", "Forbidden", 

39 "Tiny couldn’ t run the CGI program") ; 
40 return; 

ål } 

42 serve_dynamic(fd, filename, cgiargs); 

43 } 

44 } 


code/netp/tiny/tiny.c 
图 12.29 Tiny doit: 处 理 一 个 HTTP 事务 


Tiny AX FF GET 方法 。 如 果 客 户 端 请 求 其 他 方法 〈 比 如 POST)， 我 们 发 送 给 它 一 个 错误 信息 ， 
并 返回 到 主 程序 (第 13 一 17 行 )， 主 程序 随后 关闭 连接 并 等 待 下 一 个 连接 请 求 。 否 则 ， 我 们 读 并 且 
〈 像 我 们 将 要 看 到 的 那样 ) 忽略 任何 请 求 报头 〈 第 18 FF). 

然后 ， 我 们 将 URI 解析 为 一 个 文件 名 和 一 个 可 能 为 空 的 CGI 参数 串 ， 并 且 我 们 设置 一 个 标志 ， 
表明 请 求 的 是 静态 内 容 还 是 动态 内 容 (第 21 行 )。 如 果 文 件 在 磁盘 上 不 存在 ， 我 们 立即 发 送 一 个 错 
误 信 息 给 客户 端 ， 并 返回 〈 第 22 一 26 行 )。 

和 最后， 如 采 请 求 的 是 静态 内 容 ， 我 们 就 核实 该 文件 是 一 个 普通 文件 ， 而 我 们 是 有 读 权限 的 《第 
29 行 )。 如 果 是 这 样 ， 我 们 就 向 客户 端 提供 静态 内 容 。 相 似 地 ， 如 果 请 求 的 是 动态 内 容 ， 我 们 就 核 
实 该 文件 是 可 执行 文件 (第 37 行 )， 如 果 是 这 样 ， 我 们 就 继续 ， 并 且 提 供 动 态 内 容 (第 42 行 )。 

clienterror PAX 

Tiny 缺乏 一 个 实际 服务 器 的 许多 错误 处 理 特性 。 然 而 ， 它 会 检查 一 些 明 显 的 错误 ， 并 把 它们 报 
告 给 客户 端 。 图 12.30 中 的 clienterror 函数 发 送 一 个 HTTP 响应 到 客户 端 , 在 响应 行 中 包含 相应 的 状 
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态 公 和 状态 消息 ， 以 及 响应 主体 中 的 一 个 HTML 文件 ， 辐 浏览 器 的 用 户 解释 这 个 镇 误 。 


code/netp/tiny/tiny.c 


void clienterror(int fd, char *cause, char *errnum, 


char *shortmsg, char *longmsg) 
char buf [MAXLINE], body [MAXBUF] ; 


/* Build the HTTP response body */ 

sprintf (body, "<html><title>Tiny Error</title>"); 

sprintf (body, "%s<body bgcolor=""fFFFFFE"">\r\n", body); 
Sprintf (body, "%s%s: %s\r\n", body, errnum, shortmsg); 
Sprintf(body, "%s<p>%s: %s\r\n", body, longmsg, cause); 
sprintf (body, "%s<hr><em>The Tiny Web server</em>\r\n", body); 


/* Print the HTTP response */ 

Sprintf(buf, "HTTP/1.0 %s $S\r\n", errnum, Shortmsg); 
Rio_writen(fd, buf, strien(buf)); 

sprintf(buf, "Content-type: text/html \r\n"); 
Rio_writen(fd, buf, strlen(buf)}); 

Sprintf (buf, "Content-length: %d\r\n\r\n", strlen(body)); 
Rio_writen(fd, buf, strlen(buf)); 

Rio_writen(fd, body, strlen(body) ); 


code/netp/tiny/tiny.c 
12.30 Tiny clienterror: 向 客户 端 发 送 一 个 出 错 消息 


回想 一 下 ，HTML 啊 应 应 该 指明 主体 中 内 容 的 大 小 和 类 型 。 因此， 我 们 选择 创建 HTML 内 容 为 


一 个 字符 串 (第 7~~11 AT), 这 样 一 来 我 们 可 以 简单 地 确定 它 的 大 小 (第 18 行 )。 还 有 ， 请 注意 我 们 
为 所 有 的 输出 使 用 的 都 是 图 11.3 中 健壮 的 rio_writen 函数 。 

read_requesthdrs ARK 

Tiny 不 使 用 请 求 报头 中 的 任何 信息 。 它 仅仅 调用 图 12.31 中 的 read_requesthdrs AA KER H A 
MXR. ER, 终止 请 求 报 头 的 空 文本 行 是 由 回 车 和 换行 符 对 组 成 的 ， 我 们 在 第 6 行 中 检查 它 。 


Oo Onn OP w dH FP 


code/netp/tiny/tiny.c 


void read_requesthdrs(rio_t *rp) 


char buf [MAXLINE] ; 


Rio_readlineb(rp, buf, MAXLINE); 


while(stremp(buf, "\r\n")} 
Rio_reaclinebi(rp, buf, MAXLINE); 
return; 


code/netp/tiny/tiny.c 
12.31 Tinyread_requesthdis: 读 取 并 忽略 请 求 报头 
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parse_uri M% 

Tiny 假设 静态 内 容 的 主 目 录 就 是 它 的 当前 目录 , 而 可 执行 文件 的 主 目 录 是 ./cgi-bin。 任何 包含 字 
伯 串 cgi-bin 的 URI 都 会 被 认为 表示 的 是 对 动态 内 容 的 请 求 。 默 认 的 文件 名 是 .home.html。 

图 12.32 中 的 parse_uri 函数 实现 了 这 些 策略 。 它 将 URI 解析 为 一 个 文件 名 和 一 个 可 选 的 CGI 
参数 串 。 如 果 请 求 的 是 静态 内 容 (第 5 行 ),， 我 们 将 清除 CGI 参数 串 〈 第 6 行 )， 然 后 将 URI 转换 为 
一 个 相对 的 Unix 路 径 名 ， 例 如 .jindex.html (第 7 一 8 行 )。 如 果 URI 是 用 “/” 结 尾 的 (第 9 行 ), 我 
们 将 把 默认 的 文件 名 加 在 后 面 (第 10 行 )。 另 一 方面 ， 如 果 请 求 的 是 动态 内 容 〈 第 13 行 )， 我 们 就 
会 抽取 出 所 有 的 CGI 参数 (第 14 一 20 行 ), 并 将 URI 剩 下 的 部 分 转换 为 一 个 相对 的 Unix 文件 名 (第 
21~22 747). 


code/netp/tiny/tiny.c 


1 int parse_uri(char *uri, char *filename, char *cgiargs) 
2 { 

3 char *ptr; 

4 

5 if (!'strstr(uri, "cgi-bin")) { /* Static content */ 
6 strcpy (cgiargs, ""); 

7 strcpy (filename, "."); 

8 strcat (filename, uri); 

9 1f (uri[strjen(uri})-1] == '/') 

10 strcat (filename, "home.html”); 
11 return 1; 

12 } 

13 else { Æ Dynamic content */ 

14 ptr = index(uri, '?'’); 

15 if (ptr) { 

16 strcpy (cglargs, ptr+l); 

17 *ptr = '\0’; 

18 } 

19 else 

20 strcpy(cgiargs, ""); 

21 strcpy (filename, "."); 

22 strcat (filename, uri); 

23 return 0; 

24 } 

25 } 


code/netp/tiny/tiny.c 
图 12.32 Tiny parse_uri: 解 析 一 个 HTTP URI 
serve_static PR RY 
Tiny 提供 四 种 不 同类 型 的 静态 内 容 ，HTML 文件 、 无 格式 的 文本 文件 ， 以 及 编码 为 GIF 和 JPG 
格式 的 图 片 。 这 些 文件 类 型 占据 Web 上 提供 的 绝 大 部 分 静态 内 容 。 
图 12.33 中 的 serve_static 函数 发 送 一 个 HTTP 响应 ， 其 主体 包含 一 个 本 地 文件 的 内 容 。 首 先 ， 
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我 们 通过 检查 文件 名 的 后 缀 来 判断 文件 类 型 (第 7 行 ) 并 且 发 送 响应 行 和 响应 报头 给 客户 峭 (第 8 一 
12 行 )。 注 意 用 一 个 空 行 终止 报头 。 


code/netp/tiny/tiny.c 


1 void serve_static(int fd, char *filename, int filesize) 
2 { 

3 int srctd; 

4 char *srcp, filetype[MAXLINE], buf [MAXBUF]; 

5 

6 /* Send response headers to client */ 

7 get_filetype(filename, filetype); 

8 sprintf (buf, "HTTP/1.0 200 OK\r\n"); 

9 sprintf (buf, "%sServer: Tiny Web Server\r\n", buf); 
10 sprintf (buf, "“SsContent-length: #d\r\n", buf, filesize); 
11 Sprintf (buf, "SsContent-type: %s\r\n\r\n", buf, filetype); 
12 Rio_writen(fd, buf, strlen(buf)); 

13 

14 /* Send response body to client */ 

15 srcfid = Open(filename, O_RDONLY, 0); 

16 srcp = Mmap(0, filesize, PROT_READ, MAP PRIVATE, srcfd, 0); 
17 Close({srcfd); 

18 Rio_writen(fd, srcp, filesize); 

19 Munmap(srcp, filesize); 

20 } 

21 

22 /* 

23 * get_filetype - derive file type from file name 

24 x / 

25 void get_filetype(char *filename, char *filetype) 

26 { 

27 1+ (strstr(filename, ".html")) 

28 strcpy (filetype, "text/html"); 

29 else if (strstr(filename, ".gif")) 

30 strcpy (filetype, "image/gif")}; 

31 else if (strstr(filename, ".jpg")) 

32 strcpy (filetype, "image/jpeg"); 

33 else 

34 strcpy (filetype, "text/plain"); 

35 } 


code/netp/tiny/tiny.c 
图 12.33 Tiny sefve_static: 为 客户 端 提 供 静 态 内 容 
接着 ， 我 们 将 被 请 求 文件 的 内 容 拷 贝 到 已 连接 描述 符 纪 ， 来 发 送 响 应 主体 〈 第 15 一 19 行 )。 这 
里 的 代码 是 比较 微妙 的 ， 需 要 仔细 研究 。 第 15 行为 读 打开 了 filename， 并 获得 了 它 的 描述 符 。 在 第 
16 行 ，Unix mmap 函数 将 被 请 求 文件 映射 到 一 个 虚拟 存储 器 室 间 。 回 想 我 们 在 第 10.8 节 中 对 mmap 
的 讨论 ， 调 用 mmap 将 文件 srcfd 的 前 filesize 个 字 节 映射 到 -- 个 从 地 址 srep 开始 的 私有 只 读 虚 拟 存 
储 器 区 域 。 
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一 旦 我 们 将 文件 映射 到 存储 占 ， BORA BE EC TRIAS. PROLIF 17 行 )。 
执行 这 项 任务 失败 将 导致 一 种 潜在 的 致命 的 存储 器 泄漏 。 第 18 行 执行 的 是 到 客户 端的 实际 文件 传 
送 。rio_writen 函数 拷贝 从 srep 位 置 开始 的 filesize 个 字 节 (它们 当然 已 经 被 映射 到 了 所 请 求 的 文件 ) 
到 客户 端的 已 连接 描述 符 。 最 后 ， 第 19 行 释放 了 映射 的 虚拟 存储 器 区 域 。 这 对 于 避免 一 个 潜在 的 至 
命 的 存储 器 泄漏 是 很 重要 的 。 

serve_dynamic PAR 

Tiny 通过 派生 一 个 子 进 程 并 在 子 进 程 的 上 下 文中 运行 一 个 CGI 程序 , 来 提供 各 种 类 型 的 动态 内 
容 。 

图 12.34 中 的 serve_dynamic 函数 一 开始 就 网 客户 靖 发 送 一 个 表明 成 功 的 啊 应 行 〈 第 6 一 7 行 )， 
同时 还 包括 带 有 信息 的 Server 报头 (第 8~9 行 )、CGI 程序 负责 发 送 啊 应 的 剩余 部 分 。 注 意 ， 这 并 
不 像 我 们 可 能 希望 的 那样 健壮 ， 因 为 它 没 有 考虑 到 CGI 程序 可 能 会 遇 到 某 些 错误 的 可 能 性 。 


code/netp/tiny/tiny.c 


1 void serve_dynamic(int fd, char *filename, char *cgiargs) 

2 { 

3 char buf [MAXLINE], *emptylist[] = { NULL }; 

4 

5 /* Return first part of HTTP response */ 

6 sprintf(buf, "HTTP/1.0 200 OK\r\n"); 

7 Rio_writen(fd, buf, strlen(buf)); 

8 sprintf(buf, "Server: Tiny Web Server\r\n"); 

9 Rio_writen(tfd, buf, strlen(buf)); 

10 

11 if (Fork() == 0) { /* child */ 

12 /* Real server would set all CGI vars here */ 

13 setenv ("QUERY_STRING", cgiargs, 1); 

14 bup2 (fd, STDOUT_FILENO) ; /* Redirect stdout to client */ 
15 Execve(filename, emptylist, environ); /* Run CGI program */ 
16 } 

17 Wait (NULL); / Parent waits for and reaps child */ 

18} 


code/netp/tiny/tiny.c 
12.34 Tinyserve_dynamic: 为 客户 端 提 供 动态 内 容 
在 发 送 了 响应 的 第 一 部 分 后 ， 我 们 会 派生 一 个 新 的 子 进程 〈 第 11 行 )。 子 进程 用 来 自 请 求 URI 
的 CGI 参数 初始 化 QUERY_STRING 环境 变量 (第 13 行 )。 注 意 ， 一 个 真正 的 服务 器 将 还 要 在 此 处 
议 置 其 他 的 CGI 环境 变量 。 为 了 简短 ， 我 们 省 略 了 这 一 步 。 还 有 ， 我 们 注意 到 Solaris 系统 使 用 的 
是 putenv ARM, MA setenv AA. 
接 下 来 ， 子 进程 重 定向 它 的 标准 输出 到 已 连接 文件 描述 符 (第 14 行 )， 然 后 加 载 并 运行 CGI EB 
Pe C15 行 )。 因 为 CGI 程序 运行 在 子 进程 的 上 下 文中 ， 它 能 够 访问 在 调用 execve HAZ WME 
在 的 相同 的 打开 文件 和 环境 变量 。 因 此 ，CGI 程序 写 到 标准 输出 上 的 任何 东西 都 将 直接 送 到 客户 端 
进程 ， 不 会 经 过 任何 父 进程 的 干涉 。 
其 间 ， 父 进程 阻塞 在 对 wait 的 调用 中 ， 等 待 当 子 进程 终止 的 时 候 ， 回 收 操作 系统 分 配给 予 进程 
的 资源 (第 17 47). 
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旁 注 ， 处 理 过 早 关闭 的 连接 

尽管 一 个 Web 服务 器 的 基本 功能 非常 简单 ,但 是 我 们 不 想 给 你 一 个 假象 ， 以 为 编写 一 个 实际 的 
Web 服 务 器 是 非常 简单 的 ,构造 一 个 运行 很 长 时 间 而 不 出 演 的 健壮 的 Web 服 务 器 是 一 件 困难 的 任务 ， 
比 起 在 这 里 我 们 已 经 学 习 了 的 内 容 ， 它 要 求 对 Unix 系统 编程 有 一 个 更 加 深入 的 理解 。 例 如 ， 如 时 一 
个 服务 器 写 一 个 已 经 被 客户 端 关 团 了 的 连接 (比如 说 ， 因 为 你 在 你 的 浏览 器 上 举 击 了 “Stop” 按 人 妞 )， 
那么 第 一 次 这 样 的 写 会 正常 返回 ， 但 是 第 二 次 写 就 会 引起 发 送 SIGPIPE 信号 ,这 个 信号 的 默认 行为 
就 是 终止 这 个 进程 。 如 果 捕 获 或 者 忽略 SIGPIPE 信和 号， 那么 第 二 次 写 操作 会 运 回 值 -+f， 并 将 ermo 
设置 为 EPIPE。strerr 和 perror 函数 将 EPIPE 错误 报告 为 “Broken pipe”， 这 是 一 个 迷 直 了 很 多 届 学 
生 的 不 太 直 观 的 信息 。 总 地 来 说 ， 一 个 健壮 的 服务 器 必须 捅 获 这 些 SIGPIPE 信号 ， 并 且 检 查 write 
函数 调用 是 否 有 EPIPE 错误 . 


12.7 小结 


每 个 网 络 应 用 都 是 基于 客 尸 端 -服务 器 模型 的 。 根据 这 个 模型 ,一 个 应 用 是 由 一 个 服务 器 和 一 个 
或 多 个 客户 器 组 成 的 。 服 务 器 管理 资源 ， 以 某 种 方式 操作 资源 ， 为 它 的 客户 端 提供 服务 。 客 户 端 - 
服务 器 模型 中 的 基本 操作 是 客户 端 -服务 器 事务 ， 它 是 由 客户 端 请 求 和 跟随 的 服务 器 响应 组 成 的 。 

客户 端 和 服务 器 通过 因特网 这 个 全 球 网 络 来 通信 。 从 一 个 程序 员 的 观点 来 看 ， 我 们 可 以 把 因 特 
网 看 成 是 一 个 全 球 范围 的 主机 集合 ， 具有 以 下 几 个 属性 : 每 个 因特网 都 有 一 个 惟一 的 32 位 名 字 , 称 
为 它 的 IP sthbt; IP 地 址 的 集合 映射 为 一 个 因特网 域名 的 集合 ;不同 因 特 网 主机 上 的 进程 能 够 通过 
连接 互相 通信 。 

客户 闹 和 服务 器 通过 使 用 套 接 字 接 口 建立 连接 。 套 接 字 是 连接 的 端点 ， 对 应 用 程序 来 说 ， 连 接 
是 以 文件 质 述 符 的 形式 出 现 的 。 套 接 字 接 口 提供 了 打开 和 关闭 套 接 字 描 述 符 的 函数 。 客 户 端 和 服务 
器 通过 该 写 这 些 描述 符 来 实现 彼此 间 的 通信 。 

Web 服务 器 使 用 HTTP 协议 和 它们 的 客户 端 〈 例 如 浏览 器 ) 彼此 通信 。 浏 览 器 向 服务 器 请 求 静 
态 或 者 动态 的 内 容 。 对 静态 内 容 的 请 求 是 通过 从 服务 器 磁盘 取得 文件 并 把 它 返回 给 客户 端 来 服务 的 。 
对 动态 内 容 的 请 求 是 通过 在 服务 器 上 一 个 子 进程 的 上 下 文中 运行 一 个 程序 并 将 它 的 输出 返回 给 客户 
Ht KARA A. CGI 标准 提供 了 一 组 规则 ， 来 管理 客户 端 如 何 将 程序 参数 传递 给 服务 器 ， 服 务 器 如 何 
将 这 些 参 数 以 及 其 他 信息 传递 给 子 进 程 ， 以 及 子 进程 如 何 将 它 的 输出 发 送 回 客户 端 。 

公用 几 百 行 C 代 但 就 能 实现 一 个 简单 但 是 有 功效 的 Web 服务 器 , 它 既 可 以 提供 静态 内 容 , 也 可 
以 提供 动态 内 容 。 


参考 文献 说 明 
官方 的 有 关 因 特 网 的 信息 源 被 保存 在 一 系列 的 可 免费 获取 的 带 编号 的 文档 RFC [Requests for 
Comments, 1H SKYER#, Internet 标准 (草案 )」 中。 在 以 下 网 站 可 获得 可 搜索 的 RFC 的 索引 : 
http://www.rfc-editor.org/rfc.html 
RFC 通常 是 为 因特网 基础 设施 的 开发 者 编写 的 ， 因 此 ， 对 于 普通 读者 来 说 ， 往 往 过 于 详细 了 。 


然而 ， 作 为 权威 信息 ， 没 有 比 它 更 好 的 资源 了 。HTTP/1.1 协议 记录 在 RFC 2616 中 。MIME 类 型 的 
权威 列表 保存 在 : 
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ftp: //ftp.isi.edu/in-notes/iana/assignments/media-types/media-types 

关于 计算 机 网 络 互 联 有 大 量 好 的 文献 [44，58，84]。 伟 大 的 技术 作家 W. Richard Stevens 编写 了 
一 系列 关于 诸如 高 级 Unix 编程 [76]、 因 特 网 协议 [77，78，791， 以 及 Unix 网 络 编程 [81，80] 之 类 论 
题 的 经 典 文献 .认真 学 习 Unix 系统 编程 的 学 生 会 想 要 研究 所 有 这 些 内 容 。 不 年 的 是 , Stevens 在 1999 
年 9 月 工 日 逝世 。 我 们 会 永远 纪念 他 的 页 献 。 
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126 ¢¢ 

A. 修改 Tiny 使 得 它 会 原样 返回 每 个 请 求 行 和 请 求 报头 。 

B. HAREXEN AA Tiny 发 送 一 个 对 静态 内 容 的 请 求 。 把 Tiny 的 输出 记录 到 一 个 文件 中 。 

C. 检查 Tiny 的 输出 ， 确 定 你 的 浏览 器 使 用 的 HTTP 的 版 本 。 

D. 参考 RFC2616 中 的 HTTP/1.1 标准 , 确定 你 的 浏览 器 的 HTTP 请 求 中 每 个 报头 的 含义 。 你 可 
以 从 www.rfc-editor.org/rfchtml 获得 RFC 2616. 

12.7 @¢ 

扩展 Tiny， 使 得 它 可 以 提供 MPG 视频 文件 。 使 用 一 个 真正 的 浏览 器 来 检验 你 的 工作 。 

12.8 9 

修改 Tiny, EIFE E SIGCHLD 处 理 程序 中 回收 操作 系统 分 配给 CGI 子 进程 的 资源 ， 而 不 是 显 
式 地 等 待 它们 终止 。 

129 SD 

修改 Tiny， 使 得 当 它 服务 静态 内 容 时 ， 使 用 malloc、rio_readn 和 rio_writen， 而 不 是 mmap 和 
Tio_writen， 来 拷贝 被 请 求 文件 到 已 连接 描述 符 。 

12.10 SS 

A. 与 出 图 12.26 中 CGI adder RACH) HTML 表单 。 你 的 表单 应 该 包括 两 个 文本 杠 ， 用 户 将 需要 
相 加 的 两 个 数字 填 在 这 个 两 个 文本 框 中 。 你 的 表单 应 该 使 用 GET 方法 请 求 内 容 ， 

B. 用 这 样 的 方法 来 检查 你 的 程序 : 使 用 一 个 真正 的 浏览 器 向 Tiny 请 求 表单 ， 向 Tiny 提交 填写 
好 的 表单 ， 然 后 显示 adder 生成 的 动态 内 容 。 


12.11 @@ 多 
扩展 Tiny, UŽ? HTTP HEAD 方法 。 使 用 TELNET 作为 Web 客户 端 来 验证 你 的 工作 。 
12.12 全 命令 


扩展 Tiny， 使 得 它 服 务 以 HTTP POST 方式 请 求 的 动态 内 容 。 使 用 你 喜欢 的 Web 浏览 器 来 验证 
你 的 工作 ， 

12.13 SS 

修改 Tiny， 使 得 它 可 以 干净 地 处 理 〈 而 不 是 终止 ) 在 write 函数 试图 写 一 个 过 早 关闭 的 连接 时 
发 生 的 SIGPIPE 信号 和 EPIPE 错误 。 
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练习 题 答案 
练习 题 12.1 答案 


| 0x7f000001 


| Ox400c950d 


ee ee m 


十 六 进 制 地 址 


Ox 


Oxffffffff 


OxcdbcaQ79 


Oxcdbc9217 


0.0.0.0 
255.255.255.255 
127.0.0.1 
205.188.160.121 
64.12.149.13 


205.188.146.23 
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瓜分 十 进 制 地 址 


练习 题 12.2 答案 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 { 
5 Struct in_addr inaddr; /* addr in network byte order */ 
6 unsignec int addr; /* addr in host byte order */ 
7 
Q if (argc != 2) { 
9 fprintf(stderr, "usage: 多 S <hex number>\n", 
10 exit(d0); 
11 } 
12 sscanf(argv[1], "%x", &addr); 
13 inaddr.s_addr = htonl (addr); 
14 printf("%$s\n", inet_ntoa(inaddar) ); 
15 
16 exit(d); 
17 } 


O mown WO BW NF 


练习 题 12.3 答案 


#include 


int main(int argc, 


{ 


"csapp.h" 


Struct in_addr inaddr; 
unsigned int addr; 
iÉ (argc != 2) { 
fprintf(stderr, 


"usage: 


char **argv) 


/* addr in network byte order */ 
/* addr in host byte order */ 


$S <dotted-decimal>\n", 


code/netp/hex2dd.c 


argv[0]); 


code/netp/hex2dd.c 


code/netp/dd2hex.c 


argv[0])}; 
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10 exit (0); 
11 } 
12 
13 if (inet_aton(argv[1], &inaddr) == 0) 
14 app_error("inet_aton error"); 
15 addr = ntohl(inaddr.s_ addr); 
16 printf ("Qx%x\n", addr); 
17 
18 exit(d); 
19 
code/netp/dd2hex.c 
练习 题 12.4 答案 
每 次 我 们 请 求 aolcom 的 主机 条 目 时 , 相应 的 因特网 地 址 列表 以 一 种 不 同 的 、 轮 转 (round-robin) 
的 顺序 返回 。 
unix> ./hostinfo aol.com 


official hostname: aol.com 
address: 205.188.146.23 
address: 205.188.160.121 
address: 64.12.149.13 


unix>> ./hostinfo aol.com 
official hostname: aol.com 
address: 64,12.149.13 
address: 205.188.146.23 
address: 205.188.160.121 


unix>> ./hostinfo aol.com 
official hostname: aol.com 
address: 205.188.146.23 
address: 205.188.160.121 
address: 64.12.149.13 


在 不 同 DNS 奉 黄 中 ， 返 回 地 址 的 不 同 顺 序 称 为 DNS 轮转 (DNS round-robin )。 它 可 以 用 来 对 
一 个 大 量 使 用 的 域名 的 请 求 做 负载 平衡 ， 

练习 题 12.5 答案 

标准 VO 能 在 CGI 程序 里 工作 的 原因 是 , 在 子 进程 中 运行 的 CGI 程序 不 需要 显 式 地 关闭 它 的 输 
入 输出 流 。 当 子 进程 终止 时 ， 内 核 会 自动 关闭 所 有 描述 符 。 


并 发 编程 
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13.3 
13.4 
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基于 进程 的 并 发 编程 

基于 VO 多 路 复 用 的 并 发 编程 
基于 线程 的 并 发 编程 

多 线程 程序 中 的 共享 变量 

用 信号 量 同步 线程 

Re: 基于 预 线 程 化 的 并 发 服务 器 


其 他 并 发 性 问题 
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752 
762 
765 
772 
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正如 我 们 在 第 8 章 学 到 的 , 如 果 风 辑 控制 流 在 时 间 上 重 丰 ,那么 它们 就 是 并 发 (concurrent) 的 。 
这 种 一 般 现 象 ， 称 为 并 发 性 (concurrency)， 出 现在 计算 机 系统 的 许多 不 同 层面 中 。 硬 件 寞 常 处 理 程 
序 、 进 程 和 Unix 信号 处 理 程序 都 是 大 家 很 熟悉 的 例子 。 

到 月 前 为 止 ， 我 们 主要 将 并 发 性 看 做 是 一 种 内 核 用 来 运行 多 个 应 用 程序 的 策略 。 但 是 ， 并 友 性 
不 仅仅 局 限于 内 核 , 它 也 可 以 在 应 用 程序 中 扮演 重要 和 角色. 例如 ， 我 们 已 经 看 到 Unix 信号 处 理 程序 
如 何 允 许 应 用 响应 异步 事件 ， 例 如 用 户 键入 etrl-c， 或 者 程序 访问 虚拟 存储 器 (memory) 的 一 个 未 
定义 的 区 域 。 应 用 级 并 行 在 其 他 情况 下 也 是 很 有 用 的 ; 


在 多 处 理 器 上 进行 并 行 计算 。 在 只 有 一 个 CPU 的 单 处 理 器 上 ， 并 发 流 是 交替 的 ， 在 任何 时 
间 点 上 ， 都 只 有 一 个 流 在 CPU 上 实际 执行 。 然 而 ， 那 些 有 多 个 CPU 的 机 器 ， 称 为 多 处 理 
器 ， 可 以 真正 地 同时 执行 多 个 流 。 被 分 成 并 发 流 的 并 行 应 用 ， 在 这 样 的 机 器 上 能 够 运行 得 
快 很 多 。 这 对 大 规模 数据 库 和 科学 应 用 尤为 重要 。 

访问 慢 速 WO 设备 。 当 一 个 应 用 正在 等 竺 来自 慢 速 IO 设备 〈 例 如 磁盘 ) 的 数据 到 达 时 ， 内 
六 会 运行 其 他 进程 ， 使 CPU 保持 繁忙 。 每 个 应 用 都 可 以 以 类 似 的 方式 ， 通 过 交替 执行 VO 
请 求 和 其 他 有 用 的 工作 ， 来 使 用 并 发 性 。 

与 人 交互 。 和 计算 机 交互 的 人 要 求 计算 机 同时 执行 多 个 任务 的 能 力 。 例 如 ， 他 们 在 打印 一 
个 文档 时 ， 可 能 想 要 调整 一 个 窗口 的 大 小 。 现 代 视 窗 系统 利用 并 发 性 来 提供 这 种 能 力 。 每 
次 用 户 请 求 某 种 操作 (比如 说 通过 单 击 鼠 标 》 时 ， 一 个 独立 的 并 发 逻辑 流 被 创建 来 执行 这 
AN BENE 

通过 推迟 工作 以 减少 执行 时 间 。 有 时 ， 应 用 程序 能 够 通过 推迟 其 他 操作 并 同时 执行 它们 ， 
利用 并 发 性 来 降低 某 些 操作 的 延迟 ， 比 如 ， 一 个 动态 存储 分 配器 可 以 通过 推迟 与 一 个 运行 
在 较 低 优先 级 上 的 并 发 “合并 ” 流 的 合并 (coalescing )， 使 用 空闲 时 的 CPU 周期 ， 来 降低 
单个 free 操作 的 延迟 。 

服务 多 个 网 络 客户 端 。 我 们 在 第 12 PES IKK (iterative) 网 络 服务 器 是 不 现实 的 ， 因 
为 它们 一 次 只 能 为 一 个 客户 疹 提 供 服 务 。 因 此 ， 一 个 慢 速 的 客户 疹 可 能 会 导致 服务 器 拒绝 
为 所 有 其 他 客户 端 服务 。 对 于 一 个 真正 的 服务 器 来 说 ， 可 能 期 望 它 每 秒 为 成 百 上 千 的 客户 
闹 提 供 服务 ， 一 个 慢 速 客户 端 导 致 拒绝 为 其 他 客户 端 服 务 ， 这 是 不 能 接受 的 。 一 个 更 好 的 
方法 是 创建 一 个 并 友 服 务 器 ， 它 为 每 个 客户 端 创建 各 自 独 立 的 逻辑 流 。 这 就 允许 服务 器 同 
时 为 多 个 客户 疹 服 务 ， 并 且 这 也 避免 了 慢 速 客户 端 独占 服务 器 。 


使 用 应 用 级 并 发 的 应 用 程序 称 为 并 发 程序 (concurrent program)。 现 代 操 作 系 统 提 供 了 一 种 基本 
的 构造 并 友 程 序 的 方法 : 


进程 。 用 这 种 方法 ， 每 个 逻辑 控制 流 都 是 一 个 进程 ， 由 内 核 来 调度 和 维护 。 因 为 进程 有 独 
立 的 虚拟 地 址 空间 ， 想 要 和 其 他 流通 信 ， 控 制 流 必须 使 用 某 种 显 式 的 进程 间 通 信 
(interprocess communication, IPC) 机 制 。 

VO 多 路 复 用 。 在 这 种 形式 的 并 发 编程 中 ， 应 用 程序 在 一 个 进程 的 上 下 文中 显 式 地 调度 它 
们 目 己 的 逻辑 流 。 逻 辑 流 被 模型 化 为 状态 机 ， 作 为 数据 到 达 文 件 描述 符 的 结果 ， 主 程序 显 
式 地 从 一 个 状态 转换 到 另 一 个 状态 。 因 为 程序 是 一 个 单独 的 进程 ， 所 以 所 有 的 流 都 共享 同 
一 个 地 址 空间 。 

线程 。 线 程 是 运行 在 一 个 单一 进程 上 下 文中 的 逻辑 流 ， 由 内 核 进行 调度 。 你 可 以 把 线程 看 
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成 是 其 他 两 种 方式 的 混合 体 ， 像 进程 流 一 样 由 内 核 进行 调度 ， 而 像 VO 多 路 复 用 流 一 样 共 
宣 同 一 个 虚拟 地 址 空间 。 
本 章 研究 这 三 种 不 同 的 并 发 编程 技术 。 为 了 使 我 们 的 讨论 比较 具体 ， 我 们 始终 以 同一 个 应 用 为 
例 一 一 12.4.9 节 中 的 迭代 echo 服务 器 的 并 发 版 本 。 


13.1 基于 进程 的 并 发 编程 


构造 并 发 程序 最 简单 的 方法 就 是 用 进程 , 使 用 那些 大 家 都 很 熟悉 的 函数 , 像 fork、exec 和 waitpid. 
例如 ， 一 个 构造 并 发 服务 器 的 目 然 方法 就 是 ， 在 父 进程 中 接受 客户 端 连 接 请 求 ， 然 后 创建 一 个 新 的 
PERERA BET HP FEE RS 

为 了 了 解 这 是 如 何 工作 的 ， 假 设 我 们 有 两 个 客户 端 和 一 个 服务 器 ， 服 务 器 正在 监听 一 个 监听 描 
述 符 《比如 说 是 3) 上 的 连接 请 求 。 现 在 假设 服务 器 接受 了 客户 端 1 的 连接 请 求 ， 并 返回 一 个 已 连 
接 描述 符 〈 比 如 说 是 4)， 如 图 13.1 所 示 。 


client fa Men Listentd(3) 


“| pgg 


connfda{4) 
客户 端 2 | 


clientfd 
13.1 第 一 步 : 服务 器 接受 客户 端的 连接 请 求 
在 接受 连接 请 求 之 后 ， 服 务 器 派生 一 个 子 进 程 ， 这 个 子 进程 获得 服务 器 描述 符 表 的 完整 拷贝 。 


子 进程 关闭 它 的 监听 描述 符 3， 而 父 进程 关闭 它 的 已 连接 描述 符 4， 因 为 不 再 需要 这 些 描述 符 了 。 这 
就 得 到 了 图 13.2 中 的 状态 ， 其 中 子 进程 正 忙于 为 客户 端 提供 服务 。 


clientfa listenfd(3) 


clientfd 


图 13.2 第 二 步 : 服务 器 派生 一 个 子 进程 为 客户 端 服务 


因为 父 、 子 进程 中 的 已 连接 描述 符 都 指向 同一 个 文件 表 表 项 ， 所 以 父 进程 关闭 它 的 已 连接 描述 
符 是 全 关 重 要 的 。 否 则 ， 将 永 不 会 释放 已 连接 描述 符 4 的 文件 表 条 目 ， 而 且 由 此 引起 的 存储 器 泄漏 


[se 
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将 最 终 消 耗 可 用 的 存储 器 空间 ， 并 摧毁 系统 。 
现在 ， 假 设 在 父 进程 为 客户 蹦 1 创建 了 子 进程 之 后 ， 它 接受 了 一 个 新 的 客户 端 2 的 连接 请 求 ， 
并 返回 一 个 新 的 已 连接 描述 符 《〈 比 如 说 是 5)， 如 图 13.3 所 示 。 


数据 传送 


connfd (4) 


clientfd Listenfd (3) 
Š 
T i 
T connfdi{5)} 
客户 端 2 | 连接 请 求 
clientfa 


图 13.3 第 三 步 : 服务 器 接受 另 一 个 连接 请 求 


然后 ， 父 进程 又 派生 一 个 子 进程 ， 使 子 进 程 用 已 连接 描述 符 5 为 它 的 客户 端 提 供 服 务 ， 如 图 
13.4 所 示 。， 此 时 ， 父 进程 正在 等 符 下 一 个 连接 请 求 ， 而 两 个 子 进 程 正 在 同时 为 他 们 各 目的 客户 病 提 
供 服 务 。 


数据 传送 


connfd {4) 


Listenfd (3) 


1 服务 器 


clientfd 


数据 请 求 


clientfd 


connfd (5) 


图 13.4 第 四 步 : 服务 器 派生 另 一 个 子 进程 为 新 的 客户 端 服务 


13.1.1 基于 进程 的 并 发 服务 器 
图 13.5 展示 了 一 个 基于 进程 的 并 发 echo 服务 器 的 代码 。 
code/conc/echoserverp.c 
#inc_ude "csapp.h" 
void echo(int connfd); 


void sigchld_handler(int sig) 
{ 
while (waitpid(-1, 0, WNOHANG) > 0) 


mn UW e w N F 


t 
return; 
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9 } 

10 

11 int main(int argc, char **argv!} 

12 { 

13 int listenfd, connfd, port, clientlen=sizeof (struct sockaddr_in); 
14 struct sockaddr_in clientaddr; 

15 

16 if (argc != 2) { 

17 fprintf(stderr, "usage: *s <port>\n", argv[0]); 

18 exit (0); 

19 } 

20 port = atoi(argv[1]); 

21 

22 Signal(SIGCHLD, sigchid_handler); 

23 listenfd = Open_listenfd(port); 

24 while (1) { 

25 connfd = Accept ilistenfd, (SA *) &clientaddr, &clientlien) ; 
26 if (Fork() == 0) { 

27 Close(listenfd); /* Child closes its listening socket */ 

28 echo (connfd) ; /* Child services client */ 

29 Close(connfd) ; /* Child closes connection with client */ 

30 exit (0); {* Child exits */ 

31 } 

32 Close(conn fd) ; /* Parent closes connected socket (important!) */ 
33 } 

34 】 


code/conc/echoserverp.c 


图 13.2 基于 进程 的 并 发 echo 服务 器 
父 进程 派生 (fork) 一 个 于 进程 来 处 理 每 个 新 的 连接 请 求 。 


第 28 行 调用 的 echo 函数 来 自 于 图 12.21。 关 于 这 个 服务 器 ， 有 有 几 点 重要 内 容 需 要 说 明 : 

e。 首先 ， 通 常服 务 器 会 运行 很 长 的 时 间 ， 所 以 我 们 需要 包括 一 个 SIGCHLD 处 理 程 序 ， 来 回 
WIESE zombie) 子 进程 的 资源 (第 4 一 9 行 )。 因 为 当 SIGCHLD 处 理 程 序 执行 时 , SIGCHLD 
信号 是 阻塞 的 ， 而 Unix 信和 号 是 不 排队 的 ， 所 以 SIGCHLD 处 理 程 序 必 须 准 备 好 回收 多 个 僵 
死 子 进程 的 资源 。 

。 其 次 ， 父 子 进程 必须 关闭 它们 各 自 的 connfd (分别 为 第 32 行 和 第 29 行 ) 拷贝 。 就 像 我 们 
己 经 提 到 过 的 ， 这 对 父 进程 而 言 尤 为 重要 ， 它 必须 关闭 它 的 已 连接 描述 符 ， 人 以 避免 存储 器 


© 最 后 ， 因 为 套 接 字 的 文件 表 表 项 中 的 引用 计数 ， 直 到 父子 进程 的 connfd WRAT, ABP 
do AS) FA Se Ik: 


13.12 关于 进程 的 优 劣 
对 于 在 父 、 子 进程 间 共 享 状态 信息 ， 进 程 有 一 个 非常 清晰 的 模型 ， 共 享 文件 表 ， 但 是 不 共享 用 
户 地 址 空间 。 有 独立 的 进程 地 址 空间 既是 优点 ， 也 是 缺点 。 这 样 一 来 ， 一 个 进程 不 可 能 不 小 心 牙 盖 
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万 一 个 进程 的 虚拟 存储 器 ， 这 就 消除 了 许多 令 人 迷惑 的 错误 一 一 这 是 一 个 明显 的 优点 。 

为 一 方 钾 ， 独 立 的 地 址 空间 使 得 进程 共 译 状态 信息 变 得 更 加 困难 。 为 了 共享 信息 ， 它 们 必须 使 
HEARN IPC 进程 间 通 信 )， 机 制 。 基 于 进程 的 设计 的 另 一 个 缺点 是 ， 它 们 往往 比较 慢 ， 因 为 进程 
控制 和 IPC 的 开销 很 高 。 


Sit: Unix IPC 

在 本 书 中 ,你 已 经 遇 到 好 几 个 IPC 的 例子 了 .第 8 章 中 的 waitpid BHF Unix 信号 是 基本 的 IPC 
机 制 ， 它 们 允许 进程 发 送 小 消息 到 同一 主机 上 的 其 他 进程 .第 12 章 的 套 接 字 是 PC 的 一 种 重要 形 
式 ， 它 允许 不 同 主机 上 的 进程 交换 任意 的 字 节 流 。 然而， 术语 Unix IPC 通常 指 的 是 所 有 允许 进程 和 
同一 台 主 机 上 其 他 进程 进行 通信 的 技术 ， 其 中 和 包括 管道 、 先 进 先 出 ( FIFO )、 系 统 V 共享 存储 器 ， 
以 及 系统 V 信和 号。 这 些 机 制 超出 了 我 们 的 讨论 范围 。 Stevens 的 著作 [80] 是 很 好 的 参 者 资料 。 


练习 题 13.1 


在 图 13.5 中 ， 并 发 服务 器 的 第 32 行 上 ， 父 进程 关闭 了 已 连接 描述 符 后 ， 子 进程 仍然 能 够 使 用 
该 描述 符 和 客 尸 端 通信 。 为 什么 ? 


练习 题 13.2 


如 采 我 们 要 删除 图 13.5 中 关闭 已 连接 描述 符 的 第 29 行 ， 从 没有 存储 器 泄漏 的 角度 来 说 ， 代 码 
将 仍然 是 正确 的 。 为 什么 ? 


13.2 基于 IO 多 路 复 用 的 并 发 编程 


假设 要 求 你 编写 一 个 echo 服务 器 , 它 也 能 对 用 户 从 标准 输入 键入 的 交互 命令 做 出 响应 。 在 这 种 
人 情况 下 ， 上 服务 器 必须 响应 两 个 互相 独立 的 WO 事件 : 网 络 客户 端 发 起 连接 请 求 , 用 户 在 键盘 上 键入 
命令 行 。 我 们 先 等 待 哪个 事件 呢 ? 没有 哪个 选择 是 理想 的 。 如 果 我 们 在 accept 中 等 待 一 个 连接 请 求 ， 
我 们 就 不 能 啊 应 输入 的 命令 。 类 似 地 ， 如 果 我 们 在 read 中 等 待 一 个 输入 命令 ， 我 们 就 不 能 响应 任何 
连接 请 求 . 

针对 这 种 困境 的 一 个 解决 办 法 就 是 VO 多 路 复 用 (VO multiplexing) 技术 。 基 本 的 思路 就 是 使 
用 select 了 钢 数 ， 要 求 内 核 挂 起 进程 ， 只 有 在 一 个 或 多 个 WO 事件 发 生 后 ， 才 将 控制 返回 给 应 用 程序 ， 
就 像 在 下 面 的 示例 中 一 样 : 

o 当 集 合 {0，4} 中 任意 描述 符 准 备 好 读 时 返回 。 

。 当 集 合 {1，2，7} 中 任意 描述 符 准 备 好 写 时 返回 。 

。 如 末 在 等 待 一 个 IO 事件 发 生 时 过 了 152.13 秒 ， 就 超时 。 

select 是 一 个 复杂 的 函数 ， 有 许多 不 同 的 使 用 模式 。 我 们 将 只 讨论 第 一 种 模式 : 等 待 一 组 描述 
从 准备 好 读 。 全 面 的 讨论 请 参考 [76，81]。 


#include <unistd.h> 
#include <sys/types.h> 
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int select(int n, fd_set *fdset, NULL, NULL, NULL); 
返回 已 准备 好 的 档 述 符 的 非 零 个 数 ， 若 出 错 则 为 -1。 


FD ZERO(fd_set *fdset); /* Clear all bits in fdset */ 
FD_CLR (int fd, fd_set *fdset); /* Clear bit fd in fdset */ 

FD _SET(int fd, fd set *fdset); /* Turn on bit fd in fdset */ 
FD_ISSET(int fd, fd_set *fdset); /* Is bit fd in fdset turned on? */ 


处 理 描述 符 集合 的 宏 ， 


select 因数 处 理 类 型 为 fd_set 的 集合 ， 也 叫做 描述 符 集合 。 逻 辑 上 ,我 们 将 描述 符 集合 看 成 一 个 
大 小 为 n 的 位 掩 码 : 


bn- °t bi boo 

每 个 位 bP ERI k SHENA b=, 描述 符 k 才 表明 是 找 述 符 集 合 的 一 个 元 素 。 只 爷 
许 你 对 描述 符 集 合 做 三 件 事 : 分 配 它们 ， 将 一 个 此 种 类 型 的 变量 赋值 给 另 一 个 变量 ， 用 FD_ZERO、 
FD_SET、FD_CLR 和 FD_ISSET 宏 指 令 来 修改 和 检查 它们 。 

针对 我 们 的 目的 ，select 函数 有 两 个 输入 : 一 个 称 为 读 集 合 的 描述 符 集合 (fdset) 和 该 读 集 合 的 
TUR (n). select 函数 会 一 直 阻 塞 ， 直 到 读 集 合 中 至 少 有 一 个 找 述 符 准 备 好 可 以 读 。 当 量 仅 当 一 
个 从 该 接 述 符 读 取 一 个 字 节 的 请 求 不 会 阻塞 时 , 描述 符 k 就 表示 准备 好 可 以 读 了 。 作 为 一 个 副作用 ， 
select 修改 了 参数 fdset FH) MY fd_set， 指 明 读 集合 中 一 个 称 为 准备 好 集合 (ready set) 的 子 集 ， 这 个 
集合 是 册 读 集合 中 准备 好 可 以 读 了 的 描述 符 组 成 的 。 函 数 返 回 的 值 指明 了 准备 好 集合 的 元 素 量 。 注 
意 ， 由 于 这 个 副作用 ， 我 们 必须 在 每 次 调用 select 时 都 更 新 读 集合 。 

理解 select 的 最 好 办 法 是 研究 一 个 具体 例子 。 图 13.6 展示 了 我 们 可 以 如 何 利用 select 来 实现 一 
ATK echo 服务 器 ， 它 也 可 以 接受 标准 输入 上 的 用 户 命令 。 


code/conc/select.c 
#inciude "csapp.h" 
void echo(int connfd}; 
void command (void); 


int main(int argc, char **argv) 

{ 
int listenfd, connfd, port, clientlen = sizeof(struct sockaddr_in); 
struct sockaddr_in ciientaddr; 
fd set read_set, ready_set; 


if (argc != 2) { 
fprintf(stderr, “usage: %s <port>\n", argv[0]); 
exit (0); 
} 
port = atoi(argv[1]); 


listenfd = Open_listenfd(port); 


BPP rPrPrPrP PrP WO DADO B&W N bP 
IDO PrP Wn F O&O 


| 
OD 


FD ZERO (&read_set); 
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19 FD _ SET(STDIN_FILENO, &read_set); 

20 FD _SET(listenfd, &read set): 

21 

22 while (1) { 

23 ready set = read _ set; 

24 Select (listenfd+1, &ready_set, NULL, NULL, NULL); 
25 if (FD_ISSET(STDIN_FILENO, &ready_set)) 
26 command(); /* read command line from stdin */ 
27 if (FD_ISSET(listenfd, &ready_set)) { 

28 connfd = Accept(listenfd, (SA *)&clientaddr, &clientlen); 
29 echo (connftd); /* echo client input until EOF */ 
30 } 

31 } 

32 } 

33 

34 void command(void) { 

35 char buf [MAXLINE] ; 

36 1f (!Fgets (buf, MAXLINE, stdin) ) 

37 exit (0); /* EOF */ 

38 printf("%s", buf); /* Process the input command */ 

39 } 


code/conc/select.c 


图 13.6 使 用 MO 多 路 复 用 的 echo 服务 器 
服务 器 使 用 select 等 待 监听 描述 符 上 的 连接 请 求 和 标准 输入 上 的 命令 。 


一 开始 ， 我 们 用 图 12.7 中 的 open_listenfd 函数 打开 一 个 监听 描述 符 (第 16 行 )， 然 后 使 用 
FD_ZERO 创建 一 个 空 的 读 集合 : 
listenfd stdin 


3 2 l 0 


cesa seco: [0 Lo fo]. 


接 下 来 ， 在 第 19 一 20 行 中 ， 我 们 定义 由 描述 符 0 (标准 输入 ) 和 描述 符 3 (监听 描述 符 ) 组 成 
的 读 集 合 : 
listenfd stdin 


3 2 l 0 


read seed n: | o | oo 


在 这 里 ， 我 们 开始 典型 的 服务 器 循环 。 但 是 我 们 不 调用 accept 函数 来 等 待 一 个 连接 请 求 ， 而 是 
Wal FA select 曙 数 ， 这 个 函数 会 一 直 阻 塞 ， 直 到 监听 描述 符 或 者 标准 输入 准备 好 可 以 读 〈 第 24 行 )。 
例如 ， 下 面 是 当 用 户 敲 击 回 车 键 ， 因 此 使 得 标准 输入 描述 符 变 为 可 读 时 ，select 会 返回 的 ready_set 
KHE: 
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iistenfd stdin 


3 2 t Q 


一 且 select 返回 ， 我 们 就 用 FD_ISSET AES RKA RR RRT AE RE A A OR ERE 
和 输入 准备 好 了 【第 25 行 )， 我 们 就 调用 command 函数 ， 该 函数 在 返回 到 主 程序 前 ， 会 读 、 解 析 和 员 
应 命令 。 如 果 是 监听 描述 符 准 备 好 了 《第 27 行 )， 我 们 就 调用 accept 来 得 到 一 个 已 连接 描述 从 ， 然 
后 调用 图 12.21 中 的 echo 函数 , 它 会 将 来 自 客户 端的 每 一 行 义 回 送 回去 , 直到 客户 端 关 闭 它 的 连接 。 

虽然 这 个 程序 是 使 用 select 的 一 个 很 好 示例 ， 但 是 它 仍 然 留 下 了 一 些 问题 竺 解决 。 问 题 是 一 旦 
它 连 接 到 某 个 客户 端 ， 就 会 连续 回 送 输入 行 ， 直 到 客户 端 关 闭 它 的 连接 端 。 因 此 ， 如 果 你 键入 一 个 
命令 到 标准 输入 ， 你 将 不 会 得 到 啊 应 ， 直 到 服务 器 和 客户 着 之 间 结 束 。 一 个 更 好 的 方法 是 更 细 粒 度 
的 多 路 复 用 ， 服 务 器 每 次 循环 (至多) 回 送 一 个 文本 行 〈 参 见 练 习题 13.3 )。 


13.2.1 基于 VO 多 路 复 用 的 并 发 事件 驱动 服务 器 

VO 多 路 技术 可 以 用 做 并 发 事件 驱动 〈event-driven) 程序 的 基础 ， 在 事件 驱动 中 ， 流 是 作为 某 
种 事件 的 结果 前 进 的 ,一 般 概 念 是 将 人 逻辑 流 模型 化 为 状态 机 ,不 严格 地 说 ,一 个 状态 机 (state machine ) 
就 是 一 组 状态 (state). MABE (input event) 和 转移 (transition )， 其 中 转移 就 是 将 状态 和 输入 事 
件 映 射 到 状态 。 每 个 转移 都 将 一 对 (输入 状态 和 输入 事件 ) 映射 到 一 个 输出 状态 。 自 循环 (self-loop) 
是 同一 输入 和 输出 状态 之 间 的 转移 。 通 常 把 状态 机 对 成 有 向 图 ， 其 中 节点 表示 状态 ， 有 向 弧 表 示 转 
黎 ， 而 缠 上 的 标号 表示 输入 事件 。 一 个 状态 机 从 某 种 初始 状态 开始 执行 。 每 个 输入 事件 都 会 引发 一 
个 从 当前 状态 到 下 一 状态 的 转移 。 

对 于 每 个 新 的 客户 端 k， 基 于 IO 多 路 复 用 的 并 发 服务 器 会 创建 一 个 新 的 状态 机 so 并 将 它 和 已 
连接 摘 述 符 di 联系 起 来 ,如 图 13.7 所 示 , 每 个 状态 机 s; 都 有 一 个 状态 (“等 待 描述 符 di 准备 好 可 读 ”)、 
一 个 输入 事件 CRIB FF 起 准备 好 可 以 读 了 ”)》 和 一 个 转移 〈“ 从 描述 符 di 读 一 个 文本 行 ”)。 


输入 事件 :“ 描 述 符 
小 惟 备 好 可 以 读 了 ” 


转移 :“ 从 描述 符 
dy HES MBG” 


状态 :“ 等 待 描述 符 
di 准备 好 可 读 ” 


图 13.7 并 发 事件 驱动 echo 服务 器 中 逻辑 流 的 状态 机 


服务 器 使 用 VO SERB, fad select 函数 ， 检 测 输入 事件 的 发 生 。 当 每 个 已 连接 描述 符 准备 
好 可 读 时 ， 服 务 器 就 为 相应 的 状态 机 执行 转移 ， 在 这 里 就 是 从 找 述 符 读 和 写 回 一 个 文本 行 。 

图 13.8 展示 了 一 个 基于 VO 多 路 复 用 的 并 发 事件 驱动 服务 器 的 完整 示例 代码 。 活 动 客户 端的 集 
合 维护 在 一 个 pool CB) 结构 里 (第 3 一 11 行 )。 在 通过 调用 init_pool 初始 化 池 (第 28 行 ) 之 后 ， 
服务 器 进入 一 个 无 限 循环 。 在 每 次 循环 中 ， 服 务 器 调用 select 函数 来 检测 两 种 不 同类 型 的 输入 事件 :; 
来 自 一 个 新 客户 端的 连接 请 求 到 达 ， 一 个 已 存在 的 客户 端的 已 连接 描述 符 准 备 好 可 以 读 了 。 当 一 个 
连接 请 求 到 达 时 (第 35 行 )， 服 务 器 打开 连接 【第 36 行 )， 并 调用 add_client 函数 ， 将 该 客户 端 添 
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加 到 池 里 (第 37 行 )。 最 后 ， 服 务 器 调用 check_client 函数 ， 把 来 自 每 个 准备 好 的 已 连接 描述 符 的 
一 个 文本 行 回 送 回 去 〈 第 41 行 )。 


code/conc/echoservers.c 


#include "csapp.h" 


typedef struct { /* represents a pool of connected descriptors */ 
int maxfd; /* largest descriptor in read_set */ 
fd_set read_set; /* set of all active descriptors */ 
fd_set ready_set; /* subset of descriptors ready for reading */ 
int nready; /* number of ready descriptors from select */ 
int maxi; /* highwater index into client array */ 
int clientfd{FD_SETSIZE]; {* set of active descriptors */ 
rio_t clientrio[FD_SETSIZE}; /* set of active read buffers */ 
} pool; 


int byte_cnt = 0; /* counts total bytes received by server */ 


int main(int argc, char **argv) 


{ 


int _istenfd, connfd, port, clientlen = sizeof (struct sockaddr_in); 
Struct sockaddr_in clientaddr; 
static pool pool; 


if (argc != 2) { 
fprintf(stderr, "usage: $s <port>\n", argv[01): 
exit(0); 

} 


port = atoi(argv([1]); 


listenfd = Open_listenfd(port) ; 
init_pool(listenfd, &pool); 
while (1) { 
/* Wait for listening/connected descriptor(s) to become ready */ 
pool.ready_set = pool.read_set; 
pool.nready = Select (pool .maxfd+1, &pool.ready_set, NULL, NULL, NULL); 


/* If listening descriptor ready, add new client to pool */ 

if (FD_LISSET(listenfd, &pool.ready_set)) 1 
connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
add_client(connfd, &pool); 


/* Echo a text line from each ready connected descriptor */ 
check_clients (&pool) ; 
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图 13.8 BT 1/0 多 路 复 用 的 并 发 echo Sat 
每 次 服务 器 循环 都 回 送 来 自 每 个 准备 好 的 描述 符 的 文本 行 。 


init_pool 函数 (图 13.9) 初始 化 客户 端 池 。clientfd 数组 表示 已 连接 描述 符 的 集合 ， 甚 中 -1 表示 
一 个 可 用 的 槽 位 。 初 始 时 ， 已 连接 描述 符 集 合 是 宝 的 (第 5~7 行 )， 而 且 监 听 描 述 符 是 select EH 
合 中 惟一 的 描述 符 〈 第 10 一 12 47). 


code/conc/echoservers.c¢ 


1 void init_pool(int listenfd, pool *p) 
< i 

3 /* Initially, there are no connected descriptors */ 
4 int i; 

5 p->maxi = -l; 

6 for (1=0; i< FD_SETSIZE; i++) 

7 p->clientfdf{1] = -1; 

B 

9 /* Initially, listenfd is only member of select read set */ 
10 p->maxid = listenfd; 

11 FD_ZERO (&p->read_set); 

12 FD_SET(listenfd, &p->read_set); 
13 } 


code/conc/echoservers.c 


图 13.9 init_pool: 初始 化 活动 客户 端 池 


add_client (fj 13.10) 函数 添加 一 个 新 的 客户 端 到 活动 客户 端 池 。 在 clientfd 数组 中 找到 一 个 空 
位 后 ， 服 务 器 将 这 个 已 连接 描述 符 添加 到 数组 中 ， 并 初始 化 相应 的 Rio 读 缓冲 区 ， 使 得 我 们 能 够 对 
这 个 描述 符 调用 rio_readlineb (第 8 一 9 47). 然后, 我 们 将 这 个 已 连接 描述 符 添 加 到 select 读 集合 (第 
12 行 )， 并 更 新 设 池 的 一 些 全 局 属性 。maxfd 变量 (第 15~16 47) 记录 了 select 的 最 大 文件 描述 符 。 


maxi 变量 (第 17~18 行 ) 记录 的 是 clientfd 数组 的 最 大 索引 ， 这 样 check_clients 铺 数 就 无 需 搜索 整 
个 数组 了 。 


code/conc/echoservers.c 
void add_client (int connfd, pool *p) 
{ 
int 1; 
p->nready--; 
for (1 = 0; 1 < FD_SETSIZE; i++) /* Find an available slot */ 
1f (p-reclientfd[i] < 0) { 
/* Add connected descriptor to the pool */ 
p->clientfd[il = connfd; 
Rio_readinitb(&p->clientrio[i], connfd); 
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10 

11 /* Add the descriptor to descriptor set */ 

12 FD SET (connfd, &p->read_set); 

13 

14 /* Update max descriptor and pool highwater mark */ 
15 if (connfd > p->maxfd) 

16 p->maxfd = connfd; 

17 if (1 > p->maxi) 

18 p->maxl = 1; 

19 break; 

20 } 

21 if (i == FD_SETSIZE) /* Couldn’t find an empty slot */ 
22 app_error("add_client error: Too many clients"); 
23 } 


code/conc/echoservers.c 
图 13.10 add_client: 添加 一 个 新 的 客户 端 连接 到 池 中 


check_clients (图 13.11) 也 数 回 送 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 。 如 果 我 们 成 
功 地 从 描述 符 读 取 了 一 个 文本 行 ， 那 么 我 们 就 将 该 文本 行 回 送 到 客户 端 (第 1$~18 行 )。 注 意 ， 在 
第 15 行 我 们 维护 着 一 个 从 所 有 客户 端 接收 到 的 全 部 字 节 的 累计 值 。 如 果 因 为 客户 端 关 闭 它 的 连接 
端 ， 我 们 检测 到 EOF， 那 么 我 们 将 关闭 我 们 这 边 的 连接 端 (第 23 行 )， 并 从 池 中 清除 掉 这 个 描述 符 
(第 24~25 47). 


code/conc/echoservers.c 


1 void check _clients(pool *p) 

2 

3 int i, conntd, n; 

4 char buf [MAKLINE] ; 

5 rio_t rio; 

6 

7 for {1 = 0; (i <= p->maxi) && (p->nready > 0); i++) { 

8 connfd = p->clientfdii]; 

9 rio = p->clientriof[il; 

10 

11 /* If the descriptor is ready, echo a text line from it */ 

12 if ((connfd > 0) && (FD_ISSET(connfd, &p->ready_set))) { 
13 p->nready--; 

14 if ((m = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
15 byte_cnt += n; 

16 printf("Server received %d (%d total) bytes on fd d\n", 
17 n, byte_cnt, connrfd); 

18 Rio_writen(connfd, buf, n); 

19 } 
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21 /* EOF detected, remove descriptor from poo} */ 
22 else { 

23 Close(connfd}); 

24 FD CLR(connfid, &p->read_set); 
25 p->clientfd[i] = -1; 


code/conc/echoservers.c 
图 13.11 check clients: 为 准备 好 的 客户 端 连接 服务 


根据 图 13.7 中 的 有 限 状 态 模型 ，select 函数 检测 到 输入 事件 , 而 add_client 函数 创建 一 个 新 的 逻 
辑 流 〈 状 态 机 )。check_clients 项 数 通过 回 送 输入 行 来 执行 状态 转移 ， 而 且 当 客户 端 完成 文本 行 发 送 
时 ， 它 还 要 删除 这 个 状态 机 。 


13.2.2 WO 多 路 复 用 技术 的 优 几 

图 13.8 中 的 服务 器 提供 了 一 个 很 好 的 基于 VO 多 路 复 用 的 事件 驱动 编程 的 优 缺 点 示例 。 事 件 驱 
动 设计 的 一 个 优点 是 ， 它 比 基 于 进程 的 设计 给 了 程序 员 更 多 的 对 程序 行为 的 控制 。 例 如 ， 我 们 可 以 
设想 编写 一 个 事件 驱动 的 并 发 服务 器 ， 为 某 些 客户 端 提供 它们 需要 的 服务 ， 而 这 对 于 基于 进程 的 并 
发 服务 器 来 说 ， 是 很 困难 的 。 

另 一 个 优点 是 ， 一 个 基于 VO 多 路 复 用 的 事件 驱动 服务 器 是 运行 在 单一 进程 上 下 文中 的 ， 因 此 
每 个 逻辑 流 都 能 访问 该 进程 的 全 部 地 址 空间 。 这 使 得 在 流 之 间 共 享 数据 变 得 很 容易 。 作 为 单一 进程 
运行 的 一 个 相关 优点 是 ， 你 可 以 利用 熟悉 的 调试 工具 (例如 GDB) 来 调试 你 的 并 发 服务 器 ， 就 像 对 
顺序 程序 那样 。 最 后 ， 事 件 驱 动 设计 常常 比 基 于 进程 的 设计 要 明显 地 高 效 得 多 ， 因 为 它们 不 要 求 有 
进程 上 下 文 切换 来 调度 新 的 流 。 

事件 驱动 设计 一 个 明显 的 缺点 就 是 编码 复杂 . 例如 , 我 们 的 事件 驱动 的 并 发 echo 服务 器 需要 的 
代码 比 基 于 进程 的 服务 器 多 三 倍 ， 并 且 很 不 幸 ， 随 着 并 发 性 粒度 的 减 小 ， 复 杂 性 还 会 上 升 。 这 里 的 
粒度 是 指 每 个 逻辑 流 每 次 时 间 片 执行 的 指令 数目 。 例 如 ， 在 我 们 的 示例 并 发 服务 器 中 ， 并 发 粒度 就 
是 读 一 个 完整 的 文本 行 所 需要 的 指令 数目 。 只 要 某 个 逻辑 流 正 忙于 读 一 个 文本 行 ， 其 他 逻辑 流 就 不 
可 能 有 进展 。 对 我 们 的 例子 而 言 这 就 很 好 了 ， 但 是 它 使 得 我 们 的 事件 驱动 服务 器 在 “故意 只 发 送 部 
分 文本 行 然后 就 停止 ”的 恶意 客户 端的 攻击 面前 显得 很 脆弱 。 修 改 事件 驱动 服务 器 来 处 理 部 分 文本 
行 不 是 一 个 简单 的 任务 ， 但 是 基于 进程 的 设计 却 能 处 理 得 很 好 ， 而 且 是 自动 处 理 的 。 


练习 题 13.3 
在 大 多 数 的 Unix 系统 里 ， 在 标准 输入 上 键入 ctrl-d 表示 EOF。 如 果 你 在 图 13.6 中 的 程序 阻塞 
在 对 select 的 调用 上 时 ， 键 入 ctri-d 会 发 生 什 么 ? 


图 13.8 所 示 的 服务 器 中 ， 我 们 在 每 次 调用 select 之 前 都 立即 小 心地 重新 初始 化 pool.ready_set 
RE. 为 什么 ? 
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13.3 ”基于 线程 的 并 发 编程 


到 目前 为 止 ， 我们 己 经 看 到 了 两 种 创建 并 发 逻辑 流 的 方法 。 在 第 一 种 方法 中 ， 我 们 为 每 个 流 使 
用 了 单独 的 进程 。 内 核 会 自动 调度 每 个 进程 。 每 个 进程 有 它 自己 的 私有 地 址 空间 ， 这 使 得 流 共 享 数 
JIRE. 在 第 二 种 方法 中 ， 我 们 创建 自己 的 逻辑 流 ， 并 利用 IO 多 路 复 用 来 显 式 地 调度 流 。 因 为 
只 有 一 个 进程 ， 所 有 的 流 共享 整个 地 址 空间 。 这 一 节 介 绍 第 三 种 方法 一 一 基于 线程 一 一 它 是 这 两 种 
方法 的 混合 。 

一 个 线程 (thread) 就 是 运行 在 一 个 进程 上 下 文中 的 一 个 逻辑 流 。 迄 今 在 本 书 里 ， 我 们 的 程序 
都 是 由 一 个 进程 中 一 个 线程 组 成 的 。 但 是 现代 系统 也 允许 我 们 编写 一 个 进程 里 同时 运行 多 个 线程 的 
程序 。 线 程 由 内 核 自 动 调度 。 每 个 线程 都 有 它 自己 的 线程 上 下 文 (thread context)， 包 括 一 个 惟一 的 
整数 线程 ID (Thread ID，TID)、 栈 、 栈 指针 、 程 序 计数 器 、 通 用 目的 寄存 器 和 条 件 码 。 所 有 的 运 
行 在 一 个 进程 里 的 线程 共享 该 进程 的 整个 虚拟 地 址 空间 。 

基于 线程 的 远 辑 流 结合 了 基于 进程 和 基于 VO 多 路 复 用 的 流 的 特性 。 同 进程 一 样 ， 线 程 由 内 核 
目 动 调度 ， 并 且 内 核 通过 一 个 整数 ID 来 识别 线程 。 同 基于 VO 多 路 复 用 的 流 一 样 ， 多 个 线程 运行 在 
单一 进程 的 上 下 文中 ， 因 此 共享 这 个 进程 虚拟 地 址 空间 的 整个 内 容 ， 包 括 它 的 代码 、 数 据 、 堆 、 共 
至 库 和 打开 的 文件 。 


13.3.1 线程 执行 模型 

多 个 线程 的 执行 模型 在 某 些 方 面 和 多 进程 的 执行 模型 是 很 相似 的 。 思考 一 下 图 13.12 中 的 示例 。 

每 个 进程 开始 生命 周期 时 都 是 单一 线程 ， 这 个 线程 称 为 主线 程 (main thread)。 在 某 一 时 刻 ， 主 线程 

创建 一 个 对 等 线程 (peer thread)， 从 这 个 时 间 点 开始 ， 两 个 线程 就 并 发 运行 。 最 后 ， 因 为 主线 程 执 

行 一 个 慢 速 系统 调用 ， 例 如 read 或 者 sleep， 或 者 因为 它 被 系统 的 间隔 计时 器 中 斯 ， 控 制 就 会 通过 
上 下 文 切换 传递 到 对 等 线程 。 在 控制 传递 回 主线 程 前 ， 对 等 线程 会 执行 一 段 时 间 ， 依 次 类 推 。 

时 但 
线程 1 
(ERE) 


线程 < 
(对 等 线程 ) 


— = —— —— — e E e e e a r E e ë 


— m a ke e oe — i y- r — e e y r e r E e u M 


} 线程 上 下 文 切换 


HA TE Eke 


} 线程 上 下 文 切 换 


} 线程 上 下 文 切换 


图 13.12 并 发 线程 的 执行 
在 一 些 重 要 的 方面 ， 线 程 执行 是 不 同 于 进程 的 。 因 为 一 个 线程 的 上 下 文 要 比 一 个 进程 的 上 下 文 
小 得 多 ， 线 程 的 上 下 文 切 换 要 比 进程 的 上 下 文 切 换 快 得 多 。 另 一 个 不 同 就 是 线程 ， 不 像 进程 那样， 
不 十 护照 严格 的 父子 层次 来 组 织 的 .和 一 个 进程 相关 的 线程 组 成 一 个 对 等 (线程 ) 池 (a pool of peers )， 
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独立 于 其 他 线程 创建 的 线程 。 主 线程 和 其 他 线程 的 区 别 仅 在 于 它 总 是 进程 中 第 一 个 运行 的 线程 。 对 
等 (线程 ) 池 概 念 的 主要 影响 是 ， 一 个 线程 可 以 杀 死 它 的 任何 对 等 线程 ， 或 者 等 竺 它 的 任意 对 等 线 
程 终止 。 进 一 步 来 说 ， 每 个 对 等 线程 都 能 读 写 相同 的 共享 数据 。 


13.3.2 Posix 线程 

Posix 线程 〈(Pthreads) 是 在 C 程序 中 处 理 线程 的 一 个 标准 接口 。 它 最 早出 现在 1995 年 ， 而 且 
在 大 多 数 Unix 系统 上 都 可 用 。Pthreads 定义 了 大 约 60 SRM, VERON. ASEM, 
与 对 等 线程 安全 地 共享 数据 ， 还 可 以 通知 对 等 线程 系统 状态 的 变化 。 

图 13.13 展示 了 一 个 简单 的 Pthreads 程序 。 主 线程 创建 一 个 对 等 线程 ， 然 后 等 待 它 的 终止 。 对 
等 线程 输出 “Hello, worldtn ”并 且 终 止 。 当 主线 程 检测 到 对 等 线程 终止 后 ， 它 就 通过 调用 exit 终止 


code/conc/hello.c 
1 #include "csapp.h" 
2 void *thread(void *vargp) ; 
3 
4 int main() 
5 { 
6 pthread_t tid; 
7 Pthread_create(&tid, NULL, thread, NULL); 
8 Pthread_join(tid, NULL); 
9 exit(Q); 
10 } 
11 
12 void *thread(void *vargp) /* thread routine */ 
13 { 
14 printf(*Hello, world!\n"); 
15 return NULL; 
16 } 


code/fconc/shella.c 


图 13.13 hello.c: Pthreads “Hello, world!” 程序 


这 是 我 们 看 到 的 第 一 个 线程 化 的 程序 ， 所 以 让 我 们 仔细 地 解析 它 。 线 程 的 代码 和 本 地 数据 被 封 
效 在 一 个 线程 例 程 (thread routine) 中 。 正 如 第 二 行 里 的 原型 所 示 ， 每 个 线程 例 程 都 以 一 个 通用 指 
针 作 为 输入 ， 并 返回 一 个 通用 指针 。 如 果 你 想 传 递 多 个 参数 给 线程 例 程 ， 那 么 你 应 该 将 参数 放 到 一 
个 结构 中 ， 并 传递 一 个 指向 该 结构 的 指针 。 相 似 地 ， 如 果 你 想 要 线程 例 程 返回 多 个 参数 ， 你 可 以 返 
回 一 个 指向 一 个 结构 的 指针 。 

第 4 行 标 出 了 主线 程 代码 的 开始 。 主 线程 声明 了 一 个 本 地 变量 tid, 它 可 以 用 来 存放 对 等 线程 的 
线程 ID (第 6 行 )。 主 线程 通过 调用 pthread_create 函数 创建 一 个 新 的 对 等 线程 〈 第 7 行 )。 当 对 
pthread_create 的 调用 返回 时 ， 主 线程 和 新 创建 的 对 等 线程 并 发 运行 ， 并 且 tid 包含 新 线程 的 ID。 通 
过 调用 pthread_join， 主 线程 等 待 对 等 线程 终 店 〈 第 8 行 )、 最 后 ， 主 线程 调用 exit E 947) Bik 
当时 运行 在 这 个 进程 中 的 所 有 线程 (在 这 个 示例 中 就 只 有 主线 程 )。 

第 12 一 16 行 定义 了 对 等 线程 的 线程 例 程 。 它 只 打印 一 个 字符 串 ， 然 后 就 通过 在 第 15 行 执行 
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return HH) KA EXT AE 


13.3.3 创建 线程 
线程 通过 调用 pthread_create HANK Gl BH ARE. 


#include <pthread.h> 
typedef void *(func) (void *); 


int pthread_create(pthread_t *tid, pthread_attr_t *attr, 
func *f, void *arg); 


若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 


pthread_create 函数 创建 一 个 新 的 线程 ， 并 带 着 一 个 输入 变量 arg， 在 新 线程 的 上 下 文中 运行 线 
程 例 程 f。 能 用 atr 参数 来 改变 新 创建 线程 的 默认 属性 。 改 变 这 些 属性 已 超出 我 们 学 习 的 范围 ， 并 且 
在 我 们 的 示例 中 ， 我 们 总 是 用 一 个 空 的 attr 参数 来 调用 pthread_create 函数 。 

当 pthread_create 返回 时 ， 参 数 tid 包含 新 创建 线程 的 ID。 新 线程 可 以 通过 调用 pthread_self 函 
数 来 获得 它 自 己 的 线程 ID。 


#include <pthread.h> 


pthread_t pthread_self (void); 


返回 调用 者 的 线程 ID， 


13.3.4 终止 线程 
一 个 线程 是 以 下 列 方 式 之 一 来 终止 的 : 
© 当 顶 层 的 线程 例 程 返 问 时 ， 线 程 会 隐 式 地 终 汗 。 
o 通过 调用 pthread_exit 函数 , 线程 会 显 式 地 终止 ,该 函数 会 返回 一 个 指向 返回 值 thread_return 
的 指针 。 如 果 主 线程 调用 pthread_exit， 它 会 等 待 所 有 其 他 对 等 线程 终止 ， 然 后 再 终止 主线 
杜 和 整个 进程 ， 返 回 值 为 thread_return。 


#include <pthread.h> 


int pthread_exit(void *thread_return): 


INTRO, SHR) HAS, 


。 东 个 对 等 线程 调用 Unix 的 exit 函数 ， 该 函数 终止 进程 以 及 所 有 与 该 进程 相关 的 线程 。 
。 为 一 个 对 等 线程 通过 带 调用 当前 线程 ID 来 的 pthread_cancle 因数 来 终止 当前 线程 。 


#include <pthread.h> 


int pthread_cancel (pthread_t tid); 


车 成 功 则 返回 0， 若 出 错 则 为 非 零 。 


13.3.5 回收 已 终止 线程 的 资源 
线程 通过 调用 pthread_join 函数 等 待 其 他 线程 终止 。 
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#include <pthread.h> 


int pthread_join(pthread_t tid, void **thread_return); 


FRAIES O SHAR) AAD, 


pthread_join pA WPA, 直到 线程 tid 终止 ,将 线程 例 程 返回 的 (void* ) 8 Et RAE A thread_return 
指 回 的 位 置 ， 然 后 回收 已 终止 线程 占用 的 所 有 存储 侣 资产。 

YER, Al Unix 的 wait 函数 不 同 的 ，pthread_join 函数 只 能 等 待 一 个 指定 的 线程 终止 。 没 有 办 法 
让 pthread_wait 等 待 任意 一 个 线程 终止 。 这 使 得 我 们 的 代码 更 加 复杂 ， 因 为 它 迫 使 我 们 去 使 用 其 他 
一 些 不 那么 直观 的 机 制 来 检测 进程 的 终止 。 实 际 上 ，Stevens 在 [81] 中 就 很 有 说 服 力 地 论证 了 这 是 一 
个 错误 。 


13.3.6 分离 线程 

在 任何 一 个 时 间 点 上 ， 线程 是 可 结合 的 (joinable) 或 者 是 分 离 的 (detached)。 一 个 可 结合 的 线 
程 能 够 被 其 他 线程 收回 其 资源 和 杀 死 。 在 被 其 他 线程 回收 之 前 ， 它 的 存储 器 资源 (例如 栈 ) EAE 
放 的 。 相 捅 ， 一 个 分 离 的 线程 是 不 能 被 其 他 线程 回收 或 杀 死 的 。 它 的 存储 器 资源 在 它 终止 时 由 系统 
目 动 释放 。 

默认 情况 下， 线程 被 创建 成 可 结合 的 。 为 了 避免 存储 器 泄漏 ， 每 个 可 结合 线程 都 应 该 要 么 被 其 
他 线程 显 式 地 收回 ， 要 么 通过 调用 pthread_detach 函数 被 分 离 。 


#include <pthread.h> 


int pthread detach (pthread t tid); 


若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 


pthread_detach 图 数 分 离 可 结合 线程 tid。 线 程 能 够 通过 以 pthread_selfO 为 参数 的 pthread_detach 
调用 来 分 离 它 们 自己 。 

代 管 我 们 的 一 些 例子 会 使 用 可 结合 线程 ,但 是 在 现实 程序 中 ， 有 理由 要 使 用 分 离 的 线程 。 例 如 ， 
一 个 高 性 能 Web 服务 器 可 能 在 每 次 收 到 Web 浏览 器 的 连接 请 求 时 都 创建 一 个 新 的 对 等 线程 。 因 为 
每 个 连接 都 是 由 一 个 单独 的 线程 独立 处 理 的 ， 所 以 对 于 服务 器 而 言 ， 就 很 没有 必要 一 一 实际 上 也 不 
愿意 一 一 显 式 地 等 待 每 个 对 等 线程 终止 。 在 这 种 情况 下 ， 每 个 对 等 线程 都 应 该 在 它 开始 处 理 请 求 之 
前 ,分离 它 自身 ， 这 样 就 能 在 它 终止 后 ， 回 收 它 的 存储 器 资源 了 ， 


13.3.7 初始 化 线程 
pthread_once 痕 数 允许 你 初始 化 与 线程 例 程 相关 的 状态 。 


#include <pthread.h> 


pthread_once_t once_control = PTHREAD ONCE INIT; 


int ptnread_once(pthread_once_t *once control, 
void (*init_routine) (void)): 
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once_control 变量 是 一 个 全 局 或 者 静态 变量 ， 总 是 被 初始 化 为 PTHREAD_ONCE_INIT。 当 你 第 
一 次 用 参数 once_control 调用 pthread_once 时 ， 它 调用 init_routine， 这 是 一 个 没有 输入 参数 ， 也 不 
返回 什么 的 函数 。 接 下 来 的 以 once_control 为 参数 的 pthread_once 调用 不 做 任何 事情 。 无 论 何 时 ， 
当 你 需要 动态 初始 化 多 个 线程 共享 的 全 局 变量 时 ，pthread_once 函数 是 很 有 用 的 。 我 们 将 在 13.6 节 
里 看 到 一 个 示例 。 


13.3.8 ”一 个 基于 线程 的 并 发 服务 器 
图 13.14 展示 了 基于 线程 的 并 发 echo 服务 器 的 代码 。 整 体 结构 类 似 于 基于 进程 的 设计 。 主 线程 
不 断 地 等 竺 连接 请 求 ， 然 后 创建 一 个 对 等 线程 处 理 该 请 求 。 虽 然 代 码 看 似 简单 ， 但 是 有 几 个 普遍 而 
且 有 学 做 妙 的 问题 需要 我 们 更 仔细 地 看 一 看 。 第 一 个 问题 是 当 我 们 调用 pthread_create 时 ， 如 何 将 已 
连接 描述 符 传递 给 对 等 线程 。 最 明显 的 方法 就 是 传递 一 个 指向 这 个 描述 符 的 指针 ， 就 像 下 面 这 样 
conntd = Accept (listenfd, (SA *) &clientaddr, &clientlen);: 
Pthread_create(&tid, NULL, thread, &connfd): 
然后 ， 我 们 让 对 等 线程 间接 引用 这 个 指针 ， 并 将 它 赋值 给 一 个 局 部 变量 ， 如 下 所 示 


void *thread(void *vargp) { 
int connfd = *((int *)vargp); 


} 


然而 ， 这 样 可 能 会 出 错 ， 因 为 它 在 对 等 线程 的 赋值 语句 和 主线 程 的 accept HAG AT BS 
(race)。 如 来 赋值 语句 在 下 一 个 accept 之 前 完成 ， 那 么 对 等 线程 中 的 局 部 变量 connfd 就 得 到 正确 的 
HR TT (a. MAM, WRB ALE accept 之 后 才 完 成 的 ， 那 么 对 等 线程 中 的 局 部 变量 connfd 就 得 
到 下 一 次 连接 的 描述 符 值 。 那么 不 幸 的 结果 就 是 , 现在 两 个 线程 在 同一 个 描述 符 上 执行 输入 和 输出 。 
为 了 如 例 这 种 潜在 的 致命 竞争 ， 我 们 必须 将 每 个 accept 返回 的 已 连接 描述 符 分 配 到 它 自己 的 动态 分 
配 的 存储 器 块 ， 如 第 20 一 21 行 所 示 。 我 们 会 在 13.7.4 节 中 回 过 来 讨论 竞争 的 问题 。 


code/conc/echoservert.c 


1 #1include "csapp.h" 

2 

3 void echo (int conrfd); 

4 void *thread(void *vargp); 

5 

6 int main(int argc, char **argv) 

7 { 

8 int listenfd, *connfdp, port, clientlen=sizeof (struct sockaddr in) ， 
9 Struct sockaddr_in clientaddr; 

10 pthread_t tid; 

11 

12 if (argc != 2) { 

13 fprintf(stderr, "usage: %s <port>\n", argv[0}); 


| 原文 为 pthread_once。 一 一 译 者 
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14 exit (0); 

15 } 

16 port = atoi (argv[1}); 

17 

18 listenfd = Open_listenfd(port); 

19 while (1) { 

20 connfdp = Malloc(sizeof(int)); 

21 *connfdp = Accept(listenfd, (SA *) &clientaddr, &clientlen); 
22 Pthread_create(&tid, NULL, thread, connfdp); 
23 } 

24 } 

25 


26  /* thread routine */ 
27 void *thread(void *vargp) 


28 { 

29 int connfd = *((int *)vargp); 
30 Pthread_detach(pthread_self(}); 
31 Free(vargp) ; 

32 echo (connfd) ; 

33 Close (connfd): 

34 return NULL; 

35 } 


code/conc/echoservert.c 


图 13.14 基于 线程 的 并 发 echo 服务 器 
刃 一 个 问题 是 在 线程 例 程 中 避免 存储 器 泄漏 。 既 然 我 们 不 显 式 地 收回 线程 ， 我 们 就 必须 分 离 每 
个 线程 ， 使 得 它 的 存储 器 资源 在 它 终止 时 能 够 被 收回 《第 30 行 )。 更 进一步 ， 我 们 必须 小 心 释放 主 
线程 分 配 的 存储 器 块 (第 31 行 )。 


练习 题 13.5 
在 图 13.5 中 基于 进程 的 服务 器 中 ,我 们 在 两 个 位 置 小 心地 关闭 了 已 连接 描述 符 : 父 进程 和 子 进 


程 。 然 而 ， 在 图 13.14 中 基于 线程 的 服务 器 中 ， 我们 只 在 一 个 位 置 关闭 了 已 连接 描述 符 : 对 等 线程 
HHA? 


13.4 多 线程 程序 中 的 共享 变 


从 一 个 程序 员 的 角度 来 看 ， 线 程 很 有 吸引 力 的 一 个 方面 就 是 多 个 线程 很 容易 共享 相同 的 程序 变 
量 。 然 而 ， 这 种 共享 也 是 很 环 手 的 。 为 了 编写 正确 的 多 线程 程序 ， 我 们 必须 对 所 谓 的 共享 以 及 它 是 
如 何 工作 的 有 很 清楚 的 了 解 。 

为 了 理解 C 程序 中 的 一 个 变量 是 否 是 共享 的 ， 有 一 些 基本 的 问题 要 解答 : 线程 的 基础 存储 器 模 
Me TA? 根据 这 个 模型 ， 变 量 实例 是 如 何 映射 到 存储 器 的 ? 最 后 ， 有 多 少 线程 引用 这 些 实例 ? 一 
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个 变量 是 共享 的 ， 当 且 仅 当 多 个 线程 引用 这 个 变量 的 某 个 实例 。 

为 了 让 我 们 对 共享 的 讨论 具体 化 ， 我 们 将 使 用 图 13.15 中 的 程序 作为 一 个 运行 示例 。 尽 管 有 沁 
人 为 的 痕迹 ， 但 是 它 仍然 值得 研究 ， 因 为 它 说 明了 关于 共享 的 许多 细微 之 处 。 示 例 程 序 由 一 个 创建 
了 两 个 对 等 线程 的 主线 程 组 成 。 主 线程 传递 一 个 惟一 的 ID 给 每 个 对 等 线程 ， 每 个 对 等 线程 利用 这 
AID 输出 一 条 个 性 化 的 信息 ， 以 及 调用 该 线程 例 程 的 全 部 次 数 的 数值 。 


code/conc/sharing.c 


1 #include "“csapp.h" 

2 #define N 2 

3 void *tthread(void *vargp) ; 
4 

5 char **ptr; /* global variable */ 

6 

7 int main() 

8 { 

9 int 1; 

10 pthread_t tid; 

11 char *msgs[N]} = { 

12 "Hello from foo", 

13 "Hello from bar" 

14 }; 

15 

16 ptr = msgs; 

17 for (i = 0; i < N; i++) 
18 Pthread create(&tid, NULL, thread, (void *)1); 
19 Pthread_exit (NULL); 

20 } 

21 

22 void *thread(void *vargp) 
23 { 

24 int myid = (int)vargp; 
25 Static int cnt = 0; 

26 printf("[%$d]: %s (cnt=%d)\n", myid, ptr[myid], ++cnt); 
27 } 


code/conc/sharing.c 


13.15 说明 共享 不 同方 面 的 示例 程序 


13.4.1 线程 存储 器 模型 

一 组 并 发 线程 运行 在 一 个 进程 的 上 下 文中 。 每 个 线程 都 有 它 自己 独立 的 线程 上 下 文 ， 包 括 线程 
ID、 栈 、 栈 指针 、 程 序 计数 器 、 条 件 代码 和 通用 目的 寄存 器 值 。 每 个 线程 和 其 他 线程 一 起 共享 进程 
上 下 文 的 剩余 部 分 。 这 包括 整个 用 户 虚拟 地 址 空间 ， 它 是 由 只 读 文本 〈 代 码 )、 读 / 写 数据 、 堆 以 及 
所 有 的 共享 库 代 码 和 数据 区 域 组 成 的 。 线 程 也 共享 同样 的 打开 文件 的 集合 。 

从 实际 操作 的 角度 来 说 ， 让 一 个 线程 去 读 或 写 另 一 个 线程 的 寄存 器 值 是 不 可 能 的 。 另 一 方面 ， 
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任何 线程 都 可 以 访问 共享 虚拟 存储 器 的 任意 位 置 。 如 果 某 个 线程 修改 了 一 个 存储 器 位 置 ， 那 么 其 他 
每 个 线程 最 终 都 能 在 它 读 这 个 位 置 时 发 现 这 个 变化 。 因 上 此， 寄存器 是 从 不 共享 的 ， 而 虚拟 存储 器 总 
是 共享 的 。 

各 自 独 立 的 线程 栈 的 存储 器 模型 不 是 那么 整齐 清楚 的 。 这 些 栈 被 保存 在 虚拟 地 址 空间 的 栈 区 域 
中 ， 并 且 通 常 是 被 它们 相应 的 线程 独立 地 访问 的 。 我 们 说 通常 而 不 是 总 是 ， 是 因为 不 同 的 线程 栈 是 
不 对 其 他 线程 设防 的 。 所 以 ， 如 果 一 个 线程 不 知 何故 得 到 一 个 指 同 其 他 线程 栈 的 指针 ， 那 么 它 束 可 
以 读 写 这 个 栈 的 任何 部 分 。 我 们 的 示例 程序 在 第 26 行 展示 了 这 一 点 , 其 中 对 等 线程 直接 通过 全 局 变 
量 pr 引用 主线 程 的 栈 的 内 容 。 


13.4.2 将 变量 映射 到 存储 器 

多 线程 的 C 程序 中 的 变量 根据 它们 的 存储 类 型 被 映射 到 虚拟 存储 器 。 

。 全 局 交 量 。 全 局 变量 是 定义 在 也 数 之 外 的 变量 。 在 运行 时 ， 碟 拟 存储 器 的 读 / 写 区 域 只 包含 
每 个 全 局 变量 的 一 个 实例 。 例 如 ， 第 5 行 声明 的 全 局 变量 ptr 在 虚拟 存储 器 的 读 / 写 区 域 中 
有 一 个 运行 时 实例 。 当 一 个 变量 只 有 一 个 实例 时 ， 我 们 只 用 变量 名 一 一 在 这 里 束 是 pt 一 一 
来 表示 这 个 实例 。 

。 本 地 自动 变 重 。 本 地 目 动 变量 惑 是 定义 在 函数 内 部 但 是 没有 static 属性 的 变量 。 在 运行 时 ， 
每 个 线程 的 栈 都 包含 它 自 己 的 所 有 本 地 上 自动 变量 的 实例 。 即 使 多 个 线程 执行 同一 个 线程 例 
程 时 , 也 是 如 此 。 例如 ， 有 一 个 本 地 变量 tid 的 实例 ， 它 保存 在 主线 程 的 栈 中 。 我 们 用 tid.m 
来 表示 这 个 实例 。 再 来 看 一 个 例子 , 本 地 变量 myid 有 两 个 实例 , 一 个 在 对 等 线程 0 的 栈 内 ， 
为 一 个 在 对 等 线程 1 的 栈 内 。 我 们 将 这 两 个 实例 分 别 表示 为 myid.p0 和 myid.p1。 

。 本 地 静态 变量 。 本 地 静态 变量 是 定义 在 函数 内 部 并 有 static 属性 的 变量 。 和 全 局 变量 一 样 ， 
虚拟 存储 右 的 读 / 写 区 域 只 包含 在 程序 中 声明 的 每 个 本 地 静态 变量 的 一 个 实例 。 例 如 ， 即 使 
我 们 示例 程序 中 的 每 个 对 等 线程 都 在 第 25 行 声明 了 cnt， 在 运行 时 ， 虚 拟 存储 器 的 读 / 写 区 
域 中 也 惟有 一 个 cnt 的 实例 。 每 个 对 等 线程 都 读 和 写 这 个 实例 。 


13.43 ”共享 变量 

我 们 说 一 个 变量 v 是 共享 的 ， 当 且 仅 当 它 的 一 个 实例 被 一 个 以 上 的 线程 引用 。 例 如 ， 我 们 示例 
程序 中 的 变量 cnt 就 是 共享 的 ， 因 为 它 只 有 一 个 运行 时 实例 ， 并 且 这 个 实例 被 两 个 对 等 线程 引用 。 
在 另 一 方面 ，myid 不 是 共享 的 ， 因 为 它 的 两 个 实例 中 每 一 个 都 只 被 一 个 线程 引用 。 然 而 ， 认 识 到 像 
msgs 这 样 的 本 地 自动 变量 也 能 被 共享 是 很 重要 的 。 


练习 题 13.6 
A. 利用 13.4 节 中 的 分 析 ， 为 图 13.15 中 的 示例 程序 在 下 表 的 每 个 条 目 中 填写 “是 ”或 者 “和 否 ”。 


在 第 一 列 中 ， 符 号 v.t 表示 变量 v 的 一 个 实例 ， 它 驻 留 在 线程 HARRY, HY BAR m( ER 
AZ), RAR pO (对 等 线程 0) 或 者 pl (对 等 线程 1 )。 


pr ed 
on | G 


对 等 线程 1 引用 的 ? 
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myid.p0 
myid.pl 


B. 根据 A 部 分 的 分 析 ， 变 量 ptr. cnt. i, msgs 和 myid 哪些 是 共享 的 ? 


13.5 用 信和 号 量 同步 线程 


共 孚 变量 是 十 分 方便 ， 但 是 它们 也 引入 了 同步 错误 (synchronization error) 的 可 能 性 。 考 虑 图 
13.16 中 的 程序 badcnt.c， 它 创建 了 两 个 线程 ， 每 个 线程 都 对 共享 计数 变量 cnt 加 1。 


code/conc/badcnt.c 


1 #include "csapp.h" 

2 

3 #define NITERS 100000000 

4 void *count (void *arg}; 

5 

6 /* shared counter variable */ 

7 unsigned int cnt = 0; 

8 

9 int main() 

10 { 

11 pthread_t tidl, tid2; 

12 

13 Prhread_create(&tidl, NULL, count, NULL): 
14 Pthreac_create(&tid2, NULL, count, NULL); 
15 Pthread_join(tidl, NULL); 

16 Pthread_join(tid2, NULL); 

17 

18 1f (ent != (unsicned) NITERS*2) 

19 printf ("BOOM! cnt=%d\n", ent); 
20 else 

21 printfi"OK cnt=%d\n", cnt); 

22 exit (0); 

23 } 

24 


25  ?* thread routine */ 
26 void *count (void *arg) 


27 { 
28 int 1; 
29 for (1 = 0; i < NITERS: i++) 


30 Cnt++; 
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31 return NULL; 
32 } 


code/conc/badcnt.c 


13.16 badcnt.c: 一 个 不 正确 同步 化 的 计数 器 程序 


因为 每 个 线程 都 对 计数 器 增加 了 NITERS 次 ,我们 可 能 会 预计 它 的 最 终 值 是 2*NITERS。 然 而 ， 
当 我 们 在 我 们 的 系统 上 运行 badcntc 时 ， 我 们 不 仅 得 到 错误 的 答案 ， 而 且 每 次 得 到 的 答案 都 还 不 相 
ja] ! 

unix> ./badcnt 

BOOM! ctr=198841183 

unix> ./badcnt 

BOOM! ctr=198261801 

unix> ./badcnt 

BOOM! ctr=198269672 


那么 哪里 出 错 了 了 呢 ? 为 了 清晰 地 理解 这 个 问题 ， 我 们 需要 研究 计数 值 循 环 的 汇编 代码 ， 如 图 
13.17 所 示 。 我 们 发 现 ， 将 线程 i 的 循环 代码 分 解 成 五 个 部 分 是 很 有 帮助 的 : 

。 H: 在 循环 汰 部 的 指令 块 。 

。 二 :加载 共享 变量 cnt 到 寄存 器 %eaxi 的 指令 ， 这 里 %eaxi 表示 线程 i 中 的 寄存 器 %eax 的 值 。 

© U: LR HSM) %eaxi 的 指令 。 

。 S: 将 %eaxi 的 更 新 值 存 加 到 共享 变量 cnt 的 指令 。 

。 T: 循环 尾部 的 指令 块 。 


线程 的 汇编 C 代码 


movl -4(%ebp) , teax 
$99999999, teax H; : 头 


ETETLLTTL bb ey ee ge Ee E E 


=) ctr, teax L: Load ctr 
1 ($eax) ,Yedx U;: Update ctr 
edx, ctr S,: Store ctr 
-4(%ebp) , teax 
1 ($eax) , tedx . 
tedx, -4(%ebp) TR 


, 工 9 


13.17 badcni.c 中 计数 器 循环 的 A32 汇编 代码 
注意 头 和 尾 只 操作 本 地 栈 变 量 ， 而 L;、U; 和 5; 操作 共享 计数 器 变量 的 内 容 。 
当 badcnt.c 中 的 两 个 对 等 线程 在 一 个 单 处 理 器 上 并 发 运行 时 ， 机 器 指令 以 某 种 顺序 一 个 接 一 个 
地 完成 。 因 此 ， 每 个 并 发 执行 定义 了 两 个 线程 中 的 指令 的 某 种 全 序 (或 者 交互 )。 不 幸 地 是 ， 这 些 顺 
序 中 的 一 些 将 会 产生 正确 结果 ， 但 是 其 他 的 则 不 会 。 
这 里 有 个 关键 点 : 一 般 而 言 ， 你 没有 办 法 预测 操作 系统 是 否 特 为 你 的 线程 选择 一 个 正确 的 顺 
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Æ. 例如 ， 图 13.18 (a) 展示 了 一 个 正确 的 指令 顺序 的 分 步 操作 。 在 每 个 线程 更 新 了 共享 变量 cnt 
之 后 ， 它 在 存储 器 中 的 值 就 是 2， 这 正 是 期 望 的 值 。 另 一 方面 ， 图 13.18 (b) 的 顺序 产生 一 个 不 
正确 的 cnt 的 值 。 会 发 生 这 样 的 问题 是 因为 , 线程 2 在 第 5 步 加 载 cor, 是 在 第 2 步 线 程 1 加 载 cnt 
之 后 ， 而 在 第 6 步 线程 1 存储 它 的 更 新 值 之 前 。 因 此 ， 每 个 线程 结束 时 都 会 存储 -- 个 值 为 1 的 更 


新 后 的 计数 器 值 。 


a | a | K 
o | i | a 
>? | i:i | un 
-3 | ni | a 
ee aes ae 
— s | ? | R _ 
56° | 2? | u 
| 2200 J 
|| ù 
|| 
-一 一 


(b) 不 正确 的 顺序 


13.18 badcnt.c 中 第 一 次 循环 反复 中 的 指令 顺序 
我 们 能 够 借助 于 一 种 叫做 进度 图 (progress graph) 的 设备 来 阐明 这 些 正 确 的 和 不 正确 的 指令 顺 
友 的 概念 ， 这 个 图 我 们 将 在 下 一 节 介 绍 。 
练习 题 13.7 
元 成 下 表 中 badcnt.c 的 指令 顺序 : 
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这 种 顺序 会 产生 一 个 正确 的 cnt 值 吗 ? 


13.5.1 进度 图 

一 个 进度 图 (progress graph) 将 nn 个 并 发 线程 的 执行 模型 化 为 一 条 nn HEB ILA PRR 
每 条 轴 k 对 应 于 线程 OER. FAA ye) RRR k lren) 已 经 完成 了 指令 这 一 
状态 。 图 的 原点 对 应 于 没有 任何 线程 完成 一 条 指令 的 初始 状态 。 

图 13.19 展示 了 badcnt.c 程序 第 一 次 循环 和 迭代 的 二 维 进度 图 。 水 平 轴 对 应 于 线程 1, 垂直 轴 对 应 
FRAG 2. A Lr So) 对 应 于 线程 1 完成 了 工 | 而 线程 2 完成 了 9 的 状态 。 


线程 2 


线程 


13.19 badcnt.c 第 一 次 循环 迭代 的 进度 图 


一 个 进度 图 将 指令 执行 模型 化 为 一 个 从 一 种 状态 到 另 一 种 状态 的 转换 (transition )。 一 个 转换 被 
表示 为 一 条 从 一 点 到 相 邻 点 的 有 向 边 。 合 法 的 转换 是 向 右 〈 线 程 1 中 的 一 条 指令 完成 ) 或 者 向 上 ( 线 
程 2 中 的 一 条 指令 完成 ) 的 。 两 个 指令 不 能 在 同一 时 刻 完 成 一 一 对 角 线 转换 是 不 允许 的 。 程 序 决 不 
会 吧 问 运行 ， 所 以 网 下 或 者 向 左 移动 的 转换 也 是 不 合法 的 。 

一 个 程序 的 执行 历史 被 模型 化 为 状态 空间 中 的 一 条 轨 线 。 图 13.20 展示 了 下 面 指令 顺序 对 应 的 
轨 线 : 
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Hi» Li» Ui» H3, Lz, Si> Tis U3, S3, Tə 
线程 2 


线程 1 


图 13.20 ”一 个 轨 线 示例 
SEA i, 操作 共享 变量 cnt HARES CL, Us S) 构成 了 一 个 〈 关 于 共享 变量 cnt 的 ) 临 
FR (critical section)， 这 个 临界 区 不 应 该 和 其 他 进程 的 临界 区 交替 执行 。 两 个 临界 区 的 交集 形成 的 
状态 空间 称 为 不 安全 区 (unsafe region)。 图 12.31 展示 了 变量 cnt 的 不 安全 区 。 注意 ,不 安全 区 和 与 
它 交 界 的 状态 相 上 毗邻 ， 但 并 不 包括 这 些 状态 。 例 如 ， 状 态 (所 ，H,〉 和 (S,, UD 毗邻 不 安全 区 ， 
但 是 它们 并 不 是 不 安全 区 的 一 部 分 。 
线程 2 


Tp 
Í 
S2 
| 
E cnt 的 临 
界 区 Uz 
Lo 


H2 


一 一 一 一 
写 cnt 的 临界 区 


13.21 临界 区 和 不 安全 区 


环绕 不 安全 区 的 轨 线 叫做 安全 轨 线 (safe trajectory). FAR, FEAR FEI ASCE AY AY Mh 
安全 雪线 (unsafe trajectory )。 图 13.22 给 出 了 我 们 的 示例 程序 badcnt.cd 的 状态 空间 中 的 安全 和 不 安 
全 轨 线 。 上 面 的 轨 线 环绕 不 安全 区 域 的 左边 和 上 边 ， 所 以 是 安全 的 。 下 面 的 轨 线 穿越 不 安全 区 ， 因 
此 是 不 安全 的 。 

任何 安全 轨 线 都 将 正确 地 更 新 共享 计数 器 。 为 了 保证 我 们 的 多 线程 程序 示例 的 正确 执行 一 一 和 
实际 上 任何 共享 全 局 数据 结构 的 并 发 程序 的 正确 执行 一 一 我 们 必须 以 某 种 方式 同步 线程 ， 使 它们 总 
是 有 一 条 安全 轨 线 ， 
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线程 2 
To | ZZR 
< = ; 
oa ce o p 
5 ent 的 临 】 y Po Gy od 
界 区 pe -i 
| 四 . ee ann 
: Ae ban 
L | a a 
ee ° 
Hə | 
\ 线程 1 


H tt U, Sy Ñ 
写 cnt 的 临界 区 
13.22 ”安全 和 不 安全 轴线 


13.52 利用 信号 量 访问 共享 变 

Edsger Dijkstra， 理 解 和 闸 明 并 发 编程 领域 的 先锋 人 人物， 提出 了 一 种 经 典 的 解决 同步 不 同 执 行 线 
程 问 题 的 方法 ， 这 种 方法 是 基于 一 种 叫做 信号 量 〈semaphore ) 的 特殊 类 型 变量 的 。 信 号 量 s 是 具有 
非 负 整数 值 的 全 局 变量 ， 只 能 由 两 种 特殊 的 操作 来 处 理 ， 这 两 种 操作 称 为 P 和 V。 

。 Pfs): WR s BIESH, MAPHs Ml, FAW. Ms 为 零 ， 那 么 就 挂 起 进程 ， 
直到 s 变 为 非 零 ， 并 且 该 进程 被 一 个 V 操作 重启 。 在 重启 之 后 ,，P 操作 将 s 减 1， 并 将 控制 
返回 给 调用 者 。 

。 Vis): V 操作 将 s 加 1。 如 果 有 任何 进程 阻塞 在 P 操作 等 待 s 变 成 非 零 ， 那么 V 操作 会 重启 
这 些 进 程 中 的 一 个 ， 然 后 该 进程 将 s l ERER P RIE. 

P 中 的 测试 和 减 1 操作 是 不 可 分 割 的 ， 也 就 是 说 ， 一 旦 预测 s 变 为 非 零 ， 就 会 将 s 减 1， 不 能 有 

中 断 。Y 中 的 加 1 操作 也 是 不 是 分割 的 ， 也 就 是 加 载 、 加 1 和 存储 信号 量 的 过 程 中 没有 中 断 。 


Sit: ZEP MV 的 起 源 


Edsger Dijkstra 出 生 于 和 荷兰。 名 字 已 和 VY 来 源 于 荷兰 语 单词 Proberen (测试 ) 和 Verhogen ( 增 
加 )。 


P 和 VV 的 定义 确保 了 一 个 运行 程序 绝 不 可 能 进入 这 样 一 种 状态 ， 也 就 是 一 个 正确 初始 化 了 的 信 
号 量 有 一 个 负 值 。 这 个 属性 称 为 信号 量 不 变性 〈semaphore invariant)， 为 控制 并 发 程序 的 轨 线 而 避 
免 不 安全 区 提供 了 强 有 力 的 工具 。 

基本 的 思想 是 将 每 个 共享 变量 (或 者 相关 共享 变量 集合 ) 与 一 个 信号 量 s (初始 为 1) 联系 起 来 ， 
然后 用 PEA V(s) 操 作 将 相应 的 临界 区 包围 起 来 。 以 这 种 方式 来 保护 共享 变量 的 信号 量 叫 做 二 进 制 
信号 量 (binary semaphore )， 因 为 它 的 值 总 是 0 或 者 L 

13.23 中 的 进度 图 展示 了 我 们 如 何 利用 信和 号 量 来 正确 地 同步 我 们 的 计数 器 程序 示例 。 每 个 状 
态 都 标 出 了 该 状态 中 信和 号 量 s 的 值 。 关 键 概念 是 这 种 已 和 V 操作 的 结合 创建 了 一 组 状态 ， 岂 做 禁止 
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(forbidden region), JEP s<0。 因 为 信号 量 的 不 变性 ， 没 有 实际 可 行 的 轨 线 能 够 包含 禁止 区 中 的 
状态 。 而 且 ， 因 为 禁止 区 完全 包括 了 不 安全 区 ， 所 以 没有 实际 可 行 的 轨 线 能 够 接触 不 安全 区 的 任何 
部 分 。 因 此 ， 每 条 实际 可 行 的 轨 线 都 是 安全 的 ， 而 且 不 管 运行 时 指令 顺序 是 怎样 的 ， 程 序 都 会 正确 
地 增加 计数 器 值 。 

线程 2 


Vis) 


Hi P(s) L, Ui S1 V(s) Tı 


13.23 ”使 用 信号 量 的 安全 共享 
s<0 的 状态 定义 了 一 个 包括 不 安全 区 的 禁止 区 . 


从 可 操作 的 意义 上 来 说 ， 由 P 和 V 操 作 创 建 的 禁止 区 使 得 在 任何 时 间 点 上 ,在 被 包围 的 临界 区 
中 ， 不 可 能 有 多 个 线程 在 执行 指令 。 换 句 话 说 ， 信 号 量 操作 确保 了 对 临界 区 的 互 斥 访 问 Cmutually 
exclusive access)。 一 般 现 象 称 为 互 矿 (mutual exclusion). 

一 点 行 话 : 目的 是 提供 互 斥 的 三 进 制 信 号 量 通常 叫做 互 斥 锁 (mutex)。 在 互 斥 锁 上 执行 一 个 P 
操作 叫做 加 锁 。 相 似 地 ， 执 行 V 操作 叫做 解锁 。 一 个 已 经 对 一 个 互 斥 锁 加 锁 但 还 没有 解锁 的 线程 被 
称 为 占用 五 斥 锁 。 


旁 注 ， 进 度 图 的 局 限 性 

进度 图 给 了 我 们 一 种 较 好 的 方法 ， 将 在 单 处 理 器 上 的 并 发 程序 执行 可 视 化 ， 也 帮助 我 们 理解 为 
什么 需要 同步 。 然 而 ,它们 确实 也 有 局 限 性 ,特别 是 对 于 在 多 处 理 器 上 的 并 发 执行 ， 一 组 CPU/ 高 速 
缕 存 对 共享 相同 的 存储 器 (或 主 存 )。 多 处 理 器 的 工作 方式 是 进度 图 不 能 解释 的 。 特 别 是 ， 一 个 多 处 
理 器 存储 系统 可 以 处 于 一 种 状态 ， 不 对 应 于 进度 图 中 任何 轨 线 。 不 管 如 何 ， 结 论 总 是 一 样 的 : BE 
步 对 你 共享 变量 的 访问 。 


13.5.3 ”Posix 信号 量 


Posix 标准 定义 了 许多 操作 信号 量 的 函数 。 三 个 基本 的 操作 是 sem_init、sem_wait (P 操作 ) 和 
sem_post (V 操作 )。 
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#include <semaphore.h> 


int sem_init{sem_t *sem, 0, unsigned int value); 
int sem_wait{sem_t *s}; /* P{s) */ 
int sem post {sem t *s); /* V(s) */ 


返回 : 车 成 功 则 为 0， 老 出错 则 为 -1。 


一 个 程序 通过 调用 sem_init 函数 来 初始 化 一 个 信号 量 。sem_init HAH Sm sem 初始 化 为 
value。 每 个 信号 量 在 使 用 前 必须 初始 化 。 针 对 我 们 的 目的 ， 中 则 的 参数 总 是 零 。 程 序 分 别 通过 调用 
sem_wait 和 sem_post 函数 来 执行 PP 和 YY 操作 .为 了 答 明 ,我 们 更 喜欢 使 用 下 面 的 已 和 了 包 著 (wrapper ) 
RI: 


#inciude "csapp.h" 


void P(sem_t *S); /* Wrapper function for sem wait */ 


void Visem_t *s); /* Wrapper function for sem_post */ 


例如 ， 为 了 正确 同步 我 们 的 计数 器 示例 ， 我 们 可 以 声明 一 个 叫做 mutex 的 信号 量 : 
sem_t mutex; 

接 下 来 ， 在 主 例 程 中 ， 我 们 将 它 初 始 化 为 一 : 

sem_init (&mutex, 0, 1); 

最 后 ， 我 们 利用 对 mutex 的 已 和 YY 操作 包围 cnt 变量 ， 从 而 保护 它 : 


P(&mutex})5 
Cnt ++; 
V (&mutex}; 


13.54 利用 信号 量 来 调度 共享 资源 

我 们 人 在 前 一 小 节 里 看 到 了 如 何 用 信号 量 来 提供 对 共享 变量 的 互 斥 访问 。 信 和 号 量 的 另 一 个 重要 作 
用 是 调度 对 共享 资源 的 访问 。 在 这 种 情况 中 ， 一 个 线程 用 信号 量 来 通知 另 一 个 线程 ， 程 序 状态 中 的 
某 个 条 件 已 经 为 真 了 。 图 13.24 所 示 的 生产 者 和 消费 者 模型 是 一 个 经 典 的 示例 。 生 产 者 和 消费 者 线 


程 共 至 一 个 有 n 个 槽 的 有 界 缓冲 区 。 
图 13.24 生产 者 -消费 者 模型 


生产 者 产生 项 目 (item) 并 把 它们 插入 到 缓冲 区 中 。 消 费 者 从 缓冲 区 中 取出 这 些 项 目 并 以 某 种 方式 使 用 它们 。 


生产 者 线程 反复 地 生成 新 的 项 目 (item)， 并 把 它们 插入 到 缓冲 区 中 。 消 费 者 线程 不 断 地 从 缓冲 
区 中 取出 这 些 项 目 ， 然 后 消费 它们 。 模 型 中 也 可 能 有 不 同 的 生产 者 和 消费 者 数量 。 
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因为 播 入 和 取出 项 目 都 包括 更 新 共享 变量 ， 所 以 我 们 必须 保证 对 缓冲 区 的 访问 是 互 斥 的 。 但 是 
只 保证 互 斥 访 问 是 不 够 的 ， 我 们 还 需要 调度 对 缓冲 区 的 访问 。 如 果 缓 冲 区 是 满 的 (没有 空 的 槽 位 )， 
那么 生产 者 必须 等 待 直到 有 一 个 槽 位 变 为 可 用 .与 之 相似 , 如 果 缓 冲 区 是 空 的 (没有 可 取 用 的 项 目 )， 
那么 消费 者 必须 等 待 直到 有 一 个 可 用 的 项 目 。 

生产 者 -消费 者 的 相互 作用 在 现实 系统 中 是 很 普遍 的 。 例 如 ， 在 一 个 多 媒体 系统 中 ， 生 产 者 编 
人 码 视 频 巾 ,而 消费 者 解码 并 在 屏幕 上 呈现 出 来 。 缓 冲 区 的 目的 是 为 了 减少 视频 流 的 拌 动 (jitter)， 而 
这 种 拌 动 是 由 各 个 帧 的 编码 和 和 解码 时 与 数据 相关 的 差异 引起 的 。 绥 冲 区 为 生产 者 提供 了 一 个 槽 位 池 ， 
而 为 消费 者 提供 一 个 已 编码 的 帧 池 。 另 一 个 常见 的 示例 是 图 形 用 户 接 口 的 设计 。 生 产 者 检测 到 鼠标 
和 键盘 事件 ， 并 将 它们 插入 到 缓冲 区 中 。 消 费 者 以 某 种 基于 优先 级 的 方式 从 缓冲 区 取出 这 些 事 件 ， 
并 画 在 屏幕 上 。 

在 本 节 中 ， 我 们 将 开发 一 个 简单 的 包 ， 叫 做 Sbvf 用 来 构造 生产 者 -消费 者 程序 。 在 下 一 节 里 ， 
我 们 会 看 到 如 何 用 它 来 构造 基于 预 线程 化 〈prethreading ) 的 一 个 有 趣 的 并 发 服务 器 。Sbvf 操作 类 型 
为 sbuf_t 的 缓冲 区 《图 13.25)。 项 目 存放 在 一 个 动态 分 配 的 n 项 整数 数组 中 。front 和 rear 索引 值 记 
录 该 数组 中 的 第 一 项 和 最 后 一 项 。 三 个 信和 号 量 控制 对 缓冲 区 的 同步 访问 。mutex 信和 号 量 提供 互 斥 的 
ZX Vin]. slots 和 items 信号 量 分 别 记 录 空 槽 位 和 可 用 项 目的 数量 。 


code/conc/sbuf.h 
1 typedef struct { 
2 int *buf; /* Buffer array */ 
3 int n; /* Maximum number of slots */ 
4 int front; /* buf[(front+1)%n] 1s first item */ 
5 int rear; /* buf[rear%n] is last item */ 
6 sem_t mutex; /* Protects accesses to buf */ 
7 sem_t slots; /* Counts available slots */ 
8 sem_t items; /* Counts available items */ 
9 } sbuf_ 

code/conc/sbuf.h 


图 13.25 sbuft: 生产 者 -消费 者 程序 的 一 个 共享 缓冲 区 


sbuf_init AX (K 13.26) 为 缓冲 区 分 配 堆 存储 器 ， 设 置 front 和 rear 表示 一 个 空 的 缓冲 区 ， 并 
为 三 个 信号 量 赋 初 始 值 。 这 个 函数 在 调用 其 他 三 个 函数 中 的 任何 一 个 之 前 亩 用 一 次 。 


code/conc/sbuf.c 
1 void sbuf_init(sbuf_t *sp, int n) 
2 { 
3 sp->buf = Calloc(n, sizeof({int)); 
4 Sp->n = n; /* Buffer holds max of n items */ 
5 sp->front = sp->rear = 0; /* Empty buffer iff front == rear */ 
6 Sem_init(&sp->mutex, 0, 1); /* Binary semaphore for locking */ 
7 Sem_init(&sp->slots, 0, n); /* Initially, buf has n empty slots */ 
8 Sem_init(&sp->items, 0, 0); /* Initially, buf has zero data items */ 
9 } 

code/conc/sbuf.c 


图 13.26 sbuf_init: 初始 化 一 个 共享 缓冲 区 
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sbuf_deinit KA CALA SEAR HOR ) 是 当 应 用 程序 使 用 完 缓 神 区 时 , 释放 缓冲 区 存储 的 。sbuf_insert 
pa CA 13.27) 等 竺 一 个 可 用 的 槽 位 、 对 互 斥 锁 加 锁 、 添 加 项 目 、 对 互 斥 锁 解 锁 ， 然 后 宣布 有 一 
个 新 项 目 可 用 。 


code/conc/sbuf.c 
1 void sbuf_insert(sbuf_t *sp, int item) 
2 { 
3 P(&Sp->slots); /* Wait for available slot */ 
4 P(&Ssp->mutex) ; /* Lock the buffer */ 
5 sp->buf [{ (++sp->rear)%(sp->n)} = item; /* Insert the item */ 
6 V{(&Sp->mutex); /* Unlock the buffer */ 
7 V(&Sp->items); /* Announce available item */ 
8 } 

code/conc/sbuf.c 


13.27 sbuf_inser: 在 一 个 共享 缓冲 区 的 后 部 插入 一 个 项 目 
这 个 函数 -一 直 等 待 到 有 一 个 槽 位 可 用 。 


sbuf_remove AIA (A 13.28) 是 与 sbuf insert 函数 对 称 的 。 在 等 竺 一 个 可 用 的 缓 神 区 项 目 之 
后 、 对 互 斥 锁 加 锁 、 从 缓冲 区 的 前 面 取 出 该 项 目 、 对 互 斥 锁 解 锁 ， 然 后 发 信号 通知 一 个 新 的 槽 位 
可 供 使 用 。 


code/conc/sbuf.c 
1 int sbuf_remove(sbuf_t *sp)} 
2 { 
3 int item; 
4 P(&Sp->items) ; /* Wait for available item */ 
5 P(&Sp->mutex) ; /* Lock the buffer */ 
6 item = sp->buf[(++sp->front)%(sp->n)]; /* Remove the item */ 
7 ¥V{(&sp->mutex); /* Unlock the buffer */ 
8 V{&sp~->Slots),; /* Announce available slot */ 
9 return item; 
10 } 

code/conc/sbuf.c 


13.28 sbuf_remove: 从 一 个 共享 缓冲 区 的 前 部 取出 一 个 项 目 
这 个 函数 一 直 等 竺 到 有 一 个 项 目 可 用 。 


旁 注 ， 其 他 同步 机 制 

我 们 已 经 向 你 展示 了 如 何 利用 信号 量 来 同步 线程 ， 主 要 是 因为 它们 简单 、 经 典 ， 并 且 有 一 个 清 
晰 的 语义 模型 。 但 是 体 应 该 知道 也 是 存在 着 其 他 同步 技术 。 例 如 ，Java 线程 是 用 一 种 叫做 Java 监控 
# (Java Monitor) [34] 的 机 制 来 同步 的 ， 它 提供 了 对 信号 量 互 斥 和 调度 能 力 的 更 高 级 别 的 抽象 ; 实 
际 上 ， 监 控 器 可 以 用 信号 量 来 实现 ， 再 来 看 一 个 例子 ，Pthreads 接口 定义 了 一 组 对 互 斥 锁 和 条 件 变 
量 的 同步 操作 。Pthreads 互 斥 锁 被 用 来 实现 互 斥 。 条 件 变量 用 来 调度 对 共享 资源 的 访问 ， 例 如 在 一 
个 生产 者 - 消 偶 者 程序 中 的 有 界 缓冲 区 。. 
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13.6 综合 : 基于 预 线 程 化 的 并 发 服务 器 


我 们 已 经 知道 了 如 何 使 用 信号 量 来 访问 共享 变量 和 调度 对 共享 资源 的 访问 。 为 了 帮助 你 更 清晰 
地 理解 这 些 思想 ， 让 我 们 把 它们 应 用 到 一 个 基于 被 称 为 预 线程 化 (prethreading) 技术 的 并 发 服务 器 
ee 

在 图 13.14 中 的 并 发 服务 器 中 ， 我 们 为 每 一 个 新 客户 端 创建 了 一 个 新 线程 。 这 种 方法 的 缺点 是 
我 们 为 每 一 个 新 客户 端 创 建 一 个 新 线程 ， 导 致 不 小 的 代价 。--- 个 基于 预 线 程 化 的 服务 器 通过 使 用 图 
13.29 所 示 的 生产 者 -消费 者 模型 来 试图 降低 这 种 开销 。 


客户 端 
> 


re ren WOREN 描述 符 删 除 


Pai 


work 线程 


图 13.2? 预 线 程 化 的 并 发 服务 器 的 组 织 结构 
-组 现 有 的 线程 不 断 地 删除 和 处 理 来 自 共享 缓冲 区 的 连接 描述 符 。 


服务 器 是 由 一 个 主线 程 和 一 组 worker 线程 构成 的 ， 主 线程 不 断 地 接受 来 自 客 户 端的 连接 请 求 ， 
并 将 得 到 的 连接 描述 符 放 在 一 个 共享 缓冲 区 中 。 每 一 个 worker 线程 反复 地 从 共享 缓冲 区 中 取出 描述 
人 符 ， 为 客户 端 服务 ， 然 后 等 待 下 一 个 描述 符 。 

E 13.30 显示 了 我 们 怎样 用 Sbvf 包 来 实现 一 个 预 线程 化 的 并 发 echo 服务 器 。 在 初始 化 了 缓冲 
x sbuf (R 22 行 ) 后 ， 主 线程 创建 了 一 组 worker 线程 (第 25~26 行 )。 然 后 它 进 入 了 无 限 的 服务 
器 循环 ， 接 受 连接 请 求 ， 并 将 得 到 的 连接 描述 符 插 入 到 缓冲 区 sbuf 中 。 每 个 worker 线程 的 行为 都 
非常 简单 。 它 等 待 直到 它 能 从 缓冲 区 中 取出 一 个 已 连接 描述 符 (第 38 行 )， 然 后 调用 echo cnt 函数 
JETS Be FF sia SBT A, o 


code/conc/echoservert_pre.c 
#include "csapp.h" 

#finclude "sbuf.h" 

#define NTHREADS 4 

#define SBUFSIZE 16 


void echo_cnt (int connfd):; 
void *thread(void *vargp) ; 


sbuf_t sbuf; /* shared buffer of connected descriptors */ 


= = IO O ~J A OP WN e 


e © 


int main(int argc, char **argv) 
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12 { 
13 int i, listenfd, connfd, port, clientlen=sizeofistruct sockaddr_in} ; 
14 struct sockaddr_in clientaddr; 
15 pthread_t tid; 
16 
17 if (argc != 2) { 
18 fprintf(stderr, “usage: %s <port>\n", argv[0]}; 
19 exit (0); 
20 } 
21 port = atoi(argv[1]}; 
22 sbuf_init (&sbuf, SBUFSIZE) ; 
23 listenfd = Open_listenfd(port}; 
24 
25 for (i = 0; 1 < NTHREADS; i++) /* Create worker threads */ 
26 Pthread_create(&tid, NULL, thread, NULL); 
27 
28 while (1) { 
29 connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen}; 
30 sbuf_insert (&sbuf, connfd); /* Insert connfd in buffer */ 
31 } 
32 } 
33 
34 void *thread(void *vargp) 
35 { 
36 Pthread_detach(pthread_self()}); 
37 while {1} { 
38 int connfd = sbuf_remove(&sbuf);  /* Remove connfd from buffer */ 
39 echo_cnt (connfd}; /* Service client */ 
40 Close (connfd) ; 
41 } 
42 } 


图 13.30 一 个 预 线程 化 的 并 发 echo 服务 器 
这 个 服务 器 使 用 的 是 有 一 个 生产 者 和 多 个 消费 者 的 生产 者 -消费 者 模型 。 


code/conc/echoservert_pre.c 


函数 echo_cnt (图 13.31) 是 图 12.21 中 的 echo 函数 的 一 个 版 本 ， 它 在 全 局 变量 byte_cnt 中 记录 


了 从 所 有 客户 端 接收 到 的 累计 字 节 数 。 
1 #include "“csapp.h" 
2 
3 Static int byte_cnt; /* byte counter */ 
4 Static sem_t mutex; /* and the mutex that protects it */ 
5 
6 


Static void init_echo_cnt(void) 


code/conc/echo_cnt.c 
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7 { 

8 Sem_init (&mutex, 0, 1); 

9 byte_cnt = 0; 

10 } 

11 

12 void echo_cnt (int connfd) 

13 { 

14 int n; 

15 char buf [MAXLINE]; 

16 riot Tic: 

17 static pthread_once_t once = PTHREAD_ONCE_INIT; 

18 

19 Pthread_once(&once, init_echo_cnt); 

20 Rio_readinitb(&rio, connfd); 

21 while((nm = Rio readlineb(&rio, buf, MAXLINE)) ‘= 0) { 
22 P (&mutex) ; 

23 byte_cnt += n; 

24 printf("thread %d received %d (%d total) bytes on fd d\n", 
25 (ant) pthread_self(), n, byte_cnt, connfd); 
26 V (&mutex) ; 

2a Rio_writen(connfd, buf, n); 

28 } 

29 } 


code/conc/echo_cnt.c 
图 13.31 echo_cnt: echo 的 一 个 版 本 ， 它 对 从 客户 端 接 收 的 所 有 字 节 计数 


这 是 一 段 值得 研究 的 有 趣 代 码 ， 因 为 它 问 你 展示 了 一 个 被 线程 例 程 调 用 的 初始 化 程序 包 的 一 般 
技术 。 在 我 们 的 情况 中 ， 我 们 需要 初始 化 byte_cnt 计数 器 和 mutex 信和 号 量 ， 一 个 方法 是 我 们 为 Sbuf 
和 Rio 程序 包 使 用 的 ， 它 要 求 主线 程 显 式 地 调用 一 个 初始 化 水 数 。 另 外 一 个 方法 ， 在 此 显示 的 ， 是 
当 第 一 次 有 某 个 线程 调用 echo_cnt 函数 时 ， 使 用 pthread_once PAR (3 19 行 ) 去 调用 初始 化 函数 。 
这 个 方法 的 优点 是 它 使 程序 包 的 使 用 更 加 容易 。 这 种 方法 的 缺点 是 每 一 次 调用 echo_cnt 都 会 导致 调 
用 pthread_once 函数 ， 而 在 很 多 时 候 它 没有 做 什么 有 用 的 事 。 

- 旦 程序 包 被 初始 化 ，echo_cnt 函数 会 初始 化 Rio 带 缓冲 VO 包 (第 20 行 )， 然 后 回 送 从 客户 端 
接收 到 的 每 一 个 文本 行 。 注 意 ， 对 第 23 一 24 行 中 共享 变量 byte_cnt 的 访问 是 被 P 和 V 操作 保护 的 。 
芳 注 ， 基 于 线程 的 事件 驱动 程序 

VO 多 路 复 用 不 是 编写 事件 驱动 程序 的 惟一 方法 。 例 如 ， 你 可 能 已 经 注意 到 我 们 刚才 设计 的 并 
发 的 预 线程 化 的 服务 器 确实 是 一 个 事件 驱动 服务 跨 , 带 有 主线 程 和 worker 线程 的 简单 状态 机 。 主 线 
程 有 两 种 状态 〈“ 等 待 连接 请 求 ” 和 “等 待 可 用 的 缓冲 区 槽 位 ” )、 两 个 WO 事件 (“连接 请 求 到 达 ” 
和 “缓冲 区 档 位 变 为 可 用 ”1 和 两 个 转换 (“ 接 受 连 接 请 求 ” 和 “插入 缓冲 区 项 目 ")。 同样, 每 个 worker 
线程 有 一 个 状态 (“等 待 可 用 的 缓冲 项 目 ”). 一 个 WO 事件 (“缓冲 区 项 目 变 为 可 用 ”)、 一 个 转换 (“ 取 
WAFER”). 
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13.7 其 他 并 发 性 问题 


你 可 能 已 经 注意 到 了 ， 一 旦 我 们 要 求 同 步 访问 共 译 数据 ， 那 么 事情 就 变 得 更 加 复杂 了 。 运 今 为 
ik, 我们 已 经 看 到 了 关于 和 互 斥 和 生产 者 -消费 者 的 同步 化 技术 ， 但 这 仅仅 是 冰山 一 角 。 同 步 化 是 非 
前 困难 的 ， 引 出 了 在 普通 的 顺序 程序 中 不 会 出 现 的 问题 。 这 一 小 节 是 关于 你 在 写 并 发 程序 时 需要 注 
意 的 一 些 问题 的 概括 〈 决 不 是 全 面 的 概括 )。 为 了 更 加 具体 化 , 我 们 将 以 线程 的 形式 描述 我 们 的 讨论 。 
不 过 要 记 住 ， 这 些 典型 问题 是 任何 类 型 的 并 发 流 操作 共享 资源 时 都 会 出 现 的 。 


13.7.1 线程 安全 

当 我 们 用 线程 编写 程序 时 ， 我 们 必须 小 心地 编写 那些 具有 称 为 线程 安全 ' 性 (thread safety) 属性 
的 函数 。 一 个 函数 被 称 为 线程 安全 的 (thread-safe )， 当 且 仅 当 被 多 个 并 发 线程 反复 地 调用 时 ， 它 会 
一 直 产 生 正 确 的 结果 。 如 果 一 个 通 数 不 是 线程 安全 的 ， 我 们 就 说 它 是 线程 不 安全 的 《〈thread-unsafe )。 
我 们 能 够 定义 出 四 类 〈 有 相交 的 ) 线程 不 安全 函数 : 

第 1 类 : 不 保护 共享 变量 的 函数 

我 们 在 图 13.16 的 count 函数 中 就 已 经 遇 到 了 这 样 的 问题 , 该 函数 对 一 个 未 受 保 护 的 全 局 计数 器 
变量 加 1。 将 这 类 线程 不 安全 函数 变 成 线程 安全 的 ， 相 对 而 言 比 较 容 易 : 利用 像 P 和 了 操作 这 样 的 
同步 操作 来 保护 共享 的 变量 。 这 个 方法 的 优点 是 在 调用 程序 中 不 需要 做 任何 修改 ， 缺 点 是 同步 操作 
将 减 慢 程序 的 执行 时 间 。 

第 2 类 : 保持 跨越 多 个 调用 的 状态 的 函数 


一 个 伪 随 机 数 生成 器 是 这 类 线程 不 安全 函数 的 简单 例子 。 请 参考 图 13.32 中 的 伪 随 机 数 生 成 器 
程序 包 。 


code/conc/rand.c 
1 unsigned int next = 1; 
2 
3 /* rand - return pseudo-random integer on 0..32767 */ 
4 int rand(void) 
2 { 
6 next = next*1103515245 + 12345; 
7 return (unsigned int) (next/65536) % 32768; 
8 } 
9 
10  /* srand - set seed for rand() */ 
11 void srand(unsigned int seed) 
12 { 
13 next = seed; 
14 } 
code/conc/rand.c 


13.32 一 个 线程 不 安全 的 伪 随 机 数 生成 器 [40] 


rand 闹 数 是 线程 不 安全 的 , 因为 当前 调用 的 结果 依赖 于 前 次 调用 的 中 间 结 果 。 当 我 们 调用 srand 
为 rand 设置 了 一 个 种 子 后 , 我 们 反复 地 从 一 个 单线 程 中 调用 rand, 我 们 能 够 预期 得 到 一 个 可 重复 的 
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随机 数字 序列 。 然 而 ， 如 果 多 线程 调用 rand HB, IPRA AL T o 

使 得 rand 函 数 为 线程 安全 的 惟一 方式 是 重 写 它 ， 使 得 它 不 再 使 用 任何 静态 数据 ， 取 而 代 之 地 依 
靠 调用 者 在 参数 中 传递 状态 信息 。 这 样 做 的 缺点 是 ， 程 序 员 现在 还 要 被 迫 人 收 改 调用 程序 中 的 代码 。 
在 一 个 大 的 程序 中 ， 可 能 有 成 百 上 千 个 不 同 的 调用 位 置 ， 做 这 样 的 修改 将 是 非常 及 烦 的 ， 而 且 还 容 
J hi FH o 


第 3 类 : RE PAS a tA A 

某 些 函数 (例如 gethostbyname ) 将 计算 结果 放 在 静态 结构 中 , 并 返回 一 个 指向 这 个 结构 的 指针 。 
如 果 我 们 从 并 发 线程 中 调用 这 些 函 数 ， 那 么 将 可 能 发 生 灾难 ， 因 为 正在 被 一 个 线程 使 用 的 结果 会 被 
Fy“) Be TB TA m T o 

Fa PA Ry EAD IX RRA ES AR. PERE B'S AA, (PR Ae RN 
构 的 地 址 。 这 就 消除 了 所 有 共享 数据 ， 但 是 它 要 求 程 序 员 还 要 改写 调用 者 中 的 代码 。 

如 果 线 程 不 安全 函数 是 难以 修改 或 不 可 能 修改 的 (例如 ,， 它 是 从 一 个 库 中 链接 过 来 的 )， 那 么 夯 
外 一 种 选择 就 是 使 用 我 们 称 为 lock-and-copy (加 锁 - 拷 贝 ) 的 技术 。 这 个 概念 将 线程 不 安全 图 数 与 也 
斥 锁 联 系 了 起 来 。 在 每 一 个 调用 位 置 ， 对 互 斥 锁 加 锁 ， 调 用 线程 不 安全 函数 ， 动 态 地 为 结果 分 配 存 
储 器 ， 拷 贝 负 数 返回 的 结果 到 这 个 存储 器 位 置 ， 然 后 对 互 斥 锁 解 锁 。 一 个 吸引 人 的 变化 是 定义 了 一 
个 线程 安全 的 包装 (wrapper) 函数 ， 它 执行 lock-and-copy， 然 后 通过 调用 这 个 包装 函数 来 取代 所 有 
对 线程 不 安全 函数 的 调用 。 例如， 图 13.33 给 出 了 一 个 gethostbyname 的 线程 安全 的 版 本 ,利用 的 就 
是 lock-and-copy 技术 。 


HAR: WARTE EAS hA 

如 果 函 数 f 调 用 线程 不 安全 函数 g, 那么 f 就 是 线程 不 安全 的 吗 ? 不 一 定 , 如 果 g 是 第 2 RHR, 
即 依赖 于 跨越 多 次 调用 的 状态 ， 那 么 f 也 是 线程 不 安全 的 ， 而 且 除 了 重 写 g 以 外 ， 没 有 什么 办 法 。 
然而 ， 如 果 g 是 第 1 类 或 者 第 3 类 函数 ， 那 么 只 要 你 用 一 个 互 斥 锁 保护 调用 位 置 和 任何 得 到 的 共 主 
数据 ，f 可 能 仍然 是 线程 安全 的 。 在 图 13.33 中 我 们 看 到 了 一 个 这 种 情况 很 好 的 示例 ， 其 中 我 们 使 用 
lock-and-copy 编写 了 一 个 线程 安全 函数 ， 它 调用 了 一 个 线程 不 安全 的 函数 。 


code/conc/gethosthyname_ts.c 


1 struct hostent *gethostbyname_ts(char *hostname) 
2 { 

3 Struct hostent *sharedp, *unsharedp; 

4 

5 unsharedp = Malloc(sizeof(struct hostent)); 
6 P(&mutex) ; 

7 Sharedp = gethostbyname (hostname) ; 

8 *unsharedp = *sharedp; /* copy shared struct to private struct */ 
9 V(&mutex)}) ; 

10 return unsharedp; 

11 } 


code/conc/gethostbyname_ts.c 
图 13.33 gethostbyname_ts: gethostbyname 的 一 个 线程 安全 的 包装 函数 
使 用 lock-and-copy 技术 调用 一 个 第 2 类 线程 不 安全 函数 。 
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13.7.2 ”可 重 入 性 

有 一 类 重要 的 线程 安全 函数 ， 叫 做 可 重 入 函数 〈reentrant function)， 其 特点 在 于 它们 具有 这 样 
一 种 属性 ， 当 它们 被 多 个 线程 调用 时 ， 不 会 引用 任何 共享 数据 。 

尽管 线程 安全 和 可 重 入 有 时 会 (不 正确 地 ) 被 用 做 同义词 ， 但 是 它们 之 间 还 是 有 清晰 的 技术 老 
别 ， 值 得 留意 。 图 13.34 展示 了 可 重 入 函数 、 线 程 安全 函数 和 线程 不 安全 函数 之 间 的 集合 关系 。 所 
有 函数 的 集合 被 划分 成 不 相交 的 线程 安全 和 线程 不 安全 函数 集合 。 可 重 入 函数 集合 是 线程 安全 函数 
的 一 个 真子 集 。 
所 有 的 函数 


13.34 可 重 入 函数 、 线 程 安全 函数 和 线程 不 安全 通 数 之 问 的 集合 关系 


可 重 入 函数 通 帝 要 比 不 可 重 入 的 线程 安全 的 函数 高 效 一 些 ， 因 为 它们 不 需要 同步 操作 。 更 进 一 
步 来 说 , 将 第 2 类 线程 不 安全 函数 转化 为 线程 安全 函数 的 惟一 方法 就 是 重 写 它 , 使 之 变 为 可 重 入 的 。 
例如 ， 图 13.35 展示 了 图 13.32 中 rand 函数 的 一 个 可 重 入 的 版 本 。 关 键 思路 是 我 们 用 一 个 调用 者 传 
化 进来 的 指针 取代 了 静态 的 next 变量 。 


code/conc/rand_r.c 
1 /* rand_r - a reentrant pseudo-random integer on 0..32767 */ 
2 int rand_r(unsigned int *nextp) 
3 { 
4 *nextp = *nextp * 1103515245 + 12345; 
5 return (unsigned int) (*nextp / 65536) % 32768; 
6 } 
code/conc/rand_r.c 


13.35 rand_r: 图 13.32 中 的 rand 函数 的 可 重 入 版 本 


检查 某 个 函数 的 代码 并 先 验 地 断定 它 是 可 重 入 的 ， 这 可 能 吗 ? 不 幸 地 是 ， 不 一 定 能 这 样 。 如 果 
所 有 的 函数 参数 都 是 传 值 传递 的 (也 就 是 ， 没 有 指针 )， 并 且 所 有 的 数据 引用 都 是 本 地 的 自动 栈 变量 
(也 就 是 ， 没 有 引用 静态 或 全 局 变量 )， 那 么 函数 就 是 显 式 可 重 入 的 (explicitly reentrant), HRE 
沈 ， 无 论 它 是 被 如 何 调用 的 ， 我 们 都 可 以 断言 它 是 可 重 入 的 。 

然而 ， 如 果 把 我 们 的 假设 放宽 松 一 点 ， 人 允许 显 式 可 重 入 函数 中 一 些 参数 是 引用 传递 的 〈 也 就 是 
说 ， 我 们 允许 它们 传递 指针 )， 那 么 我 们 就 得 到 了 一 个 隐 式 可 重 入 的 (implicitly reentrant) 函数 ， 也 
就 是 说 ， 在 调用 线程 小 心地 传递 指向 非 共享 数据 的 指针 时 ， 它 才 是 可 重 入 的 。 例 如 ， 图 13.35 中 的 
rand_r 函数 就 是 隐 式 可 重 入 的 。 

我 们 总 是 使 用 术语 可 重 入 (reentrant) 来 包括 显 式 可 重 入 函数 和 隐 式 可 重 入 函数 。 然 而 ， 认 识 
到 可 重 入 性 有 时 同时 是 调用 者 和 被 调用 者 的 属性 ， 并 不 只 是 被 调用 者 单独 的 属性 ， 是 非常 重要 的 。 
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练习 题 13.8 
图 13.33 中 的 gethostbyname_ts 函数 是 线程 安全 的 ， 但 不 是 可 重 入 的 。 请 解释 说 明 。 
13.73 在 多 线程 程序 中 使 用 已 存在 的 库 函 数 


大 多 数 Unix 函数 和 定义 在 标准 C 库 中 的 函数 〈 例 如 malloc, free, realloc, printf 和 scanf) 都 
是 线程 安全 的 ， 只 有 一 小 部 分 是 例外 。 图 13.36 列 出 了 常见 的 例外 。( 参 考 [81] 可 以 得 到 一 个 完整 的 


列表 。) 
线程 不 安全 类 Unix 线程 安全 版 本 


rand 


rand_r 


strtok strtok_r 


asctime asctime_r 
ctime ctime_r 
gethostbyaddr gethostbyaddr_r 
get hostbyname gethostbyname_r 
inet_ntoa 


(无 ) 


localtime 


wo Ww Ww WwW WwW Ww N N 


localtime_r 


13.36 ”常见 的 线程 不 安全 库 函 数 


asctime、ctime 和 localtime 陆 数 是 在 不 同时 间 和 数据 格式 间 相 互 来 回转 换 时 经 常 使 用 的 函数 。 
gethostbyname、 gethostbyaddr 和 inet_ntoa 项 数 是 我 们 在 第 12 章 中 遇 到 过 的 、 经 常 使 用 的 网 络 编程 
RSL. strok 函数 是 一 个 过 时 了 的 〈 也 就 是 不 再 鼓励 使 用 的 ) 用 来 分 析 字 符 串 的 函数 。 

除了 rand 和 strtok 以 外 ， 所 有 这 些 线程 不 安全 函数 都 是 第 3 类 的 ， 它 们 返回 一 个 指向 静态 变量 
的 指针 。 如 果 我 们 需要 在 一 个 多 线程 程序 中 调用 这 些 函 数 中 的 某 一 个 ， 最 简单 的 方法 是 
lock-and-copy。 lock-and-copy 的 缺点 是 额外 的 同步 降低 了 程序 的 速度 。 更 进一步 , 这 种 方法 对 像 rand 
这 样 依赖 跨越 调用 的 静态 状态 的 第 2 类 函数 并 不 有 效 。 因 此 ，Unix 系统 提供 大 多 数 线程 不 安全 函数 
的 可 章 入 版 本 。 可 重 入 版 本 的 名 字 总 是 以 “_r” 后 缀 结尾 。 例 如 ，gethostbyname 的 可 重 入 版 本 就 叫 
做 gethostbyname_r。 不 幸 的 是 ， 关 于 Unix 的 可 重 入 函数 的 文档 很 差 ， 并 且 在 不 同 的 Unix 系统 上 有 
不 同 的 接口 。 因 为 这 个 原因 ， 我 们 建议 避免 使 用 它们 。 


13.7.4 2 

当 一 个 程序 的 正确 性 依赖 于 一 个 线程 要 在 另 一 个 线程 到 达 y 点 之 前 到 达 它 的 控制 流 中 的 x 点 时 ， 
就 会 发 生 竞 争 〈race)。 通 常 发 生 竞 争 是 因为 程序 员 假 定 线程 将 技 照 某 种 特殊 的 负 线 穿 过 执行 状态 空 
间 ， 而 忘记 了 另 一 条 准则 规定 : 多 线程 程序 必须 对 任何 可 行 的 轨 线 都 正确 工作 。 

例子 是 理解 竞争 本 质 的 最 简单 的 方法 。 让 我 们 来 看 看 图 13.37 中 的 简单 程序 。 主 线程 创建 了 四 
个 对 等 线程 ， 并 传递 一 个 指向 一 个 惟一 的 整数 ID 的 指针 到 每 个 线程 。 每 个 对 等 线程 拷贝 它 的 参数 
中 传递 的 ID 到 一 个 局 部 变量 中 (第 21 行 )， 然 后 输出 一 个 包含 这 个 ID 的 信息 。 


并 发 编程 


1 #include "“csapp.h" 

2 #define N 4 

3 

4 void *thread(void *vargp) ; 

5 

6 int main() 

7 i 

8 pthread_t tidÍN]; 

9 int i; 

10 

11 for (i = Q0; i < N; i++) 

12 Pthread_create(&tid[i], NULL, thread, &1); 
13 for (i = 0; i < N; i++) 

14 Pthread_join(tid[i], NULL); 
15 exit(0); 

16 |] 

17 

18  /* thread routine */ 

19 void *thread(void *vargp) 

20 { 

21 int myid = *((int *)vargp); 

22 printf("Hello from thread %d\n", myid); 
23 return NULL; 

24 } 


13.37 ”一 个 带 竞争 的 程序 
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code/conc/race.c 


code/conc/race.c 


它 看 上 去 足够 简单 ， 但 是 当 我 们 在 系统 上 运行 这 个 程序 时 ， 我 们 得 到 以 下 不 正确 的 结果 ; 


unix> ./race 

Hello from thread 1 
Hello from thread 3 
Hello from thread 2 
Hello from thread 3 


问题 是 由 每 个 对 等 线程 和 主线 程 之 间 的 竞争 引起 的 .你 能 发 现 这 个 竞争 吗 ? 下 面 是 发 生 的 情况 ; 
当主 线程 在 第 12 行 创建 了 一 个 对 等 线程 ， 它 传递 了 一 个 指向 本 地 栈 变 量 i 的 指针 。 在 此 时 ， 竞 争 出 
现在 下 一 次 在 第 12 行 调 用 pthread_create 和 第 21 行 参数 的 间接 引用 和 赋值 之 间 。 如 果 对 等 线程 在 主 
线程 执行 第 12 行 之 前 就 执行 了 第 21 íT. WA myid 变量 就 得 到 正确 的 ID。 否 则 ， 它 就 包含 的 是 其 
他 线程 的 ID.。 令 人 惊慌 的 是 ， 我 们 是 否 得 到 正确 的 答案 依赖 于 内 核 是 如 何 调度 线程 的 执行 的 。 在 我 
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们 的 系统 中 它 失 败 了 ， 但 是 在 其 他 系统 中 ， 它 可 能 就 能 正确 工作 ， 让 程序 员 “ 幸 福地 ”察觉 不 到 程 
序 的 严重 错误 。 

为 了 消除 竞争 ， 我 们 可 以 动态 地 为 每 个 整数 ID 分 配 一 个 独立 的 块 ， 并 且 传 递 给 线程 例 程 一 个 
指向 这 个 块 的 指针 ， 如 图 13.38 所 示 〈 第 12~14 行 )。 请 注意 线程 例 程 必 须 释 放 这 些 块 以 避免 往 储 


Ba LDR o 
当 我 们 在 系统 上 运行 这 个 程序 时 ， 我 们 现在 得 到 了 正确 的 结果 : 
unix> ./norace 


Hello from thread 0 
Hello from thread 1 
Hello from thread 2 
Hello from thread 3 


练习 题 13.9 , 
在 图 13.38 中 ,我 们 可 能 想 要 在 主线 程 中 的 第 15 行 后 立即 释放 已 分 配 的 存储 器 块 ， 而 不 是 在 对 
等 线程 中 释放 它 。 但 是 这 会 是 个 坏 注 意 。 为 什么 ? 


练习 题 13.10 
A. 在 图 13.38 中 ， 我 们 通过 为 每 个 整数 ID 分 配 一 个 独立 的 块 来 消除 竞争 。 给 出 一 个 不 调用 

malloc 或 者 free 函数 的 不 同 的 方法 。 
B. RAZPENA? 


O worn AN FP PP 


#include "csapp.h" 


#define N 4 


void *thread(void *vargp):; 


int main() 


{ 


pthread_t tid[N]; 


inc. 2) “ple 


for (i = 0; i < N; i++) { 
ptr = Malloc(sizeof(int)); 


iG) os aa = 1; 


Pthread_create(&tid[1], NULL, thread, 


} 


for (i = 0; i < N; i++) 


per); 


code/conc/norace.c 


13.7.5 
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Pthread_join(tid[{i], NULL); 
exit (0); 
} 


/* thread routine */ 


void *thread(vold *vargp) 
{ 
int myid = *((int *)vargp); 
Free (vargp); 
printf("Hello from thread d\n", myid); 


return NULL; 


code/conc/norace.c 


13.38 图 13.37 中 程序 的 一 个 没有 竞争 的 正确 版 本 
FH 


信号 量 引 入 了 一 种 潜在 的 令 人 厌恶 的 运行 时 错误 ， 叫 做 死 锁 〈deadlock)， 它 指 的 是 一 组 线程 被 
阻塞 了 ， 等 竺 一 个 永远 也 不 会 为 真 的 条 件 。 进 度 图 对 于 理解 死 锁 是 一 个 无 价 的 工具 。 例 如 ， 图 13.39 
展示 了 一 对 用 两 个 信和 号 量 来 实现 互 斥 的 线程 的 进程 图 。 从 这 幅 图 中 ， 我 们 能 够 得 到 一 些 关 于 和 死 锁 的 
PHAR: 


程序 员 使 用 P 和 V 操作 顺序 不 当 ， 以 全 两 个 信号 量 的 禁止 区 域 (forbidden region) BB. 
如 果 某 个 执行 轨 线 偶然 到 达 了 死 锁 状态 d, 那么 就 不 可 能 有 进一步 的 进展 了 , AAR SHS 
止 区 域 阻 塞 了 每 个 合法 方向 上 的 进度 。 换 句 话 说 ， 程 序 死 锁 是 因为 每 个 线程 都 在 等 待 其 他 
线程 执行 一 个 根 不 可 能 发 生 的 本 V 操 作 。 

重 登 的 禁止 区 域 引 起 了 一 组 称 为 死 锁 区 域 (deadlock region) 的 状态 。 如 果 一 个 轨 线 偶然 到 
这 了 一 个 死 锁 区 域 中 的 状态 ， 那 么 死 锁 就 是 不 可 避免 的 了 。 轨 线 可 以 进入 死 锁 区 域 ， 但 是 
它们 不 可 能 离开 。 

死 锁 是 一 个 相当 困难 的 问题 ， 因 为 它 不 总 是 可 预测 的 。 一 些 幸运 的 执行 轨 线 将 绕 开 和 死 
锁 区 域 ， 而 其 他 的 将 会 陷入 这 个 区 域 。 图 13.39 展示 了 每 种 情况 的 一 个 示例 。 对 于 程序 
员 来 说 ， 这 其 中 隐 含 的 着 实 令 人 惊慌 。 你 可 以 1000 次 运行 一 个 程序 不 出 任何 问题 ， 但 
左下 一 次 它 藉 有 可 能 会 死 锁 。 或 者 程序 在 一 台 机 器 上 可 能 运行 得 很 好 ， 但 是 在 另外 的 
机 天 上 就 会 死 锁 。 最 糟糕 的 是 ， 错 误 常 常 是 不 可 重复 的 ， 因 为 不 同 的 执行 有 不 同 的 轨 
2% 。 


程序 死 锁 有 很 多 原因 ， 要 避免 死 锁 一 般 而 言 是 很 困难 的 。 然 而 ， 当 使 用 二 进 制 信号 量 来 实现 互 
Fei}, WE 13.39 所 示 ， 你 可 以 应 用 下 面 的 简单 而 有 效 的 规则 来 避免 死 锁 : 

互 斥 锁 加 锁 顺 序 规则 : 如 果 对 于 程序 中 每 对 互 斥 锁 (s，1)， 每 个 既 包 含 s 也 包含 t 的 线程 都 按 
照相 同 的 顺序 同时 对 它们 加 锁 ， 那 么 这 个 程序 就 是 无 死 锁 的 。 

例如 ， 我 们 可 以 通过 这 样 的 方法 来 解决 图 13.39 中 的 死 锁 问题 ， 在 每 个 线程 中 先 对 s 加 锁 ， 然 
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后 再 对 t 加 锁 。 图 13.40 展示 了 得 到 的 进度 图 。 


=i? 无 死 锁 的 轨 线 


— > -l 
V(s) | 


Vit) 


P(s) 
P(t) ea 

plat 有 死 锁 的 轨 线 

t=1 , 

Ps) --- Plt) =. Vis) 
图 13.39 一 个 会 死 锁 的 程序 的 进度 图 

线程 2 
V(s) 
Vit) 
P(t) 
P(s) 

初始 

s=1 

t=1 


Ps) PW) AS) 


13.40 ”一 个 无 死 锁 程序 的 进度 图 


练习 题 13.11 


思考 下 面 的 程序 ， 它 试图 使 用 一 对 信号 量 来 实现 互 斤 . 
初始 时 : s=1, t=0. 


Vit) 


线程 1 
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线程 1; 线程 2: 
P (s); P (s); 
V ís); V (s); 
P (t); P (t); 
V (t) V (t); 
A. 画 出 这 个 程序 的 进度 图 . 


B. 它 总 是 会 死 锁 吗 ? 
C. 如 果 是 ， 那 么 对 初始 信号 量 的 值 做 什么 简单 的 改变 就 能 消除 这 种 潜在 的 死 锁 呢 ? 
D. 画 出 得 到 的 无 死人 锁 程 序 的 进度 图 . 


13.8 hi 


TH Rae EN LESK- AFHR. EAR, RIFI T ZAAI 
建 并 发 程序 的 机 制 ， 进程 、UO 多 路 复 用 和 线程 ， 我 们 以 一 个 并 发 网 络 服务 器 作为 贯穿 全 章 的 应 用 
程序 。 

进程 是 由 内 核 目 动 调度 的 ， 而 且 因 为 它们 有 各 目 独 立 的 虚拟 地 址 空间 ， 所 以 要 实现 共享 数据 ， 
它们 需要 显 式 的 IPC 机 制 。 事 件 驱动 程序 创建 它们 自己 的 并 发 逻辑 流 ， 这 些 逻 辑 流 被 模型 化 为 状态 
机 ， 用 VO 多 路 复 用 来 显 式 地 调度 这 些 流 。 因 为 程序 运行 在 一 个 单一 进程 中 ， 所 以 在 流 之 间 共 享 数 
据 速 度 很 快 而 且 很 容易 。 线 程 是 这 些 方法 的 综合 。 同 基于 进程 的 流 一 样 ， 线程 是 由 内 核 自动 调度 的 。 
AAT LO 多 路 复 用 的 流 一 样 ， 线 程 是 运行 在 一 个 单一 进程 的 上 下 文中 的 ， 因 此 可 以 快速 而 方便 地 
共享 数据 。 

无 论 哪 种 并 发 机 制 ， 同 步 对 共享 数据 的 并 发 访问 都 是 一 个 图 难 的 问题 。 提 出 对 信号 量 的 已 和 V 
操作 就 是 为 了 帮助 解决 这 个 问题 。 信 号 量 操作 可 以 用 来 提供 对 共享 数据 的 互 斥 访问 ， 也 对 诸如 生产 
者 - 浓 费 者 程序 中 共享 缓冲 区 这 样 的 资源 访问 进行 调度 。 一 个 并 发 预 线程 化 的 echo 服务 器 提供 了 这 
两 种 信号 量 使 用 场景 的 很 好 的 例子 。 

并 发 性 也 引入 了 其 他 一 些 困难 的 问题 。 被 线程 调用 的 函数 必须 具有 一 种 称 为 线程 安全 的 属性 。 
我 们 定义 了 四 类 线程 不 安全 消 数 ， 以 及 一 些 将 它们 变 为 线程 安全 的 建议 。 可 重 入 函数 是 线程 安全 
明 数 的 一 个 真子 集 ， 它 不 访问 任何 共享 数据 。 可 重 入 函数 通常 比 不 可 重 入 函数 更 为 有 效 ， 因 为 它 
们 不 需要 任何 同步 原 语 。 竞 争 和 和 死 锁 是 并 发 程序 中 出 现 的 另 一 些 困 难 的 问题 。 当 程序 员 错 误 地 假 
发 浆 和 殿 流 该 如 何 调度 时 ， 就 会 发 生 竞争 。 当 一 个 流 等 待 一 个 永远 不 会 发 生 的 事件 时 ， 就 会 产生 死 
锁 。 


参考 文献 说 明 

fa SHPRE Dijkstra 提出 的 [24]。 进 度 图 的 概念 是 Coffman[16] 提 出 的 ， 后 来 由 Carson 和 和 
Reynolds[10] 正 式 化 的 。Butenhof 的 书 [9] 对 Posix 线程 接口 有 全 面 的 描述 。Birrell[4] 的 文章 对 线程 编 
程 以 及 线程 编程 中 容易 遇 到 的 问题 做 了 很 好 的 介绍 。Pugh 描述 了 Java 线程 通过 存储 器 进行 交互 的 
方式 的 缺陷 ， 并 提出 了 替代 的 存储 器 模型 [61]。 
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Ae oe VE 

13.12 © 

编写 一 个 hello.c (H 13.13) 的 版 本 ， 使 得 它 创建 和 回收 n 个 可 结合 的 《joinable ) 对 等 线程 ， 
EP 是 一 个 命令 行 参数 。 

13.13 © 

A. 图 13.41 中 的 程序 有 一 个 bug。 要 求 线程 睡眠 一 秒 ， 然 后 输出 一 个 字符 串 。 然 而 ， 当 在 我 们 
的 系统 上 运行 它 时 ， 却 没有 任何 输出 。 为 什么 ? 

B. 你 可 以 通过 用 两 个 不 同 的 Pthreads 函数 调用 中 的 一 个 谷 代 第 9 行 中 的 exit 函数 ,来 改正 这 个 
错误 。 选 哪 一 个 呢 ? 


code/conc/hellobug.c 


1 #include "csapp.h” 

2 void *thread(void *vargp) ; 
3 

4 int main() 

2 { 

6 pthread_t tid; 

7 

8 Pthread_create(&tid, NULL, thread, NULL); 
9 exit(0); 

19 } 

11 


12 /* thread routine */ 
13 void *thread(void *vargp) 


14 { 
15 Sleep (1); 
16 printf("Hello, world! \n"); 
17 return NULL; 
18 } 
code/conc/hellobug.c 
13.41 习题 13.13 的 有 bug 的 程序 
13.14 OF 


检查 一 下 你 对 select 函数 的 理解 ， 请 修改 图 136 中 的 服务 器 ， 使 得 它 每 次 在 主 服务 器 循环 中 最 
多 只 回 送 一 个 文本 行 。 
13.15 O@ 


图 13.8 中 的 事件 驱动 并 发 echo RS BRARB A, ASA NA P mie RIK Bp 
的 文本 行 ， 使 服务 器 拒绝 为 其 他 客户 端 服务 。 编 写 一 个 改进 的 服务 器 版 本 ， 使 之 能 够 非 阻塞 地 处 理 
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这 些 部 分 文本 行 。 

13.16 © 

Ro VO 包 中 的 函数 (11.4 节 ) 都 是 线程 安全 的 。 它 们 也 都 是 可 重 入 国 数 吗 ”? 

13.17 © 

在 图 13.30 中 的 预 线程 化 的 并 发 echo 服务 器 中 ， 每 个 线程 都 调用 echo_cnt AA (A 13.13). 
echo_cnt 是 线程 安全 的 吗 ? 它 是 可 重 入 的 吗 ? 为 什么 是 或 为 什么 不 是 呢 ? 


13.18 0%% 


一 些 网 络 编程 的 文献 建议 用 以 下 的 方法 来 读 和 写 套 接 字 ， 和 客户 端 交互 之 前 ， 在 同一 个 打开 的 


FILE *fpin, *fpout; 


fpin = fdopen(sockfd,"r"); 
fpout = fdopen({sockfd,"w"); 
当 服 务 器 完成 和 客户 端的 交互 之 后 ， 像 下 面 这 样 关 闭 两 个 流 : 


fclose(fpin); 


fclose(fpout); 


然而 ， 如 果 你 试图 在 基于 线程 的 并 发 服务 器 上 尝试 这 种 方式 ， 你 将 制造 一 个 致命 的 竞争 条 件 。 
请 解释 。 
13.19 © 


在 图 13.40 中 ， 将 两 个 V 操作 的 顺序 交换 ， 对 程序 死 锁 是 否 有 影响 ? 通过 画 出 四 种 可 能 情况 的 
进度 图 来 证 明 你 的 答案 : 


13.20 © 
下 面 的 程序 会 死 锁 吗 ? 为 什么 ? 


Initially:a = 1, b=1, c= 1. 


Thread 1: Thread 2: 
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P{a); P(c); 

P(b); P {b}; 

V(b); V(b) 

P(c); V(c); 

Vic); 

Va); 

13.21 © 

考虑 下 面 这 个 会 死 锁 的 程序 段 。 


Initially:a = 1, b=1, c= 1. 


Thread 1: Thread 2: Thread 3 
P(a); P(c); P(c); 
P(b); P(b); Vic); 
V(b}; V(b); P(b); 
P(c); V{c)}; P(a); 
Vic); P {a}; V(a); 
Vla}; V(a) i V(b); 


A. Will Hi 47S 28 Fe Ia) IN PRE A — Ot 
B. 如 果 a<b<c， 那 么 哪个 线程 违背 了 互 斥 锁 加 锁 顺 序 规则 ? 
C. 对 于 这 些 线程 ， 指 出 一 个 新 的 保证 不 会 发 生死 锁 的 加 锁 顺 序 。 


13.22 O09 

实现 标准 的 VO 函数 fgets 的 一 个 版 本 , 叫做 tfgets, 假如 它 在 5 秒 之 内 没有 从 标准 输入 上 接收 到 
一 个 输入 行 ， 那 么 就 超时 ， 并 返回 一 个 NULL 指针 。 你 的 函数 应 该 实现 在 一 个 叫做 tfgets-select.c 的 
包 中 ， 使 用 进程 、 信 号 和 非 本 地 跳 转 。 它 不 应 该 使 用 Unix 的 alarm 函数 。 使 用 图 13.42 中 的 驱动 程 
序 测试 你 的 结果 。 


13.23 O09 

使 用 select 函数 来 实现 练习 题 13.22 中 tfgets 函数 的 一 个 版 本 ， 你 的 函数 应 该 在 一 个 叫做 
tigets-select.c 的 包 中 实现 。 用 练习 题 13.22 中 的 驱动 程序 测试 你 的 结果 。 你 可 以 假定 标准 输入 被 赋 
HARENNE. 

13.24 @04 

实现 练习 题 13.22 中 tfgets 因数 的 一 个 多 线程 版 本 。 你 的 函数 应 该 在 一 个 叫做 tfgets-select.c 的 
包 中 实现 。 用 练习 题 13.22 中 的 驱动 程序 测试 你 的 结果 。 


13.25 @¢0¢@ 
实现 一 个 基于 进程 的 Tiny Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 
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个 新 的 子 进程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 
code/conc/tfgets-main.c 
#include "csapp.h’” 


char *tfgets(char *s, int size, FILE *stream} ; 


int main() 
{ 
char buf [MAXLINE] ; 


Oo © wa nH Ol B W PF FF 


if ({tfgets(buf, MAXLINE, stdin) == NULL) 
printf ("BOOM!\n"); 


Hè oe 
= o 


else 


printf£("%s", buf); 


PR H 
心 w N 


exit (0}; 


| 一 
in 
ty 


code/conc/tfgets-main.c 
13.42 习题 13,22 一 13.24 的 驱动 程序 

13.26 0094 

实现 一 个 基于 VO 多 路 复 用 的 Tiny Web 服务 器 的 并 发 版 本 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 
解答 。 

13.27 @09 

实现 一 个 基于 线程 的 Tiny Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 
个 新 的 线程 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 解答 。 

13.28 OOO 


实现 一 个 Tiny Web 服务 器 的 并 发 预 线程 化 的 版 本 。 你 的 解答 应 该 根据 当前 的 负载 , 动态 地 增加 
或 减少 线程 的 数目 。 一 个 策略 是 当 缓 冲 区 变 满 时 ， 将 线程 数量 翻 倍 ， 而 当 缓 冲 区 变 为 空 时 ， 将 线程 
数 日 减 半 。 使 用 一 个 实际 的 浏览 器 来 测试 你 的 解答 。 


13.29 6004 

Web 代理 是 一 个 在 Web 服务 器 和 浏览 器 之 间 扮 演 中 间 角 色 的 程序 。 浏览 器 不 是 直接 连接 服务 器 
以 获取 网 页 ， 而 是 与 代理 连接 ， 代 理 再 将 请 求 转发 给 服务 器 。 当 服务 器 响应 代理 时 ， 代 理 将 响应 发 
送 给 浏览 器 。 实 现 这 个 试验 ， 请 你 编写 一 个 简单 的 可 以 过 滤 和 记录 请 求 的 Web RA: 

A. 试验 的 第 一 部 分 中 ， 你 要 建立 以 接收 请 求 的 代理 ,分 析 HTTP， 转 发 请 求 给 服务 器 ， 并 且 返 
回 结 末 给 浏览 器 。 你 的 代理 将 所 有 请 求 的 URL 记录 在 磁盘 上 一 个 日 志文 件 中 , 同时 它 还 要 阻塞 所 有 
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对 包含 在 磁盘 上 一 个 过 滤 文 件 中 的 URL 的 请 求 。 

B. 试验 的 第 二 部 分 中 ,你 要 升级 你 的 代理 ， 它 通过 派生 一 个 独立 的 线程 来 处 理 每 一 个 请 求 ， 使 
得 你 的 代理 能 够 一 次 处 理 多 个 打开 的 连接 。 当 你 的 代理 在 等 待 远程 服务 器 响应 一 个 请 求 使 它 能 服务 
于 一 个 浏览 器 时 ， 它 应 该 可 以 处 理 来 自 另 一 个 浏览 器 未 完成 的 请 求 。 

使 用 一 个 实际 的 浏览 器 来 检验 你 的 解答 。 


练习 题 答案 


练习 题 13.1 答案 

当 父 进程 派生 子 进程 时 ， 它 得 到 一 个 已 连接 描述 符 的 副本 ， 并 将 相关 文件 表 中 的 引用 计数 从 1 
增加 到 2。 当 父 进程 关闭 它 的 描述 符 副 本 时 , 引用 计数 就 从 2 减少 到 1。 因为 内 核 不 会 关闭 一 个 文件 ， 
直到 文件 表 中 它 的 引用 计数 值 变 为 零 ， 所 以 子 进 程 这 边 的 连接 端 将 保持 打开 。 


练习 题 13.2 答案 

当 一 个 进程 因为 某 种 原因 终止 时 ， 内 核 将 关闭 所 有 打开 的 描述 符 。 因 此 ， 当 子 进 程 退 出 时 ， 它 
的 连接 文件 描述 符 的 副本 也 将 被 自动 关闭 。 

练习 题 13.3 答案 

回想 一 下 ， 如 果 一 个 从 描述 符 中 读 一 个 字 节 的 请 求 不 会 阻塞 ， 那 么 这 个 描述 符 就 准备 好 可 以 读 
了 。 假 如 EOF 在 一 个 描述 符 上 为 真 ， 那么 描述 符 也 准备 好 可 读 了 ， 因 为 读 操作 将 立即 返回 一 个 零 返 
口 码 ， 表 示 EOF. Alt, A ctrl-d 会 导致 select 函数 返回 ， 准 备 好 的 集合 中 有 描述 符 0， 


练习 题 13.4 答案 


因为 变量 pool.read_set 既 作 为 输入 参数 也 作为 输出 参数 ， 所 以 我 们 在 每 一 次 调用 select 之 前 都 
重新 初始 化 它 。 在 输入 时 ， 它 包含 读 集合 。 在 输出 ， 它 包含 准备 好 的 集合 。 


练习 题 13.5 答案 

因为 线程 运行 在 同一 个 进程 中 ， 它 们 都 共享 相同 的 描述 符 表 。 无 论 有 多 少 线程 使 用 这 个 已 连接 
描述 符 ， 这 个 已 连接 描述 符 的 文件 表 的 引用 计数 都 等 于 一 。 因 此 ， 当 我 们 用 完 它 时 ， 一 个 close 操 
作 束 足以 释放 与 这 个 已 连接 描述 符 相 关 的 存储 器 资源 了 。 


练习 题 13.6 答案 
这 里 的 主要 的 意思 是 说 ， 当 共享 全 局 和 静态 变量 时 ， 静 态 变量 是 私有 的 。 诸 如 cnt 这 样 的 静态 
变量 有 点 小 TFP MERE 


被 主线 程 引 用 ? 
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CER) 


TTT 
rl | Ts R 
nl | o o 
| | | 


说 明 : 

e ptr: 一 个 被 主线 程 瑟 和 被 对 等 线程 孩 的 全 局 变量 。 

e cnt: 一 个 静态 变量 ， 被 两 个 对 等 线程 读 和 号 ， 在 存储 器 中 只 有 一 个 实例 。 

e im: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 。 有 虽然 它 的 值 被 传递 给 对 等 线程 ， 但 是 对 等 线 
程 也 决 不 会 在 栈 中 引用 它 ， 因 此 它 不 是 共 至 的 。 

。 msgs.m: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 ， 被 两 个 对 等 线程 通过 ptr 间接 地 引用 。 

e myid.0 和 myid.1: 分 别 驻 留 在 对 等 线程 0 和 线程 1 的 栈 中 的 一 个 本 地 上 自动 变量 的 实例 。 

B. SE ptr, cnt 和 msgs 被 多 于 一 个 线程 引用 ， 因 此 它们 是 共享 的 。 


练习 题 13.7 答案 
这 里 的 重要 思想 是 ， 你 不 能 假设 当 内 核 调 度 你 的 线程 时 ， 会 如 何 选择 顺序 。 


变量 cnt 最 终 有 一 个 不 正确 的 值 一 一 1。 


练习 题 13.8 答案 


gethostbyname_ts 孙 数 不 是 可 重 入 函数 ， 因 为 每 次 调用 都 共享 相同 的 由 gethostbyname 函数 返回 
的 static 变量 。 然 而 ， 它 是 线程 安全 的 ， 因 为 对 共享 变量 的 访问 是 被 P 和 V 操作 保护 的 ， 因 此 是 互 
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斥 的 。 


练习 题 13.9 答案 

如 果 在 第 15 行 调用 了 pthread_create 之 后 ， 我 们 立即 释放 块 ， 那 么 我 们 将 引入 一 个 新 的 竞争 ， 
这 次 竞争 发 生 在 主线 程 对 free 的 调用 和 线程 例 程 中 第 25 行 的 赋值 语句 之 间 。 

练习 题 13.10 答案 

A. 另 一 种 方法 是 直接 传递 整数 1， 而 不 是 传递 一 个 指向 i 的 指针 : 

for (i = 0; 1<N;1i++) 

Pthread_create(&tid[i],NULL,thread, (void *)1); 

在 线程 例 程 中 ， 我 们 将 参数 强制 转换 成 一 个 int 类 型 ， 并 将 它 赋 值 给 myid: 

int myid = (int) vargp; 

B. 优点 是 它 通 过 消除 对 malloc 和 free 的 调用 ， 人 降低 了 开销 。 一 个 明显 的 缺点 是 ， 它 假设 指针 


至 少 和 im 一 样 大 。 即 便 这 种 假设 对 于 所 有 的 现代 系统 来 说 都 为 真 ， 但 是 它 对 于 那些 过 去 遗留 下 来 
的 或 今后 的 系统 来 说 可 能 就 不 为 真 了 。 


练习 题 13.11 答案 
A. 原始 的 程序 的 进度 图 如 图 13.43 Pra. 
线程 2 


V(s) 


P(s) 


ag 
SiR 


= _ 线程 1 


Pe) SO 


13.43 一 个 会 死 锁 的 程序 的 进度 图 


B. 因为 任何 可 行 的 轨迹 最 终 都 陷入 的 死 锁 状 态 中 ， 所 以 这 个 程序 总 是 会 死 锁 。 
C. 为 了 消除 潜在 的 死 锁 ,将 二 进 制 信和 号 量 t 初始 化 为 1 而 不 是 0。 
D. 正确 的 程序 的 进度 图 如 图 13.44 Ara. 


Pit) 


P(s) 


P(s) 


图 13.44 


并 发 编程 


Vis) = P(t) 


正确 的 无 死 锁 的 程序 的 进度 图 


V(t) 
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784 附录 A 


A.1 HCL 参考 手册 


在 第 4 章 中 ， 我 们 用 HCL (Hardware Control Language， 硬 件 控制 语言 ) 来 描述 了 几 种 处 理 器 
设计 的 控制 逻辑 部 分 ,HCL 具有 一 些 硬件 描述 语言 的 属性 , 允许 用 户 描述 布尔 函数 和 字 级 选择 操作 。 
另 一 方面 ， 它 缺乏 许多 在 真正 的 HDL 中 能 找到 的 特性 ， 例 如 ， 声 明 寄 存 器 和 其 他 存储 元 素 的 方法 ， 
循环 和 条 件 构造 ， 模 块 定义 和 实例 化 的 能 力 ， 以 及 位 提取 和 插入 操作 。 

HCL 实际 上 只 是 一 种 语言 ， 用 于 生成 固定 格式 的 C 代码 。HCL 文件 中 的 所 有 块 定义 都 由 程序 
HCL2C (KIK “HCL to C” 转换 成 C 函数 。 然 后 再 编译 这 些 函 数 ， 与 实现 其 他 模拟 器 范 数 的 库 代 
码 链 接 ， 产 生 可 执行 模拟 程序 ， 如 下 图 所 示 : 


i d.hcl hcl2c pipe Std-c 
e-sta.nc 
Pp 可 执行 模拟 器 


gcc pipe_tty 
模拟 器 库 函 数 
tty.a 


这 张 图 展示 的 文件 被 用 来 生成 流水 线 模拟 器 的 文本 版 本 。 

可 以 直接 用 C 来 描述 控制 逻辑 的 行为 ， 而 不 必 写 HCL， 然 后 再 翻译 成 C。 使 用 HCL 的 优点 是 
我 们 可 以 更 清晰 地 区 分 硬件 的 功能 和 模拟 器 的 内 部 工作 方式 。 

HCL 只 支持 两 种 数据 类 型 bool (表示 “布尔 ”) 信号 要 人 么 是 0， 要 么 是 1， 而 int (表示 “整数 ”) 
信号 等 价 于 C 中 的 int 值 。 数 据 类 型 int 用 于 表示 所 有 的 多 位 信号 类 型 ， 例 如 ， 字 、 寄 存 器 ID 和 指令 
代码 。 汉 转换 成 C 时 ， 这 两 种 数据 类 型 都 表示 为 int 数据 ， 只 不 过 bool 类 型 的 值 只 能 等 于 0 或 者 1。 
A.1.1 信号 声明 

HCL 中 的 表达 式 可 以 引用 整数 或 者 布尔 类 型 的 命名 信号 。 信号 名 必须 以 字母 (a 一 z 或 者 ASZ) 
开头 ， 后 面 可 以 是 任意 数量 的 字母 、 数 字 或 者 下 划 线 (_)。 信 和 号 名 是 大 小 写 敏 感 的 。HCL ARAR 
数 表达 式 中 的 布尔 和 整数 信号 名 实际 上 就 是 C 表 达 式 的 别名 。 信 号 的 声明 也 定义 了 相关 的 C 表 达 式 。 
信和 号 声明 可 以 具有 如 下 形式 中 的 一 种 : 

boolsig name 'C-expr’ 

intsig name 'C-expr' 

这 里 ，C-expr 可 以 是 任意 的 C 表达 式 ， 除 了 它 不 能 包含 单 引 号 C) 或 者 换行 符 (\n〉 以 外 ， 
当 产 生 C 代码 时 ，HCL2C 会 用 相应 的 C 表达 式 替 换 所 有 的 信和 号 名 。 


A.1.2 引号 引起 来 的 文本 
引号 引起 来 的 文本 提供 了 一 种 从 HCL2C 直接 传递 文本 到 生成 的 C 文件 的 机 制 。 可 以 用 它 来 插 
入 变量 声明 、include 语句 ， 以 及 其 他 一 些 通常 能 在 C 文件 中 发 现 的 东西 。 通 用 格式 为 : 


quote ‘string’ 


这 里 string 可 以 是 任何 不 包含 单 引 号 O 或 者 换行 符 Om 的 字符 串 。 
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A.1.3 ”表达 式 和 块 

有 两 种 类 型 的 表达 式 ， 布尔 表达 式 和 整数 表达 式 ， 在 我 们 的 语法 描述 中 分 别称 为 bool-expr 和 
int-expr。 图 A.1 列 出 了 不 同 的 布尔 表达 式 类 型 。 按 照 优先 级 的 降序 排列 ， 同 一 组 (组 与 组 之 间 由 水 
ee yh) 内 的 操作 具有 相等 的 优先 级 。 可 以 用 括号 来 改变 普通 的 操作 符 优 先 级 。 

最 启 级 是 常数 值 0 和 1， 以 及 命名 的 布尔 信和 号。 优先 级 低 一 级 的 是 以 整数 为 参数 但 是 得 到 布尔 
结果 的 表达 式 。 集 合成 员 关 系 测试 将 第 一 个 整数 表达 式 int-expr 的 值 与 组 成 集合 的 每 个 整数 表达 式 
的 值 {int-expri,*…,int-expry} 相 比较 ， 如 果 发 现 相 匹配 的 值 ， 结 果 为 1。 关系 操作 符 比 较 两 个 整数 表达 
式 ， 当 关系 满足 时 ， 产 生 1， 当 关系 不 满 是 时 ， 产 生 0。 


命名 的 布尔 信和 号 


RARR KRMA 


int-expr in {int-expr,, int-exprz, ***, int-expr;} 
int-expr; == int-expro 
int-expr, != int-expr2 


int-expr < int-expr2 


int-expr; <= int-expr2 小 于 或 等 于 测试 
大 于 测试 


int-expr; >= int-exprr 大 于 或 等 于 测试 


int-expr; > int-exprr 


bool-expr, || bool-exprz 


图 A.1 HCL 布尔 表达 式 
这 些 表达 式 求 值 为 0 或 者 1。 操 作 是 按照 优先 级 的 降序 排列 的 ， 每 一 组 内 的 操作 具有 相等 的 优先 级 。 
图 ALL 中 剩 下 的 表达 式 是 由 使 用 布尔 连接 符 的 公式 组 成 的 (! 表 示 Not，&& 表 示 And, MIKA 
Or). 
只 有 三 种 头 型 的 整数 表达 式 : 数字 、 命 名 的 整数 信号 和 情况 (case) 表达 式 。 数 字 是 以 十 进 制 
表示 法 书写 的 ， 可 以 为 负 。 命名 的 整数 信号 使 用 同 前 面 讲 过 的 一 样 的 命名 规则 。 情 况 表 达 式 有 下 面 
| 


bool-expr, : int-expr; 
bool-expr> : int-expr2 


bool-expr;, : int-expr; 
| 


表达 式 包 含 一 系列 情况 ， 每 种 情况 i 是 由 一 个 布尔 表达 式 bool-expr; 和 一 个 整数 表达 式 int-expr, 
组 成 ， 前 者 表明 是 和 否 该 选择 这 种 情况 ， 而 后 者 是 对 于 这 种 情况 得 到 的 值 。 在 对 一 个 情况 表达 式 求 值 
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时 ， 布 尔 表达 式 是 按照 顺序 被 求 值 的 。 一 旦 有 一 个 布尔 表达 式 得 到 1， 那 么 相应 的 整数 表达 式 的 值 
就 作为 情况 表达 式 的 值 被 返回 。 如果 没有 布尔 表达 式 求 值 为 1， 那么 这 个 情况 表达 式 的 值 就 为 0。 一 
个 好 的 编程 习惯 是 让 最 后 一 个 布尔 表达 式 为 1， 以 保证 全 少 有 一 个 区 本 的 情 沈 。 

HCL 表达 式 被 用 来 定义 组 合 逻 辑 块 的 行为 。 块 的 定义 有 以 下 形式 之 一 : 

bool name = bool-expr, 

int name = int-expr,; 

这 里 ， 第 一 种 形式 定义 的 是 布尔 块 ， 而 第 二 种 定义 的 是 字 级 块 。 对 于 一 个 声明 为 以 name 为 名 
字 的 块 ，HCL2C 产生 一 个 图 数 gen_name。 这 个 郴 数 没有 参数 ， 而 它 返回 一 个 int 类 型 的 结果 。 


A.1.4 HCL 示例 

下 面 这 个 示例 给 出 了 一 个 完整 的 HCL 文件， 用 HCL2C 处 理 它 得 到 的 C 代码 是 完全 目 包 含 的 。 
可 以 编 详 放 个 代码 ， 并 市 上 表示 输入 信号 的 命令 行 参数 运行 它 。 更 加 典型 的 情况 是 ，HCL 文件 只 定 
义 模 拟 模 型 的 控制 部 分 。 然 后 生成 出 来 的 C 代码 被 编译 ， 并 与 其 他 代码 链接 ， 形 成 可 执行 模拟 器 。 
我 们 展示 这 个 示例 只 是 为 了 给 出 HCL 的 一 个 具体 的 例子 。 该 电路 是 基于 4.2.4 节 中 摘 述 的 MUX4 电 


路 的 ， 其 结构 如 下 : 
s1 
Control s0 tt Le eet : 


MUX4 Out4 


code 


200g 


## Simple example of an HCL file. 
## This file can be converted to C using hcl2c, and then compiled. 


## In this example, we will generate the MUX4 circuit shown in 
## Section 4.2.4. It consists of a control block that generates 
## bit~-level signals s1 and s0 from the input signal code, 

## and then uses these signals to control a 4-way multiplexor 
## with data inputs A, B, C, and D. 


mons Un He Ww NF 


D 


10 ## This code is embedded in a C program that reads 
11 ## the values of code, A, B, C, and D from the command line 
12 ## and then prints the circuit output 


14 ## Information that is inserted verbatim into the C file 
15 quote ‘#include <stdio.h>’ 

16 quote ‘#include <stdlib.h>’ 

17 quote ‘int code_val, s0 val, sl_val:’ 

18 quote ‘char **data_names;’ 
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20 ## Declarations of signals used in the HCL description and 
21 ## the corresponding C expressions. 

22 boolsig s0 's0_val' 

23 boolsig sl ‘sl val' 

24 intsig code 'code_val' 

25 intsig A ‘'atoi(data_names[0])' 

26 intsig B ‘atoi(data_names[1])' 

27 intsig C ‘'atoi(data_names[2}) ' 

28 intsig D 

29 

30 ## HCL descriptions of the logic blocks 
31 bool sl = code in { 2, 3 }; 


‘'atoi(data_names[3])' 


32 

33 bool s0 = code in { 1, 3 }; 

34 

35 int Out4 = | 

36 ‘sl && !s0 : A; # 00 

37 1's] : B; # 01 

38 sl && ISO : C; # 10 

39 1 : D; # 11 

40 |; 

41 

42 ## More information inserted verbatim into the C code to 
43 ## compute the values and print the output 
44 quote ‘int main(int argc, char *argv[]) {' 
45 quote 'data_names = argv+2;' 

46 quote 'code_val = atoi(argv[1]);' 


4’) quote 'sil_val = gen_si1({);' 

48 quote 'sOQ_val = gen_s0();' 

49 quote ‘printf ("Out = $d\n", gen_Out4());' 
50 quote ‘return 0;' 

51 quote '}' 


这 个 文件 定义 了 布尔 信号 sO 和 sl, 以 及 整数 信号 code, 作 为 对 全 局 变量 s0_val、sl_val 和 code_val 
引用 的 别名 。 它 还 声明 了 整数 信号 A、B、C 和 DD， 这 里 ， 相 应 的 C 表达 式 对 于 作为 命令 行 参数 传 
如 进来 的 字符 昨 应 用 标准 库 了 水 数 atoi。 

BFA sl 的 块 的 定义 生成 下 列 C 代码 ， 

int gen_si() 

{ 

return ((code_val) == 21] (code_val) == 3); 


} 


从 这 里 可 以 看 出 , 集合 成 员 关 系 测试 是 以 一 系列 的 比较 来 实现 的 , 每 次 对 信号 code 的 引用 都 被 
替换 成 了 C RAA code_val。 
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注意 , 这 个 HCL 文件 第 23 行 上 声明 的 信号 sl 与 第 31 行 上 声明 的 名 为 s1 的 抉 之 间 没 有 直接 的 
关系 。 一 个 是 C 表达 式 的 别名 ， 而 另 一 个 产生 名 为 gen_sl 的 函数 。 
最 后 被 引号 引起 来 的 文本 产生 下 列 主 函数 : 


int main(int argc, char *argv[]) { 


} 


data_names = argv42; 

code_val = atoi(argv[1]}); 

sl_val = gen_s1(); 

SU_val = gen_s0{); 

prantf("Out = d\n", gen_Out4()); 
return 0; 


主 函 数 调 用 函数 gen_s1. gen_sO 和 gen_Out4， 这 些 函 数 都 是 根据 块 定义 生成 的 。 我 们 还 可 以 看 
出 C 代码 必须 如 何 定义 块 求 值 和 设置 值 的 顺序 , 这 些 被 设置 的 值 被 用 在 表示 不 同 信 号 值 的 C 表达 式 


中 。 
A.2 SEQ 
code/arch/seq/seq-std.hcl 

1 FHHERAREHHHE EES EHHEREHERREERHEEE HEE HEHEHE HHHHHHHHEH HEHEHE HHH HHS HHH 
2 # HCL Description of Control for Single Cycle Y86 Processor SEQ # 
3 # Copyright (C) Randal E. Bryant, David R. O'Hallaron, 2002 # 
4 FHEGREGHEPRREHEHHEEAEERREHHEPEAPEHHHH HHH HHHHHHHRHE PERE 
5 
6 HHH RHEE PRRSRERRAHEEREHERAEHHEHEH HEHEHE PEPPER RRR EHR ee 
7 # C Include's. Don't alter these # 
8 HHEPEHEPHERHHHEEEHERERS HERE EHR RHP RHEE R REPRE R EHH HRB Hb H 
9 
10 quote '#include <stdio.k>' 
11 quote '#include "isa.h"' 
12 quote '#include "sim.h"' 
13 quote ‘int sim_main(int argc, char *argv[]):' 
14 quote ‘int gen_pc() {return 0;}' 
15 quote ‘int main(int argc, char *argv[})' 
16 quote ' {plusmode=0;return sim_main(argc,argv);}' 
17 
18 HHHHHHHEH THREE HRHTTHHH PERE HHP HHPEH PPE RRP EERE eH 
19 # Declarations. Do not change/remove/delete any of these # 
20 uiia HEHE An a aa aa a aiaa AE a EE EAA E EAEE EEEE EA EES EEEE EEE ETE ETETE TETE TETE rara 
21 
22 H#### Symbolic representation of Y86 Instruction Codes ###H###HHHHHH HHH aEH 
23 intsig INOP 'IT NOP， 
24 intsig IHALT 'T HALT? 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
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47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 


intsig valC ‘'valc' 
intsig valP '‘'valp' 
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intsig IRRMOVL 'T_RRMOVL' 
intsig IIRMOVL 'T_IRMOVL' 
intsig IRMMOVL 'T RMMOVL' 
intsig ZIMRMOVL ‘T_ MRMOVL ' 
intsig IOPL 'T ALU' 
intsig IJXX ' I_JMP' 
intsig ICALL ‘I_CALL' 
intsig IRET 'I_RET' 


intsig IPUSHL 'I_PUSHL' 
intsig IPOPL ‘'I_POPL' 


###¢# Symbolic representation of Y86 Registers referenced explicitly ##### 


intsig RESP 'REG_ESP' # Stack Pointer 

intsig RNONE ‘REG NONE'' # Special value indicating "no register" 
HHHHH ALU Functions referenced explicitly +t # HH + 
intsig ALUADD 'A_ADD' # ALU should add its arguments 


##### Signals that can be referenced by control logic ######HEHHEEEHHE SE HF HH 


+#### Fetch stage inputs HHH HF 


intsig pe 'pc' # Program counter 
####% Fetch stage computations HHH HH 


Constant from instruction 


intsig lcode 'icode' # Instruction control code 
intsig ifun ‘ifun' # Instruction function 
intsig rA 'ra' # rA field from instruction 
intsig rB ‘rb! # rB field from instruction 
# 
# 


Address of following instruction 


##H#HH Decode Stage computations HH HH 
intsig valA ‘'vala' # Value from register A port 
intsig valB ‘'valb' # Value from register B port 


##### Execute stage computations ##### 


intsig valE ‘'vale' # Value computed by ALU 
boolsig Bch 'bcond' # Branch test 


#H#HH Memory stage computations HHH H # 


intsig valM '‘'valm' # Value read from memory 


HHH EHH HHH ESE EHRRAHERRHHRSHHRHRPRPPHEHHH SHR HEHEHE PER ok eo 
# Control Signal Definitions. # 


HHHHHHEHAAHPRAHEERHEHEHHE PREP ERP H PEER HH HE Se 
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Bt oR A 


HHTHHHHHHHHHEHHH Fetch Stage +H AE HEHEH HEHEH HEHE HE HHH HH HEH HH HEE HHH HS HHH aH TH H H H 


# Does fetched instruction require a regid byte? 
bool need_regids = 
i1code in { IRRMOVL, IOPL, IPUSHL, IPOPL, 
TIRMOVL, IRMMOVL, IMRMOVL }; 


# Does fetched instruction require a constant word? 
bool need _valc = 


icode in { IIRMOVL, IRMMOVL, IMRMOVL, IJXX, ICALL }; 


bool instr valid = icode in 


{ INOP, THALT, IRRMOVL, IIRMOVL, IRMMOVL, IMRMOVL, 
IOPL, IJXX, ICALL, IRET, IPUSHL, IPOPL }; 


HHHEHHHEEHEEHHHH Decode Stage HEHA HH EH HHH HH HHT FE HH HH HF tH HHHH HH 


## What register should be used as the A source? 

int srcA = | 
icode in { IRRMOVL, IRMMOVL, IOPL, IPUSHL } : rA; 
icode in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 

]; 


## What register should be used as the B Source? 

int srcB = [ 
icode in { IOPL, IRMMOVL, IMRMOVL } : rB; 
icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don't need register 

|; 


## What register should be used as the E destination? 
int dstE = [ 
icode in { IRRMOVL, IIRMOVL, IOPL} : rB: 
icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don't need register 
j; 


## What register should be used as the M destination? 
int dstM = [ 


icode in { IMRMOVL, IPOPL } : rA; 
1 : RNONE; # Don't need register 
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HHEHEEERER HEHEHE Execute Stage PRERE EHHH HE FF FH HH FTF HE HH HF HE HEH 


## Select input A to ALU 
int aluA = | 


icode in { IRRMOVL, IOPL } : valA; 
icode in { IIRMOVL, IRMMOVL, IMRMOVL } : valc; 
1code in { ICALL, IPUSHL } : -4: 


1code in { IRET, IPOPL } : 4; 
# Other instructions don't need ALU 


] ; 


## Select input B to ALU 
int aluB = | 
icode in { IRMMOVL, IMRMOVL, IOPL, ICALL, 
IPUSHL, IRET, IPOPL } : valB; 
icode in { IRRMOVL, IIRMOVL } : Q; 
# Other instructions don't need ALU 
l? 


## Set the ALU function 


int alufun = [ 
1code == IOPL : ifun: 
1 : ABLUADD; 


I; 


## Should the condition codes be updated? 


bool set_cc = icode in { IOPL }; 


HHHFHEREPTREAEEH Memory Stage ##FFHHRHEE REE REESE EH HEHE HHH HH HHH 


## Set read control signal 
bool mem_read = icode in { IMRMOVL, IPOPL, IRET }; 


## Set write control signal 
bool mem_write = icode in { IRMMOVL, IPUSHL, ICALL }; 


## Select memory address 

int mem_addr = | 
icode in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : valE; 
1code in { IPOPL, IRET } : vala: 


# Other instructions don't need address 
]; 


## Select memory input data 
int mem_data = Í 


Bt RA 


160 # Value from register 
161 icode in { IRMMOVL, IPUSHL } : valA; 
162 # Return PC 
163 icode == ICALL : valP;: 
164 # Default: Don‘t write anything 
165 J; 
166 
167 ###HHHEHHHHHHEHH Program Counter Update ####HHEFHFRHEGEE FE HEE HH FH HEE 
168 
169 ## What address should instruction be fetched at 
170 
171 int new_pc = [ 
172 # Call. Use instruction constant 
173 icode == ICALL : valc; 
174 # Taken branch. Use instruction constant 
175 icode == IJXX && Bch : valC; 
176 # Completion of RET instruction. Use value from stack 
177 icode == IRET : valM; 
178 # Default: Use incremented PC 
179 1 : valP; 
180 ]; 
code/arch/seq/seq-std. hel 
A.3 SEQ+ 
code/arch/seq/seq+-sid.hcl 
1 HHETHHEHRERHEE HE FERHEEEEHFEEEHHEEERREE PEEPS RHEE SHEER EAE HHH HH EE HEH 
2 # HCL Description of Control for Single Cycle Y86 Processor SEQ+ # 
3 # Copyright (C) Randal E. Bryant, David R. O'Hallaron, 2002 # 
4 HHEPTHHEF HEHEHE EHH EERE HEHE HER EH RE ERE HEHEHE RHE EEE ERR HR EH HH bo 
5 
6 THETHHFEEHHEEEEHEE SEER E EHH HERE HERHHES HERE HEHEHE HER HHHHEHHHR RHE EHH tH 
7 # C Include's. Don't alter these # 
8 HHPHEEEHEEHHREEHEE PERE EHEHPEHHHPRHEEEHREHHHHHEES HRA HEHEHE HREHEE HHH 
9 
10 quote ‘#include <stdio.h>’ 
11 quote ‘#include "isa.h"' 
12 quote '#include "“sim.h"! 
13 quote ‘int sim_main(int argc, char *argv[]);' 
14 quote ‘int gen_new_pc(){return 0;} ' 
15 quote ‘int main(int argc, char *argv[]}' 
16 quote ' {plusmode=1l;return sim_main(argc,argv);}' 
17 
18 


HHEPHHERRHERHREHHEE RHE HRERH RS HHR HAR HH RPE H HEHEHE HERR AREER eg 
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# 


tt at HE HEH SH at HE HE EEE EH EP AAR HE HH EO HH EE SE HE HE OHH HP HE HEH HP HE HE EE EH 


##### Symbolic representation of Y86 Instruction Codes ##### FHF HFEF F 


intsig INOP 'T NOP ' 
intsig IHALT 'T HALT! 
intsig IRRMOVL ‘'I_RRMOVL' 
intsig IIRMOVL ‘'I_IRMOVL' 
intsig IRMMOVL 'I_RMMOVL' 
intsig IMRMOVL ‘'I_MRMOVL' 
intsig IOPL 'T ALU! 
intsig IJXX 'T JMP' 
intsig ICALL 'T_ CALL ' 
intsig IRET ‘T RET 
intsig IPUSHL ‘T_PUSHL' 
intsig IPOPL 'T POPL’ 


##H### Symbolic representation of Y86 Registers referenced explicitly #### 


intsig 
intsig 


##### ALU Functions referenced explicitly 
intsig ALUADD 


RESP 
RNONE 


'"REG_ESP' 
' REG_ NONE 


‘A ADD! 


# Stack Pointer 
# Special value indicating "no register" 


+ # H # # 


# ALU should add its arguments 


##### Signals that can be referenced by control logic ######HH HER HEHE HH HHH 


##### PC stage inputs 


Ht # ## 


## All of these values are based on those from previous instruction 


intsig plcode 'prev_icode' # Instr. control code 

intsig pValC ‘prev_valc' # Constant from instruction 
intsig pValM 'prev_valm' # Value read from memory 
intslg pValP 'prev_valp' # Incremented program counter 
boolsig pBch 'prev_bcond' # Branch taken flag 

##### Fetch stage computations Ht # $ # 

intsig icode ‘icode’' # Instruction control code 
intsig ifun ‘ifun' # Instruction function 

intsig rA 'ra' # rA field from instruction 
intsig rB 'rb' # rB field from instruction 
intsig valt tvalc' # Constant from instruction 
intsig valP ‘valp' # Address of fo.ilowing instruction 
HEH Decode stage computations HHH HH 


intsig valA 'vala' 


# Value from register A port 
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附录 AA 
intsig valB 'valb' # Value from register B port 


##### Execute stage computations # + + # + 


intsig valE 'vale' # Value computed by ALU 
boolsig Bch ‘bcond' # Branch test 

##### Memory stage computations HHH HH 

intsig valM 'valm' # Value read from memory 


HHHPPELHHPHEE EERE ERHRERE RRR EEEE EEEE EEEE EEE EEE HHH E EEEE EERE EH HE HH HH HE 
# Control Signal Definitions. # 
EEEE EELE EEE HEHEHE HERES EERE EPR EEE RHEE EEEE E HE HH EH HHH HH HF Ht tt HHH 


HEEHHHHEHHEHEHE EHR Program Counter Computation HH HHH HH ERE HHR AHHH HHH 


# Compute fetch location for this instruction based on results from 
# previous instruction. 


int pc = [ 
# Call. Use instruction constant 
pIcode == ICALL : pValc; 
# Taken branch. Use instruction constant 
picode == IJXX && pBch : pValc; 
# Completion of RET instruction. Use value from stack 
pIcode == IRET : pValM; 
# Default: Use incremented PC 
1 : pValP; 
|; 
4H#HEHPHEEPHEPHEH Fetch Stage HHP HE FEE FF SH HF HF oe ETH SH H # 


# Does fetched instruction require a regid byte? 
bool need_regids = 


icode in { IRRMOVL, IOPL, IPUSHL, IPOPL, 
ITRMOVL, IRMMOVL, IMRMOVL }; 


# Does fetched instruction require a constant word? 
bool need valC = 


1code in { ITIRMOVL, IRMMOVL, IMRMOVL, IJXX, ICALL }; 


bool instr_valid = icode in 
{ INOP, IHALT, IRRMOVL, IIRMOVL, IRMMOVL, IMRMOVL, 
IOPL, IJXX, ICALL, IRET, IPUSHL, IPOPL }: 
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HEHEHE HE EHH Decode Stage Fett tt tH HH F HHH FH FF FHT EHH HT THRE 


## What register should be used as the A source? 

int srcA = I 
1code in ( IRRMOVL, IRMMOVL, IOPL, IPUSHL } : rå; 
1code in { IPOPL, IRET } : RESP; 
1 : RNONE; # Don't need register 

|; 


## What register should be used as the B source? 

int srcB = [ 
1code in { IOPL, IRMMOVL, IMRMOVL } : rB; 
1code in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don't need register 

l: 


## What register should be used as the E destination? 
int dstE = [ 
1code in { IRRMOVL, IIRMOVL, IOPL}) : rB; 
lcode in { IPUSHL, IPOPL, ICALL, IRET } : RESP; 
1 : RNONE; # Don't need register 
}; 


## What register should be used as the M destination? 
int dstM = [ 


1code in { IMRMOVL, IPOPL } : rA; 
1 : RNONE; # Don't need register 
}; 


HEHEHE HERE R REE HH Execute Stage #HFHHHHHHEHEH HEH EHH HEH HH HHH HHH HHH HH 


## Select input A to ALU 


int aluA = [ 
icode in { IRRMOVL, IOPL } : valA; 
1code in { IIRMOVL, IRMMOVL, IMRMOVL } : valc: 
icode in { ICALL, IPUSHL } : -4; 
icode in { IRET, IPOPL } : 4; 


# Other instructions don't need ALU 
] ; 


## Select input B to ALU 
int aluB = [ 
icode in { IRMMOVL, IMRMOVL, TOPL, ICALL, 


IPUSHL, IRET, IPOPL } : valB; 
lcode in { IRRMOVL, IIRMOVL } : Q: 
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154 # Other instructions don't need ALU 
155 ] ， 


157 ## Set the ALU function 

158 int alufun = [ 

159 icode == IOPL : ifun; 
160 1 : ALUADD; 

161 l; 


163 ## Should the condition codes be updated? 
164 bool set_cc = icode in { IOPL }; 


166 HHEHHEREEERHEHHH Memory Stage ####HHHHHERHERHHEHEREHEHHEHHEHSH HGR HH 


168 ## Set read control signal 
169 bool mem read = icode in { IMRMOVL, IPOPL, IRET }: 


171 ## Set write cortrol signal 
172 bool mem_write = icode in { IRMMOVL, IPUSHL, ICALL }; 


174 ## Select memory address 


175 int mem_addr = [ 

176 icode in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : valE: 
177 icode in { IPOPL, IRET } : valā; 

178 # Other instructions don't need address 

179 }; 

180 


181 ## Select memory input data 
182 int mem data = | 


183 # Value from register 
184 1code in { IRMMOVL, IPUSHL } : valā: 
185 # Return PC 
186 icode == ICALL : valP;: 
187 # Default: Don't write anything 
188 J; 

code/arch/seq/seq+-std.hel 

A.4 PIPE 

code/arch/pipe/pipe-std.hcl 
1 HHHHHEPERRHRHRERHHHHHH RHEE HEE HHH HEHHE HERR EPR R ERR HRP ee BEE 
2 # HCL Description of Control for Pipelined Y86 Processor # 
3 # Copyright (C) Randal E. Bryant, David R. O'Hallaron, 2002 # 
4 HHHHATEHRHRP HERE HHHHEE RRR HEH HHHR PREP E RRR ee ge 
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HHHEHHHEEHHHFHEHHHHREHEHHEHHEHRHEEHH ERR EH HRHEHHHHHE HHS HHH HHH EERE HH 
# C Include’s. Don’t alter these # 


RHEHEHEHFHREHEHAHESR REE HEHEHE HE FEE HS HOE EE HE HOR OE ER Et FFE OE HE FE FE FF 


quote '#include <stdio.h>' 

quote ‘'#include "isa.h"' 

quote '#include "pipeline.h"' 

quote ‘#include “stages.h"' 

quote '#include "sim.h"' 

quote ‘int sim_main(int argc, char *argv[]};' 

quote ‘int main(int argc, char *argv[])}) {return sim_main(argce,argv);}' 


HEFEHHHFHHEHHEHHEHHHH PE HEHEHE HE RHEE HEHE EHH PH ERE RE HHH HERE HR HHH HE HE 
# Declarations. Do not change/remove/delete any of these # 
HEHHEEFHEHHHFRFHEHHEEHHHEEEHH ARERR E EHR REE HHRHHHEERHE EERE EH HE HEH HEE FH 


###HH Symbolic representation of Y86 Instruction Codes HEHEHE EH H 
intsig INOP ‘IT _NOP' 
intsig IHALT ‘J HALT! 
intsig IRRMOVL ' I RRMOVL ' 
intsig IIRMOVL 'T TRMOVL ' 
intsig IRMMOVL 'T RMMOVL' 
intsig IMRMOVL ‘TIT MRMOVL' 
intsig IOPL 'T ALU' 
intsig IJXX ‘J _JMP' 
intsig ICALL 'T_CALL' 
intsig IRET ‘J RET! 
intsig IPUSHL 'I_PUSHL ' 
intsig IPOPL 'I_POPL' 


##H#4 Symbolic representation of Y86 Registers referenced explicitly ##### 
intsig RESP 'REG_ESP' # Stack Pointer 
intsig RNONE 'REG_NONE' # Special value indicating "no register" 


#9#### ALU Functions referenced explicitly HHHEFEHHEHRHHEHRHS HEE HHH H 
intsig ALUADD "A ADD # ALU should add its arguments 


##ł+## Signals that can be referenced by control logic HEHEHE ER EH F 
##### Pipeline Register F HHHHHHEPHPHHHHHHHE HEHEHE HEHE PEE HERE EHR EH 
intsig F_predPc 'pc_curr->pc' # Predicted value of PC 


HHH# Intermediate Values in Fetch Stage ###FH#HHHHHHHHHHHHHAHHHHHHEHHHHH 
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intsig f_icode 
intsig f_ifun 
intsig f_valc 
intsig f valP 


AT RA 


'if_id_next->icode' # Fetched instruction code 


‘if id next->1fun' 
‘if_id _next->valc' 
'if_i1d_next->valp' 


# Fetched instruction function 
# Constant data of fetched instruction 
# Address of following instruction 


#H#H#H## Pipeline Register D ###HFFFHHFEREHEEE HE HHH HE HE HE TH EH HF FETE FFF 


intsig D_1code 
intslig D_rA 
intsig D_rB 
intsig D_valP 


‘if_id _curr->lcode' 


# 
'1f id curr->ra' # 
'if_id_curr->rb' # 

# 


'if_id_curr->valp' 


Instruction code 


rà field from instruction 
rB field from instruction 
Incremented PC 


HHRHH Intermediate Values in Decode Stage ####FHEEEE HHH F Ft FF FEF THF F 


intsig G_srcA 
intsig d_srcB 
intsig d_rvalaA 


intsig d_rvalB 'd_regvalb' 


‘id ex next->srcta' 
‘id ex _next->srcb' 
‘c_regva.ia' 


# srcA from decoded instruction 
# srcB from decoded instruction 
# valA read from register file 
# valB read from register file 


##### Pipeline Register E ######FFHHHEHHEHEHAFHEEEEEHHEFHHFEREHSRERH HEH 
Instruction code 
Instruction function 


icode 
E ifun 


intsig E_ 
intsig 


intsig 
intsig 
intsig 
intsig 
intsig 
intsig 
intsig 


E valc 
E srcA 
E valA 
E_ SrcB 
E_valB 
E_dstE 
E dstM 


'id_ex_curr->»icode' 
‘id_ex_curr->1fun' 
'1d_ex_curr->valc' 
'id_ex_curr->sreca' 


# 
# 
# 
# 
‘id_ex_curr->vala' # 
‘id_ex_curr->srcb' # 
'1d_ex_curr->valb' # 
‘id _ex_curr->deste' # 

# 


‘id_ex_curr->destm' 


data 
register ID 
value 


Constant 
Source A 
source A 
source B 
source B 


register ID 
value 
Destination E register ID 
Destination M register ID 


##HEH Intermediate Values in Execute Stage#eH HEHEHE FHEEH HEE HEHE HH 
intsig e valE 'ex_mem_next->vale' 
boolsig e_Bch 'ex_mem_next->takebranch' 


###H#H Pipeline Register M 


intslig M_icode 


intsig M 1ifun 


intsig 


M valA 


intsig M_dstE 
intsig M_valE 


intsig M_dstM 


boolsig M Bch 


‘ex mem _curr->1code' 
'ex mem _curr->1fun' 
'ex_mem_curr->vala' 
'ex_mem_curr->deste' 
‘ex mem_curr->vale' 
'ex_mem_curr->destm' 
‘ex mem _curr->takebranch | 


# valE generated by ALU 
# Am I about to branch? 


#H # # # 
Instruction code 
Instruction function 
Source A value 

ALU E value 

Destination M register ID 


# 
# 
# 
# Destination E register ID 
# 
# 
# Branch Taken flag 


fife Intermediate Values in Memory Stage ###H##FHHHHFHEHEHHEHHEHRH HEH 
intsig m_valM 'mem_wb_next->valm' # 


valM generated by memory 
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##### Pipeline Register W #HEHHHE EE SH FH FF THE SF tt HO OH OH tt HSE EE OE OH OH EF ot HF 
intsig W_icode 'mem_wb_curr->licode' # Instruction code 

intsig W_dstE 'mem_wb_curr->deste' # Destination E register ID 
intsig W_valE 'mem_wb_curr->vale' # ALU E value 

intsig W_dstM ‘mem_wb_curr->destm' # 

intsig W_valM 'mem_wb_curr->valm' # 


Destination M register ID 
Memory M value 


HEHE HH HEH HE HTH HOH EH HE HOF HE OE Oe HO FOO HOH dE OE OE OEE EEE OH OH OH OH OR EOF OH OH EO OE HH 
# Control signal Definitions. # 


HEH HH EH HH HOF FH OH tO tte ROE St OH HE a HE OE OE OH FS OE EE EOE EH OE OE OR aE HF OR ot HO OE OE 


HHEHHHHHEHHRRERE Fetch Stage ###eEHHH HT HH TH Ft HE HH FH HH HEH ES HH FH TH F 


## What address shculd instruction be fetched at 


int f pe = [ 
# Mispredicted branch. Fetch at incremented PC 
M_icode == IJXX && IM Bch : M_valA; 
# Completion of RET instruction. 
W_icode == IRET W_valM; 


# Default: Use predicted value of PC 
l : F_predPc; 
]; 


# Does fetched instruction require a regid byte? 
bool need_regids = 


f 1code in { IRRMOVL, IOPL, IPUSHL, IFOPL, 
TIRMOVL, IRMMOVL, IMRMOVL }; 


# Does fetched instruction require a constant word? 
bool need_valc = 


f_icode in { IIRMOVL, IRMMOVL, IMRMOVL, IJXX, ICALL }; 


bool instr valid = f_iccode in 
{ INOP, IHALT, IRRMOVL, IIRMOVL, IRMMOVL, IMRMOVL, 
IOPL, IJXX, ICALL, IRET, IPUSHL, IPOPL }; 


# Predict next value of PC 

int new_F_predPc = | 
f_icode in { IJXX, ICALL } 
1 : É valP; 


f valc; 


HEHE HERTREET ERE? Decode Stage ##4#H#H#HHHHHHHHHHHHHHEHHEHHHH HHH HEH HH 
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140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
16C 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 


Bt RA 


## What register should be used as the A source? 
int new_E_srcA = 


l; 


D_icode in { IRRMOVL, 


[ 


D_ icode in { IPOPL, 
1 : RNONE; # Don't need register 


IRET } 


IRMMOVL, IOPL, IPUSHL } : D_rA; 


RESP; 


## What register should be used as the B source? 
int néew_E_srcB = 
D_lcode in { IOPL, 
D icode in { IPUSHL, IPOPL, 


| ; 


1 : RNONE; 


[ 


IRMMOVL, 


IMRMOVL } : D_rB; 
ICALL, IRET } : RESP; 


# Don't need register 


## What register should be used as the E destination? 
int new_E_dstE = 


D_icode in { IRRMOVL, 


[ 


D_icode in { IPUSHL, IPOPL, 


1 : RNONE; 


TIRMOVL, IOPL} : D_rB; 


ICALL, IRET } : RESP; 


# Don't need register 


## What register should be used as the M destination? 
int new_E_dstM = 
D icode in { IMRMOVL, IPOPL } 


1 : RNONE; 


}; 


[ 


D rA; 


# Don't need register 


## What should be the A value? 

## Forward into decode stage for valA 
int néw_E_valA = 
D icode in { ICALL, 


|; 


d_srcA 
Q_STCA 
Q_STCA 
ad srcA 
d_srcA 


int new E valB 


[ 


[ 


E_dstE : 
M dstM 
M dstE 
W_dstM 
W_dstE 


G_srcB == E_dstE 
d_srcB == M dst™ 
d_srcB == M_dAStE 


IJXX } : 

e valE; # 

: M_valM; # 
M valE; # 
W_valM; # 
W_valE; # 


e valk; 


DvalP; # Use incremented PC 
Forward valE from execute 
Forward valM from memory 
Forward valE from memory 
Forward valM from write back 
Forward valE from write back 


.1 : d_rvalA; # Use value read from register file 


# Forward valE from execute 


: M_valM; # Forward valM from memory 


M_valE; # Forward valE from memory 


185 
186 
187 
188 
189 
190 

191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
2.3 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
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d_srcB == W_dstM : W_valM; # Forward valM from write back 
d_srcB == W_dstE : W valE; # Forward valE from write back 
1 : d_rvalB; # Use value read from register file 


] ; 
HHEHHHRHHHEHHHEHE Execute Stage FHEFHFFHHEHEFFEEHEHHHEHEEHEHHEEEHE HEHEHE HEH 


## Select input A to ALU 
int aluA = | 
B 1code in { IRRMOVL, IOPL } : E_valA; 
BE icode in { ITRMOVL, IRMMOVL, IMRMOVL } : E_valcC; 
EB icode in { ICALL, IPUSHL } : -4; 
EB icode in { IRET, IPOPL } : 4; 
# Other instructions don't need ALU 
}; 


## Select input B to ALU 
int aluB = | 
B icode in { IRMMOVL, IMRMOVL, IOPL, ICALL, 
IPUSHL, IRET, IPOPL } : E _valB; 
B_icode in { IRRMOVL, IIRMOVL } : Q; 
# Other instructions don't need ALU 


] ; 


## Set the ALU function 

int alufun = | 
E_icode == IOPL : E_ifun; 
1 + ALUADD; 

] :; 


## Should the condition codes be updated? 
bool set_cc = E_icode == IOPL; 


HHEHHHHHAHRHRREE Memory Stage ##FH#HHFHHHHHHEHHHRHHHHHEEHEHHHHEHH HEHEHE 


## Select memory address 
int mem_addr = | 
M_icode in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : M_valkE; 
M_icode in { IPOPL, IRET } : M_valA; 
# Other instructions don't need address 
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226 ] ; 

227 

228 ## Set read control signal 

229 bool mem_read = M_icode in { IMRMOVL, IPOPL, IRET }; 

230 

231 ## Set write control signal 

232 bool mem write = M_icode in { IRMMOVL, IPUSHL, ICALL }; 

233 

234 

235 HHHHHREHRERRRHHEHE Pipeline Register Control #####H#HFHHHHE HEHE HHH HEHEHE HHH 
236 

237 # Should I stall or inject a bubble into Pipeline Register F? 
238 # At most one of these can be true. 

239 bool F_bubble = Q; 

240 bool F_stall = 


241 # Conditions for a load/use hazard 

242 E icode in { IMRMOVL, IPOPL } && 

243 EB dstM in { d_srcA, d_srcB } || 

244 # Stalling at fetch while ret passes through pipeline 
245 IRET in { D_icode, E_icode, M_icode }; 

246 

247 # Should I] stall or inject a bubble into Pipeline Register D? 
248 # At most one of these can be true. 

249 bool D_stall = 

250 # Conditions for a load/use hazard 

251 EB _icode in { IMRMOVL, IPOPL } && 

252 E dstM in { d srcA, d_srcB }; 

253 

254 bool D_bubble = 

255 # Mispredicted branch 

256 (E_icode == IJXX && !e Bch) 上 | 

257 # Stalling at fetch while ret passes through pipeline 
258 IRET in { D_icode, E_icode, M_icode }; 

259 


260 # Should I stall or inject a bubble into Pipeline Register E? 
261 # At most one of these can be true. 

262 bool E_stall = Q; 

263 bool E_bubble = 

264 # Mispredictecd branch 

265 (E_icode == IJXX && l!e Bch) || 

266 # Conditions for a load/use hazard 


267 
268 
269 
27Q 
271 
272 
273 
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E_icode in { IMRMOVL, IPOPL } && 
E dstM in { d srcA, d_srcB}; 
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# Should I stall or inject a bubble into Pipeline Register M? 


# At most one of these can be true, 
bool M stall = Q; 
bool M_bubble = Q; 


code/arch/pipe/pipe-sid. hei 


Unix 系统 中 的 错误 处 理 
错误 处 理 包 装 函 数 
csapp.h 头 文件 
csopp.c 源 文件 
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程序 员 应 该 总 是 检查 系统 级 函数 返回 的 错误 代码 。 有 许多 细微 方式 导致 错误 的 出 现 ， 只 有 使 用 
内 核能 够 提供 给 我 们 的 状态 信息 才能 理解 为 什么 有 这 样 的 错误 。 不 幸 的 是 ， 程 序 员 往往 不 愿意 进行 
错误 检查 ， 因 为 这 使 他 们 的 代码 变 得 很 庞大 ， 将 一 行 代码 变 成 一 个 多 行 的 条 件 语句 。 错 误 检查 也 是 
很 令 人 迷惑 的 ， 因 为 不 同 的 函数 表示 不 同方 面 的 错误 ， 

在 编写 本 书 时 ， 我 们 面临 类 似 的 问题 。 一 方面 ， 我 们 希望 我 们 的 代码 示例 阅读 起 来 简洁 简单 。 
万 一 方面 ， 我 们 又 不 希望 给 学 生 们 一 个 错误 的 印象 ， 以 为 可 以 省 略 错误 检查 。 为 了 解决 这 些 问 题 ， 
我 们 及 用 了 一 种 基于 错误 处 理 包装 邓 数 (error-handling wrapper) 的 方法 ， 这 是 由 W. Richard Stevens 
在 他 的 网 络 编程 教材 [81] 中 最 先 提出 的 。 

HEME, SERPAANARAARAR foo， 我 们 定义 一 个 有 相同 参数 、 只 不 过 开头 字母 大 写 
TH ers RX Foo。 包 装 函数 调用 基本 消 数 ， 并 检查 错误 。 如 果 包 装 函 数 发 现 了 错误 ， 气 么 它 就 打 
印 一 条 信息 ， 并 终止 进程 。 否 则 ， 它 返回 到 调用 者 。 注 意 ， 如 果 没 有 错误 ， 包 装 函 数 的 行为 与 基本 
澳 数 完全 一 样 。 换 句 话 说 ， 如 果 程 序 使 用 包装 函数 运行 正确 ， 那 么 我 们 把 每 个 包装 函数 的 第 一 个 字 
母 小 与 并 重新 编译 ， 也 能 正确 运行 。 

03 wR RET Be TE — RE (csapp.c) 中 ， 这 个 文件 被 编译 和 链接 到 每 个 程序 中 ， 一 个 独立 
的 头 文件 《csapp.h) 中 包含 这 些 包 装 函 数 的 函数 原型 。 

本 附录 给 出 了 一 个 关于 Unix 系统 中 不 同 种 类 的 错误 处 理 的 指南 ,还 给 出 了 不 同 风格 的 错误 处 理 
ose Pa A Bl. A AEB AS, RAEE T csapp.h 和 csapp.c 文件 的 完整 源 代 码 。 


B.1 Unix 系统 中 的 错误 处 理 


本 书 中 我 们 遇 到 的 系统 级 函数 调用 使 用 三 种 不 同 风 格 的 返回 错误 :， Unix 风格 的 、Posix 风格 的 
和 DNS 风格 的 。 


Unix 风格 的 错误 处 理 

像 fork 和 wait 这 样 Unix 早期 开发 出 来 的 函数 (以 及 一 些 较 老 的 Posix 函数 ) 的 因数 返回 值 既 
包括 错误 代码 ， 也 包括 有 用 的 结果 。 例 如 ， 当 Unix 风格 的 wait 函数 遇 到 一 个 错误 (例如 没有 子 进 
竺 要 回收 )， 它 就 返回 一 1， 并 将 全 局 变量 emo 设置 为 指明 错误 原因 的 错误 代码 。 如 果 wait 成 功 完 
成 ， 那 么 它 就 返回 有 用 的 结果 ， 也 就 是 回收 的 子 进程 的 PID. Unix 风格 的 错误 处 理 代码 通常 具有 以 
下 形式 : 


1 if ((pid = wait (NULL)) < 0) { 

2 fprintf(stderr, "wait error: %s\n", strerror(errno)): 
3 exit (0); 

4 


} 
strerror 因数 返回 某 个 ermo 值 的 文本 描述 。 


Posix 风格 的 错误 处 理 

许多 较 新 的 Posix 图 数 ， 例 如 Pthread 项 数 ， 只 用 返回 值 来 表明 成 功 0) 或 者 失败 〈 非 0)。 任 
何 有 用 的 结果 都 返回 在 通过 引用 传递 进来 的 函数 参数 中 。 我 们 称 这 种 方法 为 Posix 风格 的 错误 处 理 。 
例如 ，Posix 风格 的 pthread_create 函数 用 它 的 返回 值 来 表明 成 功 或 者 失败 ， 而 通过 引用 将 新 创建 的 
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线程 的 ID (有 用 的 结果 ) 返回 放 在 它 的 第 一 个 参数 中 。Posix 风格 的 错误 处 理 代 码 通 常 具 有 以 下 形 
式 : 


1 if ((retcode = pthread_create(&tid, NULL, thread, NULL)) != 0) { 

2 fprintf(stderr, “pthread_create error: %s\n", strerror(retcode)); 
3 exit {0}; 

4 } 

DNS 风格 的 错误 处 理 


gethostbyname 和 gethostbyaddr 负数 检索 DNS (域名 系统 ) 主机 条 目 ， 它 们 有 另外 一 种 返回 错 
误 的 方法 。 这 些 国 数 在 失败 时 返回 NULL 指针 ， 并 设置 全 局 变量 h_ermo. DNS 风格 的 错误 处 理 通 
党 共有 以 下 形式 : 


1 if ((p = gethostbyname(name)) == NULL) { 

2 fprintf(stderr, "gethostbyname error: %s\n:i", hstrerror(h_errno)); 
3 exit (OQ); 

4 } 

RRR rs PAR 


i FA, BRA AEA P PU SRR E PR OR LA JS I) A Ee Ah A 
#include "“csapp.h" 


void unix_error(char *msqg); 
void posix_error(int code, char *msg); 
void dns_error(char *msqg}; 
void app_error(char *msg); 


_ 退回 : 
正如 它们 的 名 字 表 明 的 那样 ，unix_error、posix_error 和 dns_error 函数 报告 Unix 风格 的 错误 、 
Posix 风格 的 错误 和 DNS 风格 的 错误 ， 然 后 终止 。app_error 函数 是 为 了 方便 报告 应 用 错误 。 它 只 是 


简单 地 打印 它 的 输入 ， 然 后 终止 。 图 B.1 展示 了 这 些 错 误 报 告 函 数 的 代码 。 


code/src/csapp.c 
void unix_error(char *msg) /* unix-style error */ 

{ 

fprintf(stderr, "%s: s\n", msg, strerror(errno)); 

exit (0): 


void posix_error(int code, char *msg) /* posix-style error */ 
{ 


fprintf(stderr, "%s: %s\n", msg, strerror(code)): 
10 exit (0}; 
11} 
12 


13 void dns_error (char *msg) /* dns-style error */ 
14 { 
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15 fprintf(stderr, "%s: DNS error %d\n", msg, h_errno); 
16 exit (Q); 

17 } 

18 

19 void app_error(char *msg) /* application error */ 

20 { 

21 fprintf(stderr, "%s\n", msg); 

22 exit(0); 

23 } 


code/src/csapp.c 


code/src/csapp.c 
pid_t Wait (int *status) 
{ 

pid_t pid; 


if ((pid = wait(status)) < 0) 
unix_error("Wait error"); 
return pid; 


o ~ A WM & WwW KH he 


code/src/csapp.c 


FA B.2 Unix 风格 的 wait 函数 的 包装 函数 


B.2 ”错误 处 理 包 装 函 数 

下 面 是 一 些 不 同 错误 处 理 包 装 函 数 的 示例 : 

Unix 风格 的 错误 处 理 包 装 范 数 

图 B.2 展示 了 Unix 风格 的 wait 函数 的 包装 函数 。 如 果 wait 返回 一 个 错误 ， 包 装 函 数 打印 一 条 
消息 ， 然 后 退出 。 否 则 ， 它 向 调用 者 返回 一 个 PID。 

图 B.3 展示 了 Unix 风格 的 kill 函数 的 包装 函数 ,注意 , 这 个 函数 同 wait 不 同 ， 成 功 时 返回 void. 


code/src/csapp.c 


void Kill(pid_t pid, int signum) 
{ 


int re; 


if ((re = kill(pid, signum)) < 0) 
unlix_error("Kill error"); 


~ Mm Ul em W NF 


code/src/csapp.c 


图 B.3 Unix 风格 的 kK 让 函数 的 包装 函数 


错误 处 理 


Posix 风格 的 错误 处 理 包 准 困 数 
图 B.4 展示 了 Posix 风格 的 pthread_detach 函数 的 包装 函数 。 同 大 多 数 Posix 风格 的 函数 一 样 ， 


它 的 错误 返回 码 中 不 会 包含 有 用 的 结果 ， 所 以 成 功 时 ， 包 装 函 数 返 回 void. 


œ an Be w N e 


void Pthread_detach(pthread_t tid) 
int rc; 


it ( 


(rc = pthread _detach(tid) } 


posix_error(re, "Pthread_detach error"); 


B.4 Posix 风格 的 othread_detach 函数 的 包装 函数 


DNS 风格 的 铺 误 处 理 包 获 困 数 


图 B.5 展示 了 DNS 风格 的 gethostbyname 函数 的 包装 函数 。 


日 .3 


OJ ooun B® wn Pe 


O 


struct hostent *Gethostbyname (const char *name) 


{ 


struct hostent *p; 


1f 人 


(p = gethostbyname (name) ) 


{ 


t= 0) 


== NULL) 


dns_error("Gethostbyname error"); 
return p; 


图 B.5 DNS 风格 的 gethostbyname 函数 的 包装 函数 


csapp.h 头 文件 


#ifndef _CSAPP_ H 
#define _ _ CSAPP H 


#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


<stdio.h> 
<stdlib.h> 
<unistd.h> 
<string.h> 
<ctype.h> 
<setjymp.h> 
<Signal.h> 
<sys/time.h> 
<sys/types.h> 
<sys/wait.h> 
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code/src/csapp.c 


code/src/csapp.c 


code/src/csapp.c 


code/src/csapp.c 


code/include/csapp.h 
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14 #include <sys/stat.h> 

15 #include <fcentl.h> 

16 #include <sys/mman.h> 

17 #include <errno.h> 

18 #include <math.h> 

19 #include <pthread.h> 

20 #include <semaphore.h> 

21 #include <sys/socket.h> 

22 #include <netdb.h> 

23 #include <netinet/in.h> 

24 #include <arpa/inet.h> 

25 

26 

27  /* Default file permissions are DEF_MODE & DEF_UMASK #/ 
28 #define DEF_MODE S_IRUSRiS_IWUSR|S_IRGRP|S_IWGRP]|S_IROTH|S_IWOTH 
29 #define DEF_UMASK S_IWGRP|S_IWOTH 

30 

31 /* Simplifies calls to bind), connect(), and accept() */ 
32 typedef struct sockaddr SA; 

33 

34  /* Persistent state for the robust I/O (Rio) package */ 
35 #define RIO_BUFSIZE 8192 

36 typedef struct { 


37 “nt rio_fd; /* descriptor for this internal buf */ 
38 int rio_cnt; /* unread bytes in internal buf */ 
39 char *rio_bufptr; /* next unread byte in internal buf */ 
AQ char rio_buf [RIO _BUFSIZE];  /* internal buffer */ 

4] } riot; 

42 

43  /* External variables */ 

44 extern int h_errno; /* defined by BIND for DNS errors */ 

45 extern char **environ;  /* defined by libc */ 

46 

47  /* Misc constants */ 

48 #define MAXLINE 8192 /* max text line length */ 

49 #define MAXBUF 8192 /* max I/O buffer size */ 

50 #define LISTENQ 1024 /* second argument to listen */ 

51 


52 /* Our own error-handling functions */ 

53 void unix_error(char *msqg); 

54 void posix_error(int code, char *msg); 
55 void dns_error(char *msg); 

56 void app error(char *msg); 

57 

58  /* Process control wrappers */ 


59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
Vi 
78 
79 
80 
81 
82 
83 
84 
85 
86 


m 


H 
83 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
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pid t Fork(void); 

void Execve (const char *filename, char *const argv|], char *const envp{l])}).,; 
pid_t Wait(int *status); 

pid_t Waitpid(pid_t pid, int *iptr, int options); 

void Kill(pid_t pid, int signum); 

unsigned int Sleep(unsigned int secs); 

void Pause(void); 

unsigned int Alarm(unsigned int seconds); 

void Setpgid(pid_t pid, pidt pgid); 

pid_t Getpgrpi); 


/* Signal wrappers */ 

typedef void handler_t(int); 

handler_t *Signal(int signum, handler_t *handler) ; 

void Sigprocmask(int how, const sigset_t *set, sigset_t *oldset); 
void Sigemptyset (sigset_t *set); 

void Sigfillset(sigset_t *set); 

void Sigaddset (sigset_t *set, int signum); 

void Sigdelset(sigset_t *set, int signum); 

int Sigismember (const sigset_t *set, int Signum); 


/* Unix I/O wrappers */ 

int Open(const char *pathname, int flags, mode_t mode); 

ssize_t Read(int fd, void *buf, size_t count): 

ssize_t Write(int fd, const void *buf, size_t count); 

off_t Lseek(int fildes, off_t offset, int whence); 

void Closelint fd); 

int Select(int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, 
Struct timeval *timeout); 

int Dup? (int fdl, int £d€2); 

void Stat (const char *filename, struct stat *buf)-: 

void Fstat(int fd, struct stat *buf) ; 

/* Memory mapping wrappers */ 

void *Mmap (void *addr, size_t len, int prot, int flags, int fd, off_t offset); 

void Munmap(void *start, size_t length); 


/* Standard I/O wrappers */ 

void Fclose(FILE *fp); 

FILE *Fdopen(int fd, const char *type); 

char *Fgets(char *ptr, int n, FILE *stream); 

FILE *Fopen (const char *filename, const char *mode) ; 

void Fputs (const char *ptr, FILE *stream); 

size_t Fread(void *ptr, size_t size, size t nmemb, FILE *stream) ， 
void Fwrite(const void *ptr, size t Size, size_t nmemb, FILE *stream); 
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105 /* Dynamic storage allocation wrappers */ 

106 void *Malloc(size_t size); 

107 void *Realloc{void *ptr, size_t size); 

108 void *Calloc(size_t nmemb, size_t size); 

109 void Free(void *ptr); 

110 

111 /* Sockets interface wrappers */ 

112 int Socket (int domain, int type, int protocol); 

113 void Setsockopt (int s, int level, int optname, const void *optval, int optlen) ; 
114 void Bind(int sockfd, struct sockaddr *my_addr, int addrlen) ; 
115 void Listen(int s, int backlog); 

116 int Accept (int s, struct sockaddr *addr, int *addrilen); 


117 void Connect (int sockfd, struct sockaddr *serv_addr, int addrlen); 
118 


119 /* DNS wrappers */ 

120 struct hostent *Gethostbyname(const char *name) ; 

121 struct hostent *Gethostbyaddr(const char *addr, int len, int type); 
122 

123 /* Pthreads thread control wrappers */ 

124 void Pthread_create(pthread_t *tidp, pthread attr 七 *attrp, 
125 void * (*routine) (void *), void *argp); 
126 void Pthread_join(pthread_t tid, void **thread_return) ; 

127 void Pthread_cancel (pthread t tid); 

128 void Pthread_detach(pthread_t tid); 

129 void Ptnread_exit(void *retval); 

130 pthread_t Pthread_self (void); 


131 void Pthread_once(pthread_once_t *once control, void (*init function) ()}; 
132 


133 /* POSIX semaphore wrappers */ 

134 void Sem_init(sem_t *sem, int pshared, unsigned int value); 
135 void P(sem_t *sem); 

136 void V{sem_t *sem); 

137 

138 / Rio (Robust I/O) package */ 

139 ssize_t rio_readn(int fd, void *usrbuf, size_t n); 

140 ssize_t rio_writen(int fd, void *usrbuf, size_t n); 

141 void rid_readinitb(rio_t *rp, int fd); 

142 ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n); 


143 ssize_t rio_readlineb{rio_t *rp, void *usrbuf, size_t maxlen); 
144 


145 /* Wrappers for Rio package */ 

146 ssize_t Rio_readn(int fd, void *usrbuf, size_t n): 
147 void Rio_writen(int fd, void *usrbuf, size_t n); 
148 voice Rio_readinitb(rio_t *rp, int fd); 
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ssize_t Rio_readnb(rio_t *rp, void *usrbuf, size_t n); 
ssize_t Rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen); 


{* Chent/server helper functions */ 
int open_clientfd(char *hostname, int portno); 
int open_listenfd(int portno); 


/* Wrappers for client/server helper functions */ 
int Open_clientfd(char *hostname, int port); 
int Open_listenfdad(int port); 


#endif /* _ CSAPP_H  */ 
code/include/csapp.h 


csapp.c 源 文件 


code/src/csapp.c 
#include “csapp.h" 


PE kak he e ak ak ak i ak sk Sie ake ake ak ake sie ae k deske ak ee 


* Error-handling functions 
FCO EEEE TTE TES ETEEEEEEEES 
void unix_error(char *msg) /* unix-style error */ 
{ 
fprintf(stderr, "%s: %s\n", msg, strerror(errno)); 
exit (0); 


void posix_error(int code, char *msg) /* posix-style error */ 
{ 
fprintf(stderr, "ts: %s\n", msg, strerror(code)); 
exit (0); 


void dns_error(char *msg) /* dns-style error */ 

{ 
fprintf(stderr, "ts: DNS error %d\n", msg, h_errno): 
exit(0); 


void app_error(char *msg) /* application error */ 
{ 

fprintf(stderr, "%s\n", msg); 

exit(0); 
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28 } 

29 

30 [PF Ee ie oe Ae he he 2 fe he fe ie ee he k ok fe ae fe fe fe ee k ee sk fe ae fe ske a ake a fe keak ie fe 
31 * Wrappers for Unix process control functions 

32 ak ake a HE hee oe ee fe She eae 4€ Se ake ake fe ake ee ae ake ake 2 ake ake ake AE fe cafe kee a ie AE ahe eo fe ok 7 
33 

34 pid_t Fork (void) 

35 { 

36 pid_t pid; 

37 

38 if ((pid = fork()) < 0) 

39 unix error("Fork error"); 

40 return pid; 

41 } 

42 


43 void Execve (const char *filename, char *const argv[], char *const envp[]) 
44 { 


45 if (execve(filename, argv, envp) < 0) 
46 unix error ("Execve error"); 

47 } 

48 

49 pidt Wait (int *status) 

50 { 

51 pid_t pid; 

52 

53 if ((pid = wait(status)) < 0) 

54 unix_error("Wait error"); 

55 return pid; 

56 } 

57 

58 pid_t Waitpid(pid_t pid, int *iptr, int options) 
59 { 

60 pid_t retpid; 

61 

62 if ({retpid = waitpid(pid, iptr, options)) < 0) 
63 unix_error("Waitpid error"); 

64 return(retpid) ， 

65 } 

66 

67 void Kill(pid_t pid, int signum) 

68 { 

69 int re; 

70 

71 if ((rc = kill(pid, signum}) < 0) 


72 unix_error ("Kill error"); 
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void Pause() 

{ 
(void)pause(}); 
return? 


unsigned int Sieep (unsigned int secs) 
{ 


unsigned int rc; 


if ((rce = sleep(secs)} < 0) 
unix_error ("Sleep error"); 
return rc; 


unsigned int Alarm(unsigned int seconds) { 
return alarm(seconds) ; 


void Setpgid(pid_t pid, pidt pgid) { 
int rc; 


if ((rc = setpgid(pid, pgid)) < 0} 
unix_error("Setpgid error"); 
return; 


pid_t Getpgrp (void) { 
return getpgrp(); 
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* Wrappers for Unix signal functions 
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handler_t *Signal(int signum, handler_t *handler) 
{ 


Struct sigaction action, old_action;: 


action.sa_handier = handler: 
Sigemptyset (&action.sa_mask); /* block sigs of type being handled */ 
action.sa_flags = SA_RESTART; /* restart syscalls if possible */ 
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118 if (sigaction(signum, &action, &old action) < 0) 
119 unix_error ("Signal error"); 

120 return (old_action.sa_handler)}; 

121 } 

122 


123 void Sigprocmask (int how, const sigset_t *set, sigset_t *oldset) 
124 { 


125 if (sigprocmask(how, set, oldset) < 0) 
126 unix_error("Sigprocmask error"); 
127 return; 

128 } 

129 

130 void Sigemptyset (Sigset_t *set) 

131 { 

132 if (sigemptyset (set) < 0) 

133 unlx_error("Sigemptyset error"); 
134 return; 

135 3} 

136 

137 void Sigfillset(sigset_t *set) 

138 { 

139 if (sigfillset(set) < 0} 

140 unix,_error("Sigfillset error"); 
141 return; 

142 } 

143 

144 void Sigaddset(sigset_t *set, int signum) 
145 { 

146 if (sigaddset(set, signum) < 0) 

147 unix_error("Sigaddset error"); 
148 return; 

149 3} 

150 

151 void Sigdelset(sigset_t *set, int signum) 
152 { 

153 if (sigdelset(set, signum) < 0) 

154 unix_error("Sigdelset error"); 
155 return; 

156 } 

157 


158 int Sigismember (const sigset_t *set, int signum) 
159 { 


160 int rc; 
161 if ((rc = sigismember(set, signum)) < 0) 
162 unix_error("Sigismember error"); 
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return rc; 


POOR k IOI e k sk sF k k k 


* Wrappers for Unix I/O routines 
Be ake Ske 295 Ske ake fe Ske ake ake AE ake Ske Sie aF Ske oe ake aF ake ake ke oc ake ake se ake Sk ak kK oe 7 


int Open (const char *pathname, int flags, mode_t mode) 
{ 


int rc: 


if ((rc = open (pathname, flags, mode)) < 0) 
unix _error ("Open error"); 
return rc; 


ssize_t Read(int fd, void *buf, size_t count) 
{ 


ssize_t rc; 


if ((re = read(fd, buf, count)) < 0) 
unix_error("Read error"); 
return rc; 


ssize_t Write{int fd, const void *buf, size_t count) 
{ 


ssize_t re; 


if ((rce = write(fd, buf, count)) < 0) 
unix_error("Write error"); 
return rc; 


off_t Lseek(int fildes, off_t offset, int whence) 
{ 


off_t rc; 


if ((re = lseek(fildes, offset, whence)) < 0) 
unlx_error("“Lseek error"); 
return rc; 


void Close(int fd) 
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208 { 

209 int rc; 

210 

211 if (trc = close(fd)) < QO) 

212 unix_error ("Close error"); 

212 } 

214 

215 int Select(int n, fd_set *readfds, fd_set *writefds, 
216 fd_ set *exceptfds, struct timeval *timeout) 
217 { 

218 int rc; 

219 

220 1f ((rc = select(n, readfds, writefds, exceptfds, timeout)) < 0) 
221 unix_error("Select error"); 

222 return rc; 

223 3} 

224 

225 aint Dup2(int fdl, int fd2) 

226 { 

227 “nt re; 

228 

229 1f ((rc = dup2(fdl, fd2)) < 0) 

230 unix_error("Dup2 error"): 

231 return rc; 

232 ) 

233 

234 void Stat(const char *filename, struct stat *buf) 
235 { 

236 if (stat(filename, buf) < 0) 

237 unlx_error("Stat error"); 

238 } 

239 

240 void Fstat (int fd, struct stat *buf) 

241 { 

242 1f (fstat(fd, buf) < 0) 

243 unix_error("Fstat error"); 

244 } 

245 
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247 * Wrappers for memory mapping functions 
248 7 Se 86 I A I eI I HE ake ske ak HE ok / 


249 void *Mmap (void *addr, size_t len, int prot, int flags, int fd, off t offset) 
250 { 

251 void *ptr; 

252 
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1f ( (ptr = mmap(addr, len, prot, flags, fd, offset)) == ((void *) -1)) 
unix_error ("mmap error"); 
return (ptr); 


void Munmap (void *start, size_t length) 
{ 
1f (munmap (start, length) < Q0) 
unix_error ("munmap error"); 
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* Wrappers for dynamic storage allocation functions 
FOCI EEE EET E EEE EE E EEE EE E EE E E E E E EE E EE E EE EE E E E ACA 


void *Malloc(size_t size) 


{ 


void *p; 

1f ((p = malloc(size)) == NULL) 
unix_error("Malloc error"); 

return p; 


void *Realloc(void *ptr, size_t size) 


{ 
void *p; 
if ((p = realloc(ptr, size)) == NULL) 
unix _error({("Realloc error"); 
return p; 
} 


void *Calloc (size_t nmemb, size_t size) 
{ 


void *p; 


1f ((p = calloc(nmemb, size)) == NULL) 
unix_error("Calloc error"); 
return p; 


void Free(void *ptr) 
{ 
Free (ptr); 
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298 } 
299 
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301 * Wrappers for the Standard VO functions. 


302 ak ake ake ake ake ke fe ake AE ake ake Ske ake ake Ske ake ake fe fe ae HE Ske fe fe a ake AE fe oe oe ake Sk ac ake ke fe fe fe ae ae 


303 void Fclose(FILE *fp) 


304 { 

305 if (fclose(fp) != 0) 

306 unix_error("Fclose error"); 

307 } 

308 

309 FILE *Fdopen(int fd, const char *type) 
310 { 

311 FILE *fp; 

312 

313 if ((fp = fdopen(fd, type)) == NULL) 
314 unix _error("Fdopen error"); 

315 

316 return fp; 

317 } 

318 

319 char *Fgets(char *ptr, int n, PILE *stream) 
320 { 

321 char *rptr; 

322 

323 if (((rptr = fgets(ptr, n, stream)) == NULL) && ferror(stream) ) 
324 app_error("Fgets error"); 

325 

326 return rptr; 

327 } 

328 


329 FILE *Fopen(const char *filename, const char *mode) 
330 { 


331 FILE *fp; 

332 

333 if ((fp = fopen(filename, mode)) == NULL) 
334 unix _error("Fopen error"); 

335 

336 return fp; 

337 } 

338 

339 void Fputs(const char *ptr, FILE *stream) 
340 { 

341 if (fputs(ptr, stream) == EOF) 


342 unix_error("Fputs error"); 
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343 } 

344 

345 size_t Fread({void *ptr, size_t size, size_t nmemb, FILE *stream) 
346 { 

347 size_t n; 

348 

349 if (((n = fread(ptr, size, nmemb, stream)) < nmemb) && ferror (stream) ) 
350 unix error ("Fread error"); 

351 return n; 

352 } 

353 


354 void Fwrite (const void *ptr, size_t size, size_t nmemb, FILE *sStream) 
355 { 


356 if (fwrite(ptr, size, nmemb, stream) < nmemb) 
357 unix_error("Fwrite error"): 

358 } 

359 

360 
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362 * Sockets interface wrappers 
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364 

365 int Socket(int domain, int type, int protocol) 

366 { 

367 int re; 

368 

369 if ((re = socket (domain, type, protocol)) < 0) 
370 unix_error("Socket error"); 

371 return rc; 

372 } 

373 


374 void Setsockopt (int s, int level, int optname, const void *optval, int optlen) 
375 f 


376 int re; 

377 

378 It {{rc = setsockopt(s, level, optname, optval, optlen)) < 0) 
379 unix_error("Setsockopt error"); 

380 ) 

381 


382 void Bind(int sockfd, struct sockaddr *my_addr, int addrlen) 
383 { 


384 int re; 
385 
386 if ((rce = bind(sockfd, my_addr, addrlen)) < 0) 


387 unix_error("Bind error"); 
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volQ Listen(int s, int backlog) 
( 


int re; 


if ({re = listen(s, backlog)) < Q) 
unix _error("Listen error"); 


int Accept(int s, struct sockaddr *addr, int *addrlen) 


{ 


int re; 


if ((re = accept(s, addr, addrlen)) < 0) 
unix_error("Accept error"); 
return rc; 


void Connect (int sockfd, struct sockaddr *serv_addr, 


{ 
int rc; 
1f ((rc = connect (sockfd, serv_addr, addrlen)) < 0) 
unix_error("Connect error"); 
} 
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* DNS interface wrappers 


He FAC Re AC Sk afe keak RC oe AE of oe fe os EK oe / 


Struct hostent *Gethostbyname(const char *name) 
{ 


struct hostent *p; 


if ((p = gethostbyname(name)) == NULL) 
dns_error("Gethostbyname error"); 
return p; 


Struct hostent *Gethostbyaddr(const char *addr, 
{ 


struct hostent *p; 


if ((p = gethostbyaddr(addr, len, type)) == 


int len, 


NULL) 


int addrlen) 


int type) 
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dns_error("Gethostbyaddr error"); 


return p; 
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* Wrappers for Pthreads thread control functions 
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void Pthread_create(pthread_t *tidp, pthread_attr_t *attrp, 


void * 


int rc; 


if ((re = pthread_create(tidp, 


(*routine) (void *), void *argp) 


attrp, 


routine, argp)) 


posix_error(re, “Pthread_create error"); 


void Pthread_cancel (pthread t tid) f 


int re; 


1f ((re = pthnread_cancel(tid)) t= 
posix_error(rec, “Pthread_cancel error"); 


void Pthread_join(pthread_t tid, 


int re; 


if (({re = pthread_join(tid, 


void **thread return) 


0) 


thread_return)) l= 0) 
posix_errorirc, "Pthread_join error"); 


void Pthread_detach(pthread_t tid) { 


nt re; 


if ((re = pthread_detach(tid)) != 
posix_errori(re, "“Pthread_detach error"); 


void Pthread_exit (void *retval) 


pthread_exit (retval); 


pthread_t Pthread_self (void) 
return pthread_self(); 


{ 


{ 


0) 


{ 


{ — 
i 


0) 
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void Pthread_once{(pthread_once_t *once_control, void (*init_function) ()) 
pthread_once(once_control, 
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* Wrappers for Posix semaphores 
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void Sem_ init (semt *sem, 


{ 


if (sem init (sem, 


void P(sem_t *sem) 


{ 


if (sem_wait (sem) 
unix_error("P error"); 


void V(sem_t *sem) 


{ 
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* The Rio package - robust I/O functions 
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/* 
* rio_readn - robustly read n bytes (unbuffered) 


ssize_t rio_readn(int fd, void *usrbuf, 


{ 


*/ 


if (sem_post (sem) 
unix_error("V error"); 


size_t 


nleft 


ssize_t nread; 
char *bufp = 


while 
if 


(nleft 


((nread = read(fd, bufp, nleft)) 


< 0) 


< 0) 


= n; 
usrbuf: 
> 0) { 


1f (errno 


else 


nread 


return -1: 


== EINTR) 
= QO; 


— << 


MRB 


init_function); 


pshared, value) 
unix_error("Sem_init error"); 


< 0) 


size_t n) 


< 0) 


/* ermo set by read() */ 


int pshared, unsigned int value) 


{ 


/* interrupted by sig handler return */ 
/* and call read() again */ 


{ 
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} 
else if (nread == 0) 

break; /* EOF */ 
nleft -= nread; 


bu=p += nread; 


return (n - nleft); 


* 


/* return >= 0 */ 


* rio_writen - robustly write n bytes (unbuffered) 


*/ 


ssize_t rio_writen(int fd, void *usrbuf, size t n) 


{ 


size_t nleft = n; 


ssize_t nwritten; 
char *bufp = usrbuf; 


while (nleft > 0) { 
if ((mwritten = write(fd, bufp, nleft)) <= 0) { 


} 


if (errno == EINTR) /* interrupted by sig handler retum */ 
nwritten = /* and call write() again */ 
else 
return - 1; /* erromo set by write() */ 
} 
nleft -= nwritten; 


bufp += nwritten; 


return n: 


/ * 
* rio_read - This is a wrapper for the Unix read() function that 

* transfers min(n, rio_cnt) bytes from an internal buffer to a user 
* buffer, where n is the number of bytes requested by the user and 
* rio_cnt is the number of unread bytes in the intemal buffer. On 
* entry, rio_read() refills the internal buffer via a call to 


Static ssize_t rio_read(rio_t *rp, char *usrbuf, size t n) 


{ 


* read() if the internal buffer is empty. 


* / 


int cnt; 


while 


(rp->rio_cnt <= 0) 


{ /* refill if buf is empty */ 
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568 rp->rio_cnt = read(rp->rio_fd, rp->rio_buf, 

569 sSizeof(rp->rio_buf)); 

570 if (rp->rio_cnt < 0) { 

571 if (errno != EINTR) /* interrupted by sig handler return */ 
572 return -1; 

573 } 

574 else if (rp->rio_cnt == 0) /* EOF */ 

575 return 0; 

576 else 

577 rp->rio_bufptr = rp->rio_buf; /* reset buffer ptr */ 
578 } 

579 


580 /* Copy min(n, rp->rio_cnt) bytes from internal buf to user buf */ 
581 cnt = n; 

582 if (rp->rio_cnt < n} 

583 cnt = rp->rio_ent; 

584 memcpy (usrbuf, rp->rio_bufptr, cnt); 

585 rp->rio_bufptr += cnt; 


586 rp->rio_¢cnt -= cnt; 
587 return cnt; 

588 } 

589 

590 /* 


591  *rto_readinitb - Associate a descriptor with a read buffer and reset buffer 
592 * / 

593 void rio_readinitb(rio_t *rp, int fd) 

594 { 

595 rp->rio_fd = fd; 

596 rp->rio_cnt = Q; 

597 rp->rio_bufptr = rp->rio_buf; 

598 } 

599 

600 /* 

601 *rio_readnb - Robustly read n bytes (buffered) 

602 * 7/ 

603 ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n) 
604 { 


605 size_t nleft = n; 

606 ssize_t nread; 

607 char *bufp = usrbuf; 

608 

609 while (nleft > 0) ({ 

610 if ((mread = rio_read(rp, bufp, nleft)) < 0) { 

611 if (errno == EINTR) /* interrupted by sig handler return */ 


612 nread = 0; /* call read() again */ 
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else 
return -1; /* errno set by read() */ 
} 
else if (nread == 0) 
break; /* EOF */ 
nleft -= nread; 
bufp += nread; 
} 
return (n - nleft);  /*return >= 0 */ 


* 


* rio_readlineb - robustly read a text line (buffered) 


*/ 


ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen) 


{ 


int 


n, rec; 


char c, *bufp = usrbuf; 


for (n = 1; n < maxlen; n++) { 
if ((re = rio_read(rp, &¢, 1)) == 1) { 
*buftp++ = C; 
If (e == ‘\n’) 
break; 
} else if (rc == 0) { 
if (nm == 1) 
return 0; /* EOF, no data read */ 
else 
break; /* EOF, some data was read */ 
} else 
return -l; /* error */ 
} 
*bufp = 0; 


return n; 
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* Wrappers for robust I/O routines 
FE AR A A koo oo o k k ok k kkk kkk kkk k / 


ssize_t Rio_readn(int fd, void *ptr, size_t nbytes) 


{ 


SSize_t n; 


if 


(Cn = rio_readn(fd, ptr, nbytes)) < 0) 
unix_error("Rio_readn error"); 
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658 return n; 

659 } 

660 

661 void Rio_writen(int fd, void *usrbuf, size_t n) 
662 { 

663 if (rio_writen(fd, usrbuf, n) != n) 

664 unix_error("Rio_writenb error"); 

665 } 

666 

667 void Rio_readinitb(rio_t *rp, int fd) 

668 { 

669 rio_readinitb(rp, fd); 

670 } 

671 

672 s81ize_t Rio_readnb(rio_t *rp, void *usrbuf, size t n) 
673 { 

674 ssize_t rc; 

675 

676 it ((re = rio_readnb(rp, usrbuf, n)) < 0) 
677 unix_error("Rio_readnb error"); 

678 return rc; 

679 } 

680 

681 ssize_t Rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen) 
682 { 

683 sSlze_t re; 

684 


685 if ((re = rio_readlineb(rp, usrbuf, maxlen)) < 0) 
686 unix_error("Rio_readlineb error"): 

687 return rc; 

688 } 

689 
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691 * Client/server helper functions 
692 EEk k kkk k / 


693 /* 

6094 *open_clientfd - open connection to server at <hostname, port> 
695 * and return a socket descriptor ready for reading and writing. 
696 * Returns -1 and sets ermo on Unix error. 


697 * Returns -2 and sets h_errno on DNS (gethostbyname) error. 
698 */ 

699 aint open_clientfda(char *hostname, int port) 
700 § 

701 int clientfd; 

702 struct hostent *hp; 
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struct sockaddr_in serveraddr; 


If ((clientfd = 


socket (AF_INET, SOCK_STREAM, 0)) < 0) 
return -1; /* check errno for cause of error */ 


/* Fill in the server’s IP address and port */ 
if ((hp = gethos 
return -2; /* check h ermo for cause of error */ 


bzero((char *) 


tbyname (hostname) | 


&serveraddr, sizeof ( 


serveraddr.sin_family = AP_INET; 
bcopy (ichar *)hp->h_addr, 


(char *)&serveraddr.sin addr.s_addar, 


serveraddr.sin_port = htons (port); 


/* Establish a connection with the server */ 


if 


(connect (clientfd, (SA *) &serveraddr, 


return -l; 


return clientfa: 


/ x 
* open_listenfd - open and return a listening socket on port 
Returns -1 and sets errno on Unix error. 


* 


* / 


int open_listenfd(int port) 


( 


int listenfdad, 


optval=1; 


struct sockaddr_in serveraddr;: 


/* Create a socket descriptor */ 
if ((listenfd = 


return -1; 


== NULL) 


serveraddr) ); 


socket (AF_INET, SOCK STREAM, 0)) < 0) 


/* Eliminates “Address already in use” error from bind. */ 


if 


return -1; 


/* Listenfd will be an endpoint for all requests to port 
on any IP address for this host */ 


bzero((char *) 


&serveradadar, 


serveraddr.sin_family = AF_INET; 
serveraddr.sin_addr.s_addr = htonl(INADDR_ANY); 
serveraddr.sin_port = htons((unsigned short)port); 


if 


(bind(listenfd, 


(SA *)&serveraddr, 


(setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 
(const void *)&optval 


; Sizeof(int)) < 0) 


sizeof (serveraddr) ); 


sizeof (serveraddr) ) 


hp->h_length); 


sizeof (serveraddr) } 


< Q) 


829 


< 0) 


830 


748 
749 
790 
751 
752 
753 
754 
755 
736 
757 
758 
759 
760 
761 
762 
763 
764 
765 
766 
767 
768 
769 
770 
771 
772 
773 
774 
775 
776 
777 
778 
779 


附录 B 


return -1; 


/* Make it a listening socket ready to accept connection requests */ 
if (listen(listenfd, LISTENQ) < 0) 

return -1; 
return listenfdad; 
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* Wrappers for the client/server helper routines 
Fe ke oe A O AK fe eR I eR RC k k k OR OR ER k kk f 


int Open_clientfd(char *hostname, int port) 


{ 
int rc; 
if ((re = open_clientfd(hostname, port)) < 0) { 
1£ (re == -1) 
unix_error ("“Open_clientfd Unix error"); 
else 
dns_error(“Open_clientfd DNS error"); 
} 
return rc; 
} 


int Open_listenfd{int port) 


{ 
int rc; 
if ((re = open_listenfd(port)) < 0) 
unix_error("QOpen_listenfd error"); 
return re; 
} 


code/src/csapp.c 
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Preface 


This book is for programmers who want to improve their skills by learning about what is going on “under 
the hood” of a computer system. Our aim is to explain the important and enduring concepts underlying all 
computer systems, and to show you the concrete ways that these ideas affect the correctness, performance, 
and utility of your application programs. By studying this book, you will gain some insights that have 
immediate value to you as a programmer, and others that will prepare you for advanced courses in compilers, 
computer architecture, operating systems, and networking. 


The book owes its origins to an introductory course that we developed at Carnegie Mellon in the Fall of 
1998, called 75-213: Introduction to Computer Systems. The course has been taught every semester since 
then, each time to about 150 students, mostly sophomores in computer science and computer engineering. 
It has become a prerequisite for all upper-level systems courses. The approach is concrete and hands-on. 
Because of this, we are able to couple the lectures with programming labs and assignments that are fun and 
exciting. 


The response from our students and faculty colleagues was so overwhelming that we decided that others 
might benefit from our approach. Hence the book. This is the Beta draft of the manuscript. The final 
hard-cover version will be available from the publisher in Summer, 2002, for adoption in the Fall, 2002 
term. 


Assumptions About the Reader’s Background 


This course is based on Intel-compatible processors (called “IA32” by Intel and “x86” colloquially) running 
C programs on the Unix operating system. The text contains numerous programming examples that have 
been compiled and run under Unix. We assume that you have access to such a machine, and are able to log 
in and do simple things such as changing directories. Even if you don’t use Linux, much of the material 
applies to other systems as well. Intel-compatible processors running one of the Windows operating systems 
use the same instruction set, and support many of the same programming libraries. By getting a copy of the 
Cygwin tools (http: //cygwin.com/), you can set up a Unix-like shell under Windows and have an 
environment very close to that provided by Unix. 


We also assume that you have some familiarity with C or C++. If your only prior experience is with Java, 
the transition will require more effort on your part, but we will help you. Java and C share similar syntax 
and control statements. However, there are aspects of C, particularly pointers, explicit dynamic memory 
allocation, and formatted I/O, that do not exist in Java. The good news is that C is a small language, and it 
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is clearly and beautifully described in the classic “K&R” text by Brian Kernighan and Dennis Ritchie [37]. 
Regardless of your programming background, consider K&R an essential part of your personal library. 


New to C? 
To help readers whose background in C programming is weak (or nonexistent), we have included these special notes 
to highlight features that are especially important in C. We assume you are familiar with C++ or Java. End 


Several of the early chapters in our book explore the interactions between C programs and their machine- 
language counterparts. The machine language examples were all generated by the GNU GCC compiler 
running on an Intel [A32 processor. We do not assume any prior experience with hardware, machine lan- 
guage, or assembly-language programming. 


How to Read This Book 


Learning how computer systems work from a programmer’s perspective is great fun, mainly because it can 
be done so actively. Whenever you learn some new thing, you can try it out right away and see the result 
first hand. In fact, we believe that the only way to learn systems is to do systems, either working concrete 
problems, or writing and running programs on real systems. 


This theme pervades the entire book. When a new concept is introduced, it is followed in the text by one 
or more Practice Problems that you should work immediately to test your understanding. Solutions to 
the Practice Problems are at the back of the book. As you read, try to solve each problem on your own, 
and then check the solution to make sure you’re on the right track. Each chapter is followed by a set of 
Homework Problems of varying difficulty. Your instructor has the solutions to the Homework Problems in 
an Instructor’s Manual. Each Homework Problem is classified according to how much work it will be: 


Category 1: Simple, quick problem to try out some idea in the book. 
Category 2: Requires 5—15 minutes to complete, perhaps involving writing or running programs. 
Category 3: A sustained problem that might require hours to complete. 


Category 4: A laboratory assignment that might take one or two weeks to complete. 


Each code example in the text was formatted directly, without any manual intervention, from a C program 
compiled with GCC version 2.95.3, and tested on a Linux system with a 2.2.16 kernel. The programs are 
available from our Web page at www.cs.cmu.edu/~ics. 


The file names of the larger programs are documented in horizontal bars that surround the formatted code. 
For example, the program 


iii 
code/intro/hello.c 
#include <stdio.h> 
int main () 


{ 
printf("hello, world\n"); 


nO e WN H 


} 


code/intro/hello.c 


can be found in the file hello .c in directory code/intro/. We strongly encourage you to try running 
the example programs on your system as you encounter them. 


There are various places in the book where we show you how to run programs on Unix systems: 


unix> ./hello 
hello, world 
unix> 


In all of our examples, the output is displayed in a roman font, and the input that you type is displayed in 
an italicized font. In this particular example, the Unix shell program prints a command-line prompt and 
waits for you to type something. After you type the string “./hello” and hit the return or enter 
key, the shell loads and runs the hello program from the current directory. The program prints the string 
“hello, world\n” and terminates. Afterwards, the shell prints another prompt and waits for the next 
command. The vast majority of our examples do not depend on any particular version of Unix, and we 
indicate this independence with the generic “unix>” prompt. In the rare cases where we need to make a 
point about a particular version of Unix such as Linux or Solaris, we include its name in the command-line 
prompt. 


Finally, some sections (denoted by a “*”) contain material that you might find interesting, but that can be 
skipped without any loss of continuity. 
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Chapter 1 


Introduction 


A computer system is a collection of hardware and software components that work together to run computer 
programs. Specific implementations of systems change over time, but the underlying concepts do not. All 
systems have similar hardware and software components that perform similar functions. This book is written 
for programmers who want to improve at their craft by understanding how these components work and how 
they affect the correctness and performance of their programs. 


In their classic text on the C programming language [37], Kernighan and Ritchie introduce readers to C 
using the hello program shown in Figure 1.1. 


code/intro/hello.c 


#include <stdio.h> 


int main () 
{ 
printf("hello, world\n"); 


Nn OF WN KF 


} 


code/introshello.c 


Figure 1.1: The hello program. 


Although hello is a very simple program, every major part of the system must work in concert in order 
for it to run to completion. In a sense, the goal of this book is to help you understand what happens and 
why, when you run hello on your system. 


We will begin our study of systems by tracing the lifetime of the hello program, from the time it is 
created by a programmer, until it runs on a system, prints its simple message, and terminates. As we follow 
the lifetime of the program, we will briefly introduce the key concepts, terminology, and components that 
come into play. Later chapters will expand on these ideas. 
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1.1 Information is Bits in Context 


Our hello program begins life as a source program (or source file) that the programmer creates with an 
editor and saves in a text file called he Llo.c. The source program is a sequence of bits, each with a value 
of 0 or 1, organized in 8-bit chunks called bytes. Each byte represents some text character in the program. 


Most modern systems represent text characters using the ASCII standard that represents each character with 
a unique byte-sized integer value. For example, Figure 1.2 shows the ASCII representation of the hello.c 
program. 


# i n © 1 u d e <sp> < s t d i o ; 
35 105 110 99 108 117 100 101 32 60 115 116 100 105 111 46 


h > \n \n i n € <sp> m a i n ( ) \n { 
104 62 10 10 105 110 116 32 109 97 105 110 40 41 10 123 


\n <sp> <sp> <sp> <sp> p f i n È £ ( y h e I 
10 32 32 32 32 112 114 105 110 116 102 40 34 104 101 108 


T o , <sp> W o r 1 d \ n " ) ; \n } 
108 ad 44 32 119 111 114 108 100 92 110 34 41 59 10 125 


Figure 1.2: The ASCII text representation of hello.c. 


The hello.c program is stored in a file as a sequence of bytes. Each byte has an integer value that 
‘corresponds to some character. For example, the first byte has the integer value 35, which corresponds to 
the character ’#’. The second byte has the integer value 105, which corresponds to the character ’i’, and so 
on. Notice that each text line is terminated by the invisible newline character ’\n’, which is represented by 
the integer value 10. Files such as he 11o0.c that consist exclusively of ASCII characters are known as text 
files. All other files are known as binary files. 


The representation of he11o.c illustrates a fundamental idea: All information in a system — including 
disk files, programs stored in memory, user data stored in memory, and data transferred across a network 
— is represented as a bunch of bits. The only thing that distinguishes different data objects is the context 
in which we view them. For example, in different contexts, the same sequence of bytes might represent an 
integer, floating point number, character string, or machine instruction. This idea is explored in detail in 
Chapter 2. 


‘Aside: The C programming language. 

C was developed in 1969 to 1973 by Dennis Ritchie of Bell Laboratories. The American National Standards Institute 
(ANSI) ratified the ANSI C standard in 1989. The standard defines the C language and a set of library functions 
known as the C standard library. Kernighan and Ritchie describe ANSI C in their classic book, which is known 


‘affectionately as “K&R” [37]. 
In Ritchie’s words [60], C is “quirky, flawed, and an enormous success.” So why the success? 


e C was closely tied with the Unix operating system. C was developed from the beginning as the system 
programming language for Unix. Most of the Unix kernel, and all of its supporting tools and libraries, were 
written in C. As Unix became popular in universities in the late 1970s and early 1980s, many people were 
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‘exposed to C and found that they liked it. Since Unix was written almost entirely in C, it could be easily 
ported to new machines, which created an even wider audience for both C and Unix. 


e Cis a small, simple language. The design was controlled by a single person, rather than a committee, and 


the result was a clean, consistent design with little baggage. The K&R book describes the complete language 
and standard library, with numerous examples and exercises, in only 261 pages. The simplicity of C made it 
‘relatively easy to learn and to port to different computers. 


e C was designed for a practical purpose. C was designed to implement the Unix operating system. Later, 


other people found that they could write the programs they wanted, without the language getting in the way. 


C is the language of choice for system-level programming, and there is a huge installed based of application-level 
(programs as well. However, it is not perfect for all programmers and all situations. C pointers are a common source 
of confusion. and programming errors. C also lacks explicit support for useful abstractions such as classes and 
objects. Newer languages such as C++ and Java address these issues for application-level programs. End Aside. 


1.2 Programs are Translated by Other Programs into Different Forms 


The hello program begins life as a high-level C program because it can be read and understand by human 


‘beings in that form. However, in order to run he 110.c on the system, the individual C statements must be 


translated by other programs into a sequence of low-level machine-language instructions. These instructions 
are then packaged in a form called an executable object program, and stored as a binary disk file. Object 


programs are also referred to as executable object files. 
On a Unix system, the translation from source file to object file is performed by a compiler driver: 


unix> gcc -o hello hello.c 


Here, the GCC compiler driver reads the source file hello .c and translates it into an executable object file 
hello. The translation is performed in the sequence of four phases shown in Figure 1.3. The programs 
that perform the four phases ( preprocessor, compiler, assembler, and linker) are known collectively as the 
compilation system. 


printf.o 
hello.c i pre: i hello.i | compiler | hello.s |assembler| hello.o linker hello 
p eg (ccl) (as) (1a) 
source modified assembly relocatable executable 
program source program object object 
(text) program (text) programs program 
(text) (binary) (binary) 


Figure 1.3: The compilation system. 


e Preprocessing phase. The preprocessor (cpp) modifies the original C program according to directives 
that begin with the # character. For example, the #include <stdio.h> command in line 1 of 


hello.c tells the preprocessor to read the contents of the system header file st dio .h and insert it 
directly into the program text. The result is another C program, typically with the . i suffix. 
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e Compilation phase. The compiler (cc1) translates the text file he11o. i into the text file hello.s, 
which contains an assembly-language program. Each statement in an assembly-language program 
‘exactly describes one low-level machine-language instruction in a standard text form. Assembly 
language is useful because it provides a common output language for different compilers for different 
high-level languages. For example, C compilers and Fortran compilers both generate output files in 
the same assembly language. 


e Assembly phase. Next, the assembler (as) translates hello.s into machine-language instructions, 
packages them in a form known as a relocatable object program, and stores the result in the object 
file hello.o. The hello.o file is a binary file whose bytes encode machine language instructions 
rather than characters. If we were to view he 11o. o witha text editor, it would appear to be gibberish. 


e Linking phase. Notice that our hello program calls the printf function, which is part of the stan- 
dard C library provided by every C compiler. The printf function resides in a separate precom- 
piled object file called printf .o, which must somehow be merged with our hello.o program. 
The linker (1d) handles this merging. The result is the he 11o file, which is an executable object file 
(or simply executable) that is ready to be loaded into memory and executed by the system. 


Aside: The GNU project. 
GCC is one of many useful tools developed by the GNU (GNU’s Not Unix) project. The GNU project is AL 


‘exempt charity started by Richard Stallman in 1984, 
As of 2002, 


the GNU project has developed an environment with all the major components of a Unix operating system, except 
for the kernel, which was developed separately by the Linux project. The GNU environment includes the EMACS 
editor, GCC compiler, GDB debugger, assembler, linker, utilities for manipulating binaries, and many others. 


The GNU project is a remarkable achievement, and yet it is often overlooked. The modern open source movement 
(commonly associated with Linux) owes its intellectual origins to the GNU project’s notion of free software. Further, 


Linux owes much of its popularity to the GNU tools, which provide the environment for the Linux kernel. End 
Aside. 


1.3 ‘It Pays to Understand How Compilation Systems Work 


For simple programs such as hello.c, we can rely on the compilation system to produce correct and 
efficient machine code. However, there are some important reasons why programmers need to understand 
how compilation systems work: 


® Optimizing program performance. Modern compilers are sophisticated tools that usually produce 
good code. As programmers, we do not need to know the inner workings of the compiler in order 
to write efficient code. However, in order to make good coding decisions in our C programs, we 
do need a basic understanding of assembly language and how the compiler translates different C 
statements into assembly language. For example, is a switch statement always more efficient than 
a sequence of if-then-else statements? Just how expensive is a function call? Is a while loop 
more efficient than a do loop? Are pointer references more efficient than array indexes? Why does 
our loop run so much faster if we sum into a local variable instead of an argument that is passed by 
Why do two functionally equivalent loops have such different running times? 
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In Chapter 3, we will introduce the Intel [A32 machine language and describe how compilers translate 
different C constructs into that language. In Chapter 5 we will learn how to tune the performance of 
our C programs by making simple transformations to the C code that help the compiler do its job. And 
in Chapter 6 we will learn about the hierarchical nature of the memory system, how C compilers store 
data arrays in memory, and how our C programs can exploit this knowledge to run more efficiently. 


Understanding link-time errors. In our experience, some of the most perplexing programming errors 
are related to the operation of the linker, especially when are trying to build large software systems. 


For example, what does it mean when the linker reports that it cannot resolve a reference? What is 
the difference between a static variable and a global variable? What happens if we define two global 
variables in different C files with the same name? What is the difference between a static library and 
a dynamic library? Why does it matter what order we list libraries on the command line? And scariest 


of all, why do some linker-related errors not appear until run-time? We will learn the answers to these 
kinds of questions in Chapter 7 


e Avoiding security holes. For many years now, buffer overflow bugs have accounted for the majority of 


security holes in network and Internet servers. These bugs exist because too many programmers are 
‘ignorant of the stack discipline that compilers use to generate code for functions. We will describe 
the stack discipline and buffer overflow bugs in Chapter 3 as part of our study of assembly language. 


1.4 Processors Read and Interpret Instructions Stored in Memory 


At this point, our hello.c source program has been translated by the compilation system into an exe- 
cutable object file called he11o that is stored on disk. To run the executable on a Unix system, we type its 
name to an application program known as a shell: 


unix> ./hello 
hello, world 
unix> 


The shell is a command-line interpreter that prints a prompt, waits for you to type a command line, and 
then performs the command. If the first word of the command line does not correspond to a built-in shell 
command, then the shell assumes that it is the name of an executable file that it should load and run. So 
in this case, the shell loads and runs the hello program and then waits for it to terminate. The hello 
program prints its message to the screen and then terminates. The shell then prints a prompt and waits for 
the next input command line. 


1.4.1 Hardware Organization of a System 


At a high level, here is what happened in the system after you typed hello to the shell. Figure 1.4 shows 
the hardware organization of a typical system. This particular picture is modeled after the family of Intel 
Pentium systems, but all systems have a similar look and feel. 
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Figure 1.4: Hardware organization of a typical system. CPU: Central Processing Unit, ALU: Arith- 
metic/Logic Unit, PC: Program counter, USB: Universal Serial Bus. 


Buses 


Running throughout the system is a collection of electrical conduits called buses that carry bytes of infor- 
mation back and forth between the components. Buses are typically designed to transfer fixed-sized chunks 
of bytes known as words. The number of bytes in a word (the word size) is a fundamental system parameter 
that varies across systems. For example, Intel Pentium systems have a word size of 4 bytes, while server- 
class systems such as Intel Itaniums and Sun SPARCS have word sizes of 8 bytes. Smaller systems that 
are used as embedded controllers in automobiles and factories can have word sizes of 1 or 2 bytes. For 
simplicity, we will assume a word size of 4 bytes, and we will assume that buses transfer only one word at 
a time. 


T/O devices 


Input/output (I/O) devices are the system’s connection to the external world. Our example system has four 
TO devices: a keyboard and mouse for user input, a display for user output, and a disk drive (or simply disk) 
for long-term storage of data and programs. Initially, the executable he 110 program resides on the disk. 


Each I/O device is connected to the I/O bus by either a controller or an adapter. The distinction between the 
two is mainly one of packaging. Controllers are chip sets in the device itself or on the system’s main printed 
circuit board (often called the motherboard). An adapter is a card that plugs into a slot on the motherboard. 
Regardless, the purpose of each is to transfer information back and forth between the I/O bus and an I/O 
device. 


Chapter 6 has more to say about how I/O devices such as disks work. And in Chapter 12, you will learn how 
to use the Unix I/O interface to access devices from your application programs. We focus on the especially 
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interesting class of devices known as networks, but the techniques generalize to other kinds of devices as 
well. 


Main memory 


The main memory is a temporary storage device that holds both a program and the data it manipulates 
while the processor is executing the program. Physically, main memory consists of a collection of Dynamic 
Random Access Memory (DRAM) chips. Logically, memory is organized as a linear array of bytes, each 
with its own unique address (array index) starting at zero. In general, each of the machine instructions that 
constitute a program can consist of a variable number of bytes. The sizes of data items that correspond to 
C program variables vary according to type. For example, on an Intel machine running Linux, data of type 
short requires two bytes, types int, float, and long four bytes, and type double eight bytes. 


Chapter 6 has more to say about how memory technologies such as DRAM chips work, and how they are 
combined to form main memory. 


Processor 


The central processing unit (CPU), or simply processor, is the engine that interprets (or executes) instruc- 
tions stored in main memory. At its core is a word-sized storage device (or register) called the program 
counter (PC). At any point in time, the PC points at (contains the address of) some machine-language 
instruction in main memory. ! 


From the time that power is applied to the system, until the time that the power is shut off, the processor 
blindly and repeatedly performs the same basic task, over and over and over: It reads the instruction from 
memory pointed at by the program counter (PC), interprets the bits in the instruction, performs some simple 
operation dictated by the instruction, and then updates the PC to point to the next instruction, which may or 
may not be contiguous in memory to the instruction that was just executed. 


There are only a few of these simple operations, and they revolve around main memory, the register file, and 
the arithmeticNogic unit (ALU). The register file is a small storage device that consists of a collection of 
word-sized registers, each with its own unique name. The ALU computes new data and address values. Here 
are some examples of the simple operations that the CPU might carry out at the request of an instruction: 


e Load: Copy a byte or a word from main memory into a register, overwriting the previous contents of 
the register. 


e Store: Copy the a byte or a word from a register to a location in main memory, overwriting the 
previous contents of that location. 


e Update: Copy the contents of two registers to the ALU, which adds the two words together and stores 
the result in a register, overwriting the previous contents of that register. 
e I/O Read: Copy a byte or a word from an I/O device into a register. 


'PC is also a commonly-used acronym for “Personal Computer”. However, the distinction between the two is always clear from 
the context. 
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e 1/0 Write: Copy a byte or a word from a register to an I/O device. 


e Jump: Extract a word from the instruction itself and copy that word into the program counter (PC), 
overwriting the previous value of the PC. 


Chapter 4 has much more to say about how processors work. 


1.4.2 Running the hello Program 


Given this simple view of a system’s hardware organization and operation, we can begin to understand what 
happens when we run our example program. We must omit a lot of details here that will be filled in later, 
but for now we will be content with the big picture. 


Initially, the shell program is executing its instructions, waiting for us to type a command. As we type the 
characters hello at the keyboard, the shell program reads each one into a register, and then stores it in 
memory, as shown in Figure 1.5. 
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Figure 1.5: Reading the he 110 command from the keyboard. 


When we hit the enter key on the keyboard, the shell knows that we have finished typing the command. 
The shell then loads the executable he11o file by executing a sequence of instructions that copies the code 
and data in the hello object file from disk to main memory. The data include the string of characters 
“hello, world\n” that will eventually be printed out. 


Using a technique known as direct memory access (DMA) (discussed in Chapter 6), the data travels directly 
from disk to main memory, without passing through the processor. This step is shown in Figure 1.6. 


Once the code and data in the hello object file are loaded into memory, the processor begins executing 
the machine-language instructions in the hello program’s main routine. These instruction copy the bytes 
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Figure 1.6: Loading the executable from disk into main memory. 


inthe "hello, world\n” string from memory to the register file, and from there to the display device, 
where they are displayed on the screen. This step is shown in Figure 1.7. 


1.5 Caches Matter 


An important lesson from this simple example is that a system spends a lot time moving information from 
one place to another. The machine instructions in the hello program are originally stored on disk. When 
the program is loaded, they are copied to main memory. When the processor runs the programs, they are 
copied from main memory into the processor. Similarly, the data string *>hello, world\n”, originally 
on disk, is copied to main memory, and then copied from main memory to the display device. From a 
programmer’s perspective, much of this copying is overhead that slows down the “real work” of the program. 
Thus, a major goal for system designers is make these copy operations run as fast as possible. 


Because of physical laws, larger storage devices are slower than smaller storage devices. And faster devices 
are more expensive to build than their slower counterparts. For example, the disk drive on a typical system 
might be 100 times larger than the main memory, but it might take the processor 10,000,000 times longer to 
read a word from disk than from memory. 


Similarly, a typical register file stores only a few hundred of bytes of information, as opposed to millions 
of bytes in the main memory. However, the processor can read data from the register file almost 100 times 
faster than from memory. Even more troublesome, as semiconductor technology progresses over the years, 
this processor-memory gap continues to increase. It is easier and cheaper to make processors run faster than 
it is to make main memory run faster. 


To deal with the processor-memory gap, system designers include smaller faster storage devices called 
caches that serve as temporary staging areas for information that the processor is likely to need in the near 
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Figure 1.7: Writing the output string from memory to the display. 


future. Figure 1.8 shows the caches in a typical system. An L/ cache on the processor chip holds tens of 
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Figure 1.8: Caches. 


thousands of bytes and can be accessed nearly as fast as the register file. A larger L2 cache with hundreds 
of thousands to millions of bytes is connected to the processor by a special bus. It might take 5 times longer 
for the process to access the L2 cache than the L1 cache, but this is still 5 to 10 times faster than accessing 
the main memory. The L1 and L2 caches are implemented with a hardware technology known as Static 
Random Access Memory (SRAM). 


One of the most important lessons in this book is that application programmers who are aware of caches can 
exploit them to improve the performance of their programs by an order of magnitude. We will learn more 
about these important devices and how to exploit them in Chapter 6. 


1.6 Storage Devices Form a Hierarchy 


This notion of inserting a smaller, faster storage device (e.g. an SRAM cache) between the processor and 
a larger slower device (e.g., main memory) turns out to be a general idea. In fact, the storage devices in 
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every computer system are organized as the memory hierarchy shown in Figure 1.9. As we move from the 
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Figure 1.9: The memory hierarchy. 


top of the hierarchy to the bottom, the devices become slower, larger, and less costly per byte. The register 
file occupies the top level in the hierarchy, which is known as level 0 or LO. The L1 cache occupies level 1 
(hence the term L1). The L2 cache occupies level 2. Main memory occupies level 3, and so on. 


The main idea of a memory hierarchy is that storage at one level serves as a cache for storage at the next 
lower level. Thus, the register file is a cache for the L1 cache, which is a cache for the L2 cache, which is a 
cache for the main memory, which is a cache for the disk. On some networked system with distributed file 
systems, the local disk serves as a cache for data stored on the disks of other systems. 


Just as programmers can exploit knowledge of the L1 and L2 caches to improve performance, programmers 
can exploit their understanding of the entire memory hierarchy. Chapter 6 will have much more to say about 
this. 


1.7 The Operating System Manages the Hardware 


Back to our hello example. When the shell loaded and ran the hello program, and when the hello 
program printed its message, neither program accessed the keyboard, display, disk, or main memory directly. 
Rather, they relied on the services provided by the operating system. We can think of the operating system 
as a layer of software interposed between the application program and the hardware, as shown in Figure 1.10. 
All attempts by an application program to manipulate the hardware must go through the operating system. 


The operating system has two primary purposes: (1) To protect the hardware from misuse by runaway 
applications, and (2) To provide applications with simple and uniform mechanisms for manipulating com- 
plicated and often wildly different low-level hardware devices. The operating system achieves both goals 
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Figure 1.10: Layered view of a computer system. 


via the fundamental abstractions shown in Figure 1.11: processes, virtual memory, and files. As this figure 
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Figure 1.11: Abstractions provided by an operating system. 


suggests, files are abstractions for I/O devices. Virtual memory is an abstraction for both the main memory 
and disk I/O devices. And processes are abstractions for the processor, main memory, and I/O devices. We 
will discuss each in turn. 


Aside: Unix and Posix. 

The 1960s was an era of huge, complex operating systems, such as IBM’s OS/360 and Honeywell’s Multics systems. 
While OS/360 was one of the most successful software projects in history, Multics dragged on for years and never 
achieved wide-scale use. Bell Laboratories was an original partner in the Multics project, but dropped out in 1969 
because of concern over the complexity of the project and the lack of progress. In reaction to their unpleasant 
Multics experience, a group of Bell Labs researchers — Ken Thompson, Dennis Ritchie, Doug McIlroy, and Joe 
Ossanna — began work in 1969 on a simpler operating system for a DEC PDP-7 computer, written entirely in 
machine language. Many of the ideas in the new system, such as the hierarchical file system and the notion of a 
shell as a user-level process, were borrowed from Multics, but implemented in a smaller, simpler package. In 1970, 
Brian Kernighan dubbed the new system “Unix” as a pun on the complexity of “Multics.” The kernel was rewritten 
in C in 1973, and Unix was announced to the outside world in 1974 [61]. 


Because Bell Labs made the source code available to schools with generous terms, Unix developed a large following 
at universities. The most influential work was done at the University of California at Berkeley in the late 1970s and 
early 1980s, with Berkeley researchers adding virtual memory and the Internet protocols in a series of releases called 
Unix 4.xBSD (Berkeley Software Distribution). Concurrently, Bell Labs was releasing their own versions, which 
become known as System V Unix. Versions from other vendors, such as the Sun Microsystems Solaris system, were 
derived from these original BSD and System V versions. 


Trouble arose in the mid 1980s as Unix vendors tried to differentiate themselves by adding new and often incom- 
patible features. To combat this trend, IEEE (Institute for Electrical and Electronics Engineers) sponsored an effort 
to standardize Unix, later dubbed “Posix” by Richard Stallman. The result was a family of standards, known as 
the Posix standards, that cover such issues as the C language interface for Unix system calls, shell programs and 
utilities, threads, and network programming. As more systems comply more fully with the Posix standards, the 
differences between Unix version are gradually disappearing. End Aside. 
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1.7.1 Processes 


When a program such as hello runs on a modern system, the operating system provides the illusion that 
the program is the only one running on the system. The program appears to have exclusive use of both the 
processor, main memory, and I/O devices. The processor appears to execute the instructions in the program, 
one after the other, without interruption. And the code and data of the program appear to be the only objects 
in the system’s memory. These illusions are provided by the notion of a process, one of the most important 
and successful ideas in computer science. 


A process is the operating system’s abstraction for a running program. Multiple processes can run concur- 
rently on the same system, and each process appears to have exclusive use of the hardware. By concurrently, 
we mean that the instructions of one process are interleaved with the instructions of another process. The 
operating system performs this interleaving with a mechanism known as context switching. 


The operating system keeps track of all the state information that the process needs in order to run. This 
state, which is known as the context, includes information such as the current values of the PC, the register 
file, and the contents of main memory. At any point in time, exactly one process is running on the system. 
When the operating system decides to transfer control from the current process to a some new process, it 
performs a context switch by saving the context of the current process, restoring the context of the new 
process, and then passing control to the new process. The new process picks up exactly where it left off. 
Figure 1.12 shows the basic idea for our example he11o scenario. 


shell ! hello 
Time process | process 
i context 
} switch 
} context 
switch 


Figure 1.12: Process context switching. 


There are two concurrent processes in our example scenario: the shell process and the hello process. 
Initially, the shell process is running alone, waiting for input on the command line. When we ask it to run 
the hello program, the shell carries out our request by invoking a special function known as a system 
call that pass control to the operating system. The operating system saves the shell’s context, creates a new 
hello process and its context, and then passes control to the new he11o process. After he 11o terminates, 
the operating system restores the context of the shell process and passes control back to it, where it waits 
for the next command line input. 


Implementing the process abstraction requires close cooperation between both the low-level hardware and 
the operating system software. We will explore how this works, and how applications can create and control 
their own processes, in Chapter 8. 


One of the implications of the process abstraction is that by interleaving different processes, it distorts 
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the notion of time, making it difficult for programmers to obtain accurate and repeatable measurements of 
running time. Chapter 9 discusses the various notions of time in a modern system and describes techniques 
for obtaining accurate measurements. 


1.7.2 Threads 


Although we normally think of a process as having a single control flow, in modern system a process can 
actually consist of multiple execution units, called threads, each running in the context of the process and 
sharing the same code and global data. 


Threads are an increasingly important programming model because of the requirement for concurrency in 
network servers, because it is easier to share data between multiple threads than between multiple pro- 
cesses, and because threads are typically more efficient than processes. We will learn the basic concepts of 
threaded programs in Chapter 11, and we will learn how to build concurrent network servers with threads in 
Chapter 12. 


1.7.3 Virtual Memory 


Virtual memory is an abstraction that provides each process with the illusion that it has exclusive use of the 
main memory. Each process has the same uniform view of memory, which is known as its virtual address 
space. The virtual address space for Linux processes is shown in Figure 1.13 (Other Unix systems use a 
similar layout). In Linux, the topmost 1/4 of the address space is reserved for code and data in the operating 
system that is common to all processes. The bottommost 3/4 of the address space holds the code and data 
defined by the user’s process. Note that addresses in the figure increase from bottom to the top. 


The virtual address space seen by each process consists of a number of well-defined areas, each with a 
specific purpose. We will learn more about these areas later in the book, but it will be helpful to look briefly 
at each, starting with the lowest addresses and working our way up: 


e Program code and data. Code begins at the same fixed address, followed by data locations that 
correspond to global C variables. The code and data areas are initialized directly from the contents of 
an executable object file, in our case the he11lo executable. We will learn more about this part of the 
address space when we study linking and loading in Chapter 7. 


e Heap. The code and data areas are followed immediately by the run-time heap. Unlike the code and 
data areas, which are fixed in size once the process begins running, the heap expands and contracts 
dynamically at runtime as a result of calls to C standard library routines such as malloc and free. 
We will study heaps in detail when we learn about managing virtual memory in Chapter 10. 


e Shared libraries. Near the middle of the address space is an area that holds the code and data for 
shared libraries such as the C standard library and the math library. The notion of a shared library 
is a powerful, but somewhat difficult concept. We will learn how they work when we study dynamic 
linking in Chapter 7. 


e Stack. At the top of the user’s virtual address space is the user stack that the compiler uses to im- 
plement function calls. Like the heap, the user stack expands and contracts dynamically during the 
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Figure 1.13: Linux process virtual address space. 


execution of the program. In particular, each time we call a function, the stack grows. Each time we 
return from a function, it contracts. We will learn how the compiler uses the stack in Chapter 3. 


e Kernel virtual memory. The kernel is the part of the operating system that is always resident in 
memory. The top 1/4 of the address space is reserved for the kernel. Application programs are not 
allowed to read or write the contents of this area or to directly call functions defined in the kernel 
code. 


For virtual memory to work, a sophisticated interaction is required between the hardware and the operating 
system software, including a hardware translation of every address generated by the processor. The basic 
idea is to store the contents of a process’s virtual memory on disk, and then use the main memory as a cache 
for the disk. Chapter 10 explains how this works and why it is so important to the operation of modern 
systems. 


1.7.4 Files 


A Unix file is a sequence of bytes, nothing more and nothing less. Every I/O device, including disks, 
keyboards, displays, and even networks, is modeled as a file. All input and output in the system is performed 
by reading and writing files, using a set of operating system functions known as system calls. 


This simple and elegant notion of a file is nonetheless very powerful because it provides applications with 
a uniform view of all of the varied I/O devices that might be contained in the system. For example, appli- 
cation programmers who manipulate the contents of a disk file are blissfully unaware of the specific disk 
technology. Further, the same program will run on different systems that use different disk technologies. 
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Aside: The Linux project. 
In August, 1991, a Finnish graduate student named Linus Torvalds made a modest posting announcing a new 
Unix-like operating system kernel: 


From: torvalds@klaava.Helsinki.FI (Linus Benedict Torvalds) 
Newsgroups: comp.os.minix 

Subject: What would you like to see most in minix? 

Summary: small poll for my new operating system 

Date: 25 Aug 91 20:57:08 GMT 


Hello everybody out there using minix 一 

I’m doing a (free) operating system (just a hobby, won’t be big and 

professional like gnu) for 386(486) AT clones. This has been brewing 
since April, and is starting to get ready. I’d like any feedback on 

things people like/dislike in minix, as my OS resembles it somewhat 

(same physical layout of the file-system (due to practical reasons) 

among other things). 


I’ve currently ported bash(1.08) and gcc(1.40), and things seem to work. 
This implies that I’ll get something practical within a few months, and 
I’d like to know what features most people would want. Any suggestions 
are welcome, but I won’t promise I’ll implement them :一 ) 


Linus (torvalds@kruuna.helsinki.fi) 


The rest, as they say, is history. Linux has evolved into a technical and cultural phenomenon. By combining forces 
with the GNU project, the Linux project has developed a complete, Posix-compliant version of the Unix operating 
system, including the kernel and all of the supporting infrastructure. Linux is available on a wide array of computers, 
from hand-held devices to mainframe computers. And it has renewed interest in the idea of open source software 
pioneered by the GNU project in the 1980s. We believe that a number of factors have contributed to the popularity 
of GNU/Linux systems: 


e Linux is relatively small. With about one million (10°) lines of source code, the Linux kernel is significantly 
smaller than comparable commercial operating systems. We recently saw a version of Linux running on a 
wristwatch! 


e Linux is robust. The code development model for Linux is unique, and has resulted in a surprisingly robust 
system. The model consists of (1) a large set of programmers distributed around the world who update their 
local copies of the kernel source code, and (2) a system integrator (Linus) who decides which of these updates 
will become part of the official release. The model works because quality control is maintained by a talented 
programmer who understands everything about the system. It also results in quicker bug fixes because the 
pool of distributed programmers is so large. 


e Linux is portable. Since Linux and the GNU tools are written in C, Linux can be ported to new systems 
without extensive code modifications. 


e Linux is open-source. Linux is open source, which means that it can be down-loaded, modified, repackaged, 
and redistributed without restriction, gratis or for a fee, as long as the new sources are included with the 
distribution. This is different from other Unix versions, which are encumbered with software licenses that 
restrict software redistributions that might add value and make the system easier to use and install. 


End Aside. 


1.8 Systems Communicate With Other Systems Using Networks 


Up to this point in our tour of systems, we have treated a system as an isolated collection of hardware 
and software. In practice, modern systems are often linked to other systems by networks. From the point of 
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view of an individual system, the network can be viewed as just another I/O device, as shown in Figure 1.14. 
When the system copies a sequence of bytes from main memory to the network adapter, the data flows across 
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Figure 1.14: A network is another I/O device. 


the network to another machine, instead of say, to a local disk drive. Similarly, the system can read data sent 
from other machines and copy this data to its main memory. 


With the advent of global networks such as the Internet, copying information from one machine to another 
has become one of the most important uses of computer systems. For example, applications such as email, 
instant messaging, the World Wide Web, FTP, and telnet are all based on the ability to copy information 
over a network. 


Returning to our hello example, we could use the familiar telnet application to run hello on a remote 
machine. Suppose we use a telnet client running on our local machine to connect to a telnet server on 
a remote machine. After we log in to the remote machine and run a shell, the remote shell is waiting to 
receive an input command. From this point, running the hello program remotely involves the five basic 
steps shown in Figure 1.15. 
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Figure 1.15: Using telnet to run hello remotely over a network. 


After we type the “hello” string to the telnet client and hit the enter key, the client sends the string to 
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the telnet server. After the telnet server receives the string from the network, it passes it along to the remote 
shell program. Next, the remote shell runs the he 110 program, and passes the output line back to the telnet 
server. Finally, the telnet server forwards the output string across the network to the telnet client, which 
prints the output string on our local terminal. 


This type of exchange between clients and servers is typical of all network applications. In Chapter 12 we 
will learn how to build network applications, and apply this knowledge to build a simple Web server. 


1.9 Summary 


This concludes our initial whirlwind tour of systems. An important idea to take away from this discussion is 
that a system is more than just hardware. It is a collection of intertwined hardware and software components 
that must work cooperate in order to achieve the ultimate goal of running application programs. The rest of 
this book will expand on this theme. 


Bibliographic Notes 


Ritchie has written interesting first-hand accounts of the early days of C and Unix [59, 60]. Ritchie and 
Thompson presented the first published account of Unix [61]. Silberschatz and Gavin [66] provide a compre- 
hensive history of the different flavors of Unix. The GNU (www. gnu. org) and Linux (www. linux.org) 
Web pages have loads of current and historical information. Unfortunately, the Posix standards are not avail- 
able online. They must be ordered for a fee from IEEE (st andards.ieee.org). 


Part I 


Program Structure and Execution 


Chapter 2 


Representing and Manipulating 
Information 


Modern computers store and process information represented as two-valued signals. These lowly binary 
digits, or bits, form the basis of the digital revolution. The familiar decimal, or base-10, representation has 
been in use for over 1000 years, having been developed in India, improved by Arab mathematicians in the 
12th century, and brought to the West in the 13th century by the Italian mathematician Leonardo Pisano, 
better known as Fibonacci. Using decimal notation is natural for ten-fingered humans, but binary values 
work better when building machines that store and process information. Two-valued signals can readily 
be represented, stored, and transmitted, for example, as the presence or absence of a hole in a punched 
card, as a high or low voltage on a wire, or as a magnetic domain oriented clockwise or counterclockwise. 
The electronic circuitry for storing and performing computations on two-valued signals is very simple and 
reliable, enabling manufacturers to integrate millions of such circuits on a single silicon chip. 


In isolation, a single bit is not very useful. When we group bits together and apply some interpretation that 
gives meaning to the different possible bit patterns, however, we can represent the elements of any finite set. 
For example, using a binary number system, we can use groups of bits to encode nonnegative numbers. By 
using a standard character code, we can encode the letters and symbols in a document. We cover both of 
these encodings in this chapter, as well as encodings to represent negative numbers and to approximate real 
numbers. 


We consider the three most important encodings of numbers. Unsigned encodings are based on traditional 
binary notation, representing numbers greater than or equal to 0. Two’s complement encodings are the most 
common way to represent signed integers, that is, numbers that may be either positive or negative. Floating- 
point encodings are a base-two version of scientific notation for representing real numbers. Computers 
implement arithmetic operations such as addition and multiplication, with these different representations 
similar to the corresponding operations on integers and real numbers. 


Computer representations use a limited number of bits to encode a number, and hence some operations can 
overflow when the results are too large to be represented. This can lead to some surprising results. For 
example, on most of today’s computers, computing the expression 


200 * 300 * 400 * 500 


21 
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yields —884,901,888. This runs counter to the properties of integer arithmetic—computing the product of a 
set of positive numbers has yielded a negative result. 


On the other hand, integer computer arithmetic satisfies many of the familiar properties of true integer arith- 
metic. For example, multiplication is associative and commutative, so that computing all of the following C 
expressions yields —884,901,888: 


(500 * 400) * (300 * 200) 
((500 * 400) * 300) * 200 
((200 * 500) * 300) * 400 
400 * (200 * (300 * 500) ) 


The computer might not generate the expected result, but at least it is consistent! 


Floating point arithmetic has altogether different mathematical properties. The product of a set of positive 
numbers will always be positive, although overflow will yield the special value 十 co. On the other hand, 
floating point arithmetic is not associative due to the finite precision of the representation. For example, 
the C expression (3.14+1e20) —-1e20 will evaluate to 0.0 on most machines, while 3.14+ (1e20- 
1e20) will evaluate to 3.14. 


By studying the actual number representations, we can understand the ranges of values that can be repre- 
sented and the properties of the different arithmetic operations. This understanding is critical to writing 
programs that work correctly over the full range of numeric values and that are portable across different 
combinations of machine, operating system, and compiler. Our treatment of this material is very mathe- 
matical. We start with the basic definitions of the encodings and then derive such properties as the range of 
representable numbers, their bit-level representations, and the properties of the arithmetic operations. We 
believe it is important to examine this material from such an abstract viewpoint, because programmers need 
to have a solid understanding of how computer arithmetic relates to the more familiar integer and real arith- 
metic. Although it may appear intimidating, the mathematical treatment requires just an understanding of 
basic algebra. We recommend working the practice problems as a way to solidify the connection between 
the formal treatment and some real-life examples. 


We derive several ways to perform arithmetic operations by directly manipulating the bit-level representa- 
tions of numbers. Understanding these techniques will be important for understanding the machine-level 
code generated when compiling arithmetic expressions. 


The C++ programming language is built upon C, using the exact same numeric representations and opera- 
tions. Everything said in this chapter about C also holds for C++. The Java language definition, on the other 
hand, created a new set of standards for numeric representations and operations. Whereas the C standard is 
designed to allow a wide range of implementations, the Java standard is quite specific on the formats and 
encodings of data. We highlight the representations and operations supported by Java at several places in 
the chapter. 


2.1 Information Storage 


Rather than accessing individual bits in a memory, most computers use blocks of eight bits, or bytes as 
the smallest addressable unit of memory. A machine-level program views memory as a very large array of 
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ede oT I 3 4 1 1 6oT7 | 
Decimal Vane [0 | 1 |2 |s | 41 5 e7] 


Hri |s |9 [A[TB]C|[D[E|F, 
Decimal Vane | 8 | 9 | 0 |r| I e ais 


Figure 2.1: Hexadecimal Notation Each Hex digit encodes one of 16 values. 


bytes, referred to as virtual memory. Every byte of memory is identified by a unique number, known as 
its address, and the set of all possible addresses is known as the virtual address space. As indicated by its 
name, this virtual address space is just a conceptual image presented to the machine-level program. The 
actual implementation (presented in Chapter 10) uses a combination of random-access memory (RAM), 
disk storage, special hardware, and operating system software to provide the program with what appears to 
be a monolithic byte array. 


One task of a compiler and the run-time system is to subdivide this memory space into more manageable 
units to store the different program objects, that is, program data, instructions, and control information. 
Various mechanisms are used to allocate and manage the storage for different parts of the program. This 
management is all performed within the virtual address space. For example, the value of a pointer in C— 
whether it points to an integer, a structure, or some other program unit—is the virtual address of the first 
byte of some block of storage. The C compiler also associates type information with each pointer, so that it 
can generate different machine-level code to access the value stored at the location designated by the pointer 
depending on the type of that value. Although the C compiler maintains this type information, the actual 
machine-level program it generates has no information about data types. It simply treats each program 
object as a block of bytes, and the program itself as a sequence of bytes. 


New to C? 

Pointers are a central feature of C. They provide the mechanism for referencing elements of data structures, 
including arrays. Just like a variable, a pointer has two aspects: its value and its type. The value indicates the 
location of some object, while its type indicates what kind (e.g., integer or floating-point number) of object is stored 
at that location. End 


2.1.1 Hexadecimal Notation 


A single byte consists of eight bits. In binary notation, its value ranges from 000000002 to 1111111132. 
When viewed as a decimal integer, its value ranges from 019 to 25510. Neither notation is very convenient for 
describing bit patterns. Binary notation is too verbose, while with decimal notation, it is tedious to convert 
to and from bit patterns. Instead, we write bit patterns as base-16, or hexadecimal numbers. Hexadecimal 
(or simply “Hex”) uses digits ‘0’ through ‘9’, along with characters ‘A’ through ‘F’ to represent 16 possible 
values. Figure 2.1 shows the decimal and binary values associated with the 16 hexadecimal digits. Written 
in hexadecimal, the value of a single byte can range from 0016 to FFi¢. 


In C, numeric constants starting with Ox or OX are interpreted as being in hexadecimal. The characters 
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‘A’ through ‘F may be written in either upper or lower case. For example, we could write the number 
FA1D37B 16 as OxFA1D37B, as Oxfald37b, or even mixing upper and lower case, e.g., OxFalD37b. 
We will use the C notation for representing hexadecimal values in this book. 


A common task in working with machine-level programs is to manually convert between decimal, binary, 
and hexadecimal representations of bit patterns. A starting point is to be able to convert, in both directions, 
between a single hexadecimal digit and a four-bit binary pattern. This can always be done by referring 
to a chart such as that shown in Figure 2.1. When doing the conversion manually, one simple trick is to 
memorize the decimal equivalents of hex digits A, C, and F. The hex values B, D, and E can be translated to 
decimal by computing their values relative to the first three. 


Practice Problem 2.1: 


Fill in the missing entries in the following figure, giving the decimal, binary, and hexadecimal values of 
different byte patterns. 


— o foo o 


| 000 | | 
一 Too | | 
EE LL 


Aside: Converting between decimal and hexadecimal. 
For converting larger values between decimal and hexadecimal, it is best to let a computer or calculator do the work. 
For example, the following script in the Perl language converts a list of numbers from decimal to hexadecimal: 


bin/d2h 
1 #!/usr/local/bin/perl 
2 # Convert list of decimal numbers into hex 
3 for ($i = 0; $i < @ARGV; $i++) { 
4 printf("%d = Ox%x\n", SARGV[Si], SARGV[$i]) 
5} 
bin/d2h 


Once this file has been set to be executable, the command: 


unix> ./d2h 100 500 751 


will yield output: 
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100 = 0x64 
500 = 0x1f4 
751 = Ox2ef 


Similarly, the following script converts from hexadecimal to decimal: 


bin/h2d 
1 #!/usr/local/bin/perl 
2 # Convert list of decimal numbers into hex 
3 for ($i = 0; $i < @ARGV; $i++) { 
4 Sval = hex(SARGV[$i]); 
5 printf ("0x%x = Sd\n", Sval, S$val); 
6 } 
bin/h2d 
End Aside. 


2.1.2 Words 


Every computer has a word size, indicating the nominal size of integer and pointer data. Since a virtual 
address is encoded by such a word, the most important system parameter determined by the word size is 
the maximum size of the virtual address space. That is, for a machine with an n-bit word size, the virtual 
addresses can range from 0 to 2” — 1, giving the program access to at most 2” bytes. 


Most computers today have a 32-bit word size. This limits the virtual address space to 4 gigabytes (written 
4 GB), that is, just over 4 x 10° bytes. Although this is ample space for most applications, we have 
reached the point where many large-scale scientific and database applications require larger amounts of 
storage. Consequently, high-end machines with 64-bit word sizes are becoming increasingly commonplace 
as storage costs decrease. 


2.1.3 Data Sizes 


Computers and compilers support multiple data formats using different ways to encode data, such as in- 
tegers and floating point, as well as different lengths. For example, many machines have instructions for 
manipulating single bytes, as well as integers represented as two, four, and eight-byte quantities. They also 
support floating-point numbers represented as four and eight-byte quantities. 


The C language supports multiple data formats for both integer and floating-point data. The C data type 
char represents a single byte. Although the name “char” derives from the fact that it is used to store 
a single character in a text string, it can also be used to store integer values. The C data type int can 
also be prefixed by the qualifiers long and short, providing integer representations of various sizes. 
Figure 2.2 shows the number of bytes allocated for various C data types. The exact number depends on 
both the machine and the compiler. We show two representative cases: a typical 32-bit machine, and the 
Compaq Alpha architecture, a 64-bit machine targeting high end applications. Most 32-bit machines use 
the allocations indicated as “typical.” Observe that “short” integers have two-byte allocations, while an 
unqualified int is 4 bytes. A “long” integer uses the full word size of the machine. 
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Typical 32-bit | Compaq Alpha 


char 1 1 
short int 2 2 
int 4 4 

long int 4 8 


[char =[ 4 | 8 
float 4 4 
double 8 8 


Figure 2.2: Sizes (in Bytes) of C Numeric Data Types. The number of bytes allocated varies with machine 
and compiler. 


Figure 2.2 also shows that a pointer (e.g., a variable declared as being of type “char *”) uses the full word 
size of the machine. Most machines also support two different floating-point formats: single precision, 
declared in C as float, and double precision, declared in C as double. These formats use four and eight 
bytes, respectively. 


New to C? 
For any data type T’, the declaration 


T *p; 
indicates that p is a pointer variable, pointing to an object of type T. For example 
char *p; 


is the declaration of a pointer to an object of type char. End 


Programmers should strive to make their programs portable across different machines and compilers. One 
aspect of portability is to make the program insensitive to the exact sizes of the different data types. The 
C standard sets lower bounds on the numeric ranges of the different data types, as will be covered later, 
but there are no upper bounds. Since 32-bit machines have been the standard for the last 20 years, many 
programs have been written assuming the allocations listed as “typical 32-bit” in Figure 2.2. Given the 
increasing prominence of 64-bit machines in the near future, many hidden word size dependencies will 
show up as bugs in migrating these programs to new machines. For example, many programmers assume 
that a program object declared as type int can be used to store a pointer. This works fine for most 32-bit 
machines but leads to problems on an Alpha. 


2.1.4 Addressing and Byte Ordering 


For program objects that span multiple bytes, we must establish two conventions: what will be the address 
of the object, and how will we order the bytes in memory. In virtually all machines, a multibyte object is 
stored as a contiguous sequence of bytes, with the address of the object given by the smallest address of the 
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bytes used. For example, suppose a variable x of type int has address 0x100, that is, the value of the 
address expression &x is 0x100. Then the four bytes of x would be stored in memory locations 0x100, 
0x101, 0x102, and 0x103. 


For ordering the bytes representing an object, there are two common conventions. Consider a w-bit integer 
having a bit representation [zw_1, Zw—2,---,21, 20], where zw-_1 is the most significant bit, and zo is the 
least. Assuming w is a multiple of eight, these bits can be grouped as bytes, with the most significant byte 
having bits [7 »—1, Zw—2,---,Zw—s], the least significant byte having bits [x7, £6, ..., £o], and the other 
bytes having bits from the middle. Some machines choose to store the object in memory ordered from least 
significant byte to most, while other machines store them from most to least. The former convention—where 
the least significant byte comes first—is referred to as little endian. This convention is followed by most 
machines from the former Digital Equipment Corporation (now part of Compaq Corporation), as well as by 
Intel. The latter convention—where the most significant byte comes first—is referred to as big endian. This 
convention is followed by most machines from IBM, Motorola, and Sun Microsystems. Note that we said 
“most.” The conventions do not split precisely along corporate boundaries. For example, personal computers 
manufactured by IBM use Intel-compatible processors and hence are little endian. Many microprocessor 
chips, including Alpha and the PowerPC by Motorola can be run in either mode, with the byte ordering 
convention determined when the chip is powered up. 


Continuing our earlier example, suppose the variable x of type int and at address 0x100 has a hexadecimal 
value of 0x01234567. The ordering of the bytes within the address range 0x100 through 0x103 depends 
on the type of machine: 


Big endian 
0x100 0x101 0x102 0x103 


Little endian 
0x100 0x101 0x102 0x103 


Note that in the word 0x01234567 the high-order byte has hexadecimal value 0x01, while the low-order 
byte has value 0x67. 


People get surprisingly emotional about which byte ordering is the proper one. In fact, the terms “little 
endian” and “big endian” come from the book Gulliver’s Travels by Jonathan Swift, where two warring 
factions could not agree by which end a soft-boiled egg should be opened—the little end or the big. Just like 
the egg issue, there is no technological reason to choose one byte ordering convention over the other, and 
hence the arguments degenerate into bickering about sociopolitical issues. As long as one of the conventions 
is selected and adhered to consistently, the choice is arbitrary. 


Aside: Origin of “Endian.” 
Here is how Jonathan Swift, writing in 1726, described the history of the controversy between big and little endians: 


... the two great empires of Lilliput and Blefuscu. Which two mighty powers have, as I was going 
to tell you, been engaged in a most obstinate war for six-and-thirty moons past. It began upon the 
following occasion. It is allowed on all hands, that the primitive way of breaking eggs, before we eat 
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them, was upon the larger end; but his present majesty’s grandfather, while he was a boy, going to eat an 
egg, and breaking it according to the ancient practice, happened to cut one of his fingers. Whereupon 
the emperor his father published an edict, commanding all his subjects, upon great penalties, to break 
the smaller end of their eggs. The people so highly resented this law, that our histories tell us, there have 
been six rebellions raised on that account; wherein one emperor lost his life, and another his crown. 
These civil commotions were constantly fomented by the monarchs of Blefuscu; and when they were 
quelled, the exiles always fled for refuge to that empire. It is computed that eleven thousand persons 
have at several times suffered death, rather than submit to break their eggs at the smaller end. Many 
hundred large volumes have been published upon this controversy: but the books of the Big-endians 
have been long forbidden, and the whole party rendered incapable by law of holding employments. 


In his day, Swift was satirizing the continued conflicts between England (Lilliput) and France (Blefuscu). Danny 
Cohen, an early pioneer in networking protocols, first applied these terms to refer to byte ordering [16], and the 
terminology has been widely adopted. End Aside. 


For most application programmers, the byte orderings used by their machines are totally invisible. Programs 
compiled for either class of machine give identical results. At times, however, byte ordering becomes an 
issue. The first is when binary data is communicated over a network between different machines. A common 
problem is for data produced by a little-endian machine to be sent to a big-endian machine, or vice-versa, 
leading to the bytes within the words being in reverse order for the receiving program. To avoid such 
problems, code written for networking applications must follow established conventions for byte ordering 
to make sure the sending machine converts its internal representation to the network standard, while the 
receiving machine converts the network standard to its internal representation. We will see examples of 
these conversions in Chapter 12. 


A second case is when programs are written that circumvent the normal type system. In the C language, this 
can be done using a cast to allow an object to be referenced according to a different data type from which 
it was created. Such coding tricks are strongly discouraged for most application programming, but they can 
be quite useful and even necessary for system-level programming. 


Figure 2.3 shows C code that uses casting to access and print the byte representations of different program 
objects. We use typedef to define data type byte_pointer as a pointer to an object of type “un- 
signed char.” Such a byte pointer references a sequence of bytes where each byte is considered to be a 
nonnegative integer. The first routine show_bytes is given the address of a sequence of bytes, indicated 
by a byte pointer, and a byte count. It prints the individual bytes in hexadecimal. The C formatting directive 
“% .2x” indicates that an integer should be printed in hexadecimal with at least two digits. 


New to C? 
The typedef declaration in C provides a way of giving a name to a data type. This can be a great help in improving 
code readability, since deeply nested type declarations can be difficult to decipher. 


The syntax for typedef is exactly like that of declaring a variable, except that it uses a type name rather than a 
variable name. Thus, the declaration of byte_pointer in Figure 2.3 has the same form as would the declaration 
of a variable to type “unsigned char.” 


For example, the declaration: 


typedef int *int_pointer; 
int_pointer ip; 


defines type “int_pointer” to be a pointer to an int, and declares a variable ip of this type. Alternatively, we 
could declare this variable directly as: 
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code/data/show-bytes.c 


1 #include <stdio.h> 

2 

3 typedef unsigned char *byte_pointer; 

4 

5 void show_ bytes (byte pointer start, int len) 

6 { 

7 ine aes 

8 for (i = 0; i < len; i++) 

9 printf(" $.2x", start[i]); 

0 printf ("\n"); 

1 } 

2 

3 void show_int (int x) 

4 { 

5 show_bytes((byte_pointer) &x, sizeof(int)); 
6 } 

7 

8 void Show_float (float x) 

9 { 

20 show_bytes((byte_pointer) &x, sizeof(float)); 
21 } 

22 

23 void show_pointer(void *x) 

24 { 

25 show_bytes((byte_pointer) &x, sizeof(void *)); 
26 } 


code/data/show-bytes.c 


Figure 2.3: Code to Print the Byte Representation of Program Objects. This code uses casting to 
circumvent the type system. Similar functions are easily defined for other data types. 
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ant. “ip; 
End 
New to C? 


The printf function (along with its cousins fprintf and sprintf) provides a way to print information with 
considerable control over the formatting details. The first argument is a format string, while any remaining 
arguments are values to be printed. Within the formatting string, each character sequence starting with *%’ indicates 
how to format the next argument. Typical examples include ‘%d’ to print a decimal integer and ‘%£’ to print a 
floating-point number, and ‘%c’ to print a character having the character code given by the argument. End 


New to C? 

In function show_bytes (Figure 2.3) we see the close connection between pointers and arrays, as will be dis- 
cussed in detail in Section 3.8. We see that this function has an argument start of type byte_pointer (which 
has been defined to be a pointer to unsigned char,) but we see the array reference start [i] on line 9. In 
C, we can use reference a pointer with array notation, and we can reference arrays with pointer notation. In this 
example, the reference start [i] indicates that we want to read the byte that is i positions beyond the location 
pointed to by start. End 


Procedures show_int, show_float,and show_pointer demonstrate how to use procedure show_bytes 
to print the byte representations of C program objects of type int, float, and void *, respectively. Ob- 
serve that they simply pass show_bytes a pointer &x to their argument x, casting the pointer to be of type 
“unsigned char *.” This cast indicates to the compiler that the program should consider the pointer to 

be to a sequence of bytes rather than to an object of the original data type. This pointer will then be to the 
lowest byte address used by the object. 


New to C? 

In lines 15, 20, and 24 of Figure 2.3 we see uses of two operations that are unique to C and C++. The C “address of” 
operator & creates a pointer. On all three lines, the expression &x creates a pointer to the location holding variable 
x. The type of this pointer depends on the type of x, and hence these three pointers are of type int *, float *, 
and void **, respectively. (Datatype void * isa special kind of pointer with no associated type information.) 


The cast operator converts from one data type to another. Thus, the cast (byte_pointer) &x indicates that 
whatever type the pointer &x had before, it now is a pointer to data of type unsigned char. End 


These procedures use the C operator sizeof to determine the number of bytes used by the object. In 
general, the expression sizeof (T) returns the number of bytes required to store an object of type T. 
Using sizeof, rather than a fixed value, is one step toward writing code that is portable across different 
machine types. 


We ran the code shown in Figure 2.4 on several different machines, giving the results shown in Figure 2.5. 
The machines used were: 


Linux: Intel Pentium II running Linux. 
NT: Intel Pentium II running Windows-NT. 
Sun: Sun Microsystems UltraSPARC running Solaris. 


Alpha: Compaq Alpha 21164 running Tru64 Unix. 
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code/data/show-bytes.c 


1 void test_show_bytes (int val) 
2 { 

3 int ival = val; 

4 float fval = (float) ival; 
5 int *pval = éival; 

6 show_int (ival); 

7 show_float (fval); 

8 show_pointer (pval) ; 

9 


code/data/show-bytes.c 


Figure 2.4: Byte Representation Examples. This code prints the byte representations of sample data 
objects. 


Bytes Hex) 
12,345 int 39 30 00 00 
12,345 int 


12,345 int 
12,345 int 


1£ 01 00 00 00 


Figure 2.5: Byte Representations of Different Data Values. Results for int and float are identical, 
except for byte ordering. Pointer values are machine-dependent. 
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Our sample integer argument 12,345 has hexadecimal representation 0x00003039. For the int data, we 
get identical results for all machines, except for the byte ordering. In particular, we can see that the least 
significant byte value of 0x39 is printed first for Linux, NT, and Alpha, indicating little-endian machines, 
and last for Sun, indicating a big-endian machine. Similarly, the bytes of the float data are identical, 
except for the byte ordering. On the other hand, the pointer values are completely different. The different 
machine/operating system configurations use different conventions for storage allocation. One feature to 
note is that the Linux and Sun machines use four-byte addresses, while the Alpha uses eight-byte addresses. 


Observe that although the floating point and the integer data both encode the numeric value 12,345, they 
have very different byte patterns: 0x00003039 for the integer, and 0x4640E400 for floating point. In 
general, these two formats use different encoding schemes. If we expand these hexadecimal patterns into 
binary and shift them appropriately, we find a sequence of 13 matching bits, indicated below by a sequence 
of asterisks: 


0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
大 大 大 大 大 大 大 大 大 大 大 大 大 
4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


This is not coincidental. We will return to this example when we study floating-point formats. 


Practice Problem 2.2: 


Consider the following 3 calls to show_bytes: 


int val = 0x12345678; 

byte_pointer valp = (byte_pointer) é&val; 
show_bytes(valp, 1); /* A. */ 
show_bytes(valp, 2); /* B. */ 
show_bytes(valp, 3); /* C. */ 


Indicate below the values that would be printed by each call on a little-endian machine and on a big- 
endian machine. 


A. Little endian: Big endian: 
B. Little endian: Big endian: 
C. Little endian: Big endian: 


Practice Problem 2.3: 


Using show_int and show_float, we determine that the integer 3490593 has hexadecimal repre- 
sentation 0x00354321, while the floating-point number 3490593.0 has hexadecimal representation 
representation 0x4A550C84. 


A. Write the binary representations of these two hexadecimal values. 
B. Shift these two strings relative to one another to maximize the number of matching bits. 


C. How many bits match? What parts of the strings do not match? 
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2.1.5 Representing Strings 


A string in C is encoded by an array of characters terminated by the null (having value 0) character. Each 
character is represented by some standard encoding, with the most common being the ASCII character code. 
Thus, if we run our routine show_bytes with arguments "12345" and 6 (to include the terminating 
character), we get the result 31 32 33 34 35 00. Observe that the ASCII code for decimal digit x 
happens to be 0x3z, and that the terminating byte has the hex representation 0x00. This same result would 
be obtained on any system using ASCII as its character code, independent of the byte ordering and word 
size conventions. As a consequence, text data is more platform-independent than binary data. 


Aside: Generating an ASCII table. 
You can display a table showing the ASCII character code by executing the command man ascii. End Aside. 


Practice Problem 2.4: 


What would be printed as a result of the following call to show_bytes: 


char xs = "ABCDEF"; 
show_bytes(s, strlen(s)); 


Note that letters “A’ through ‘Z’ have ASCII codes 0x41 through 0x5A. 


Aside: The Unicode character set. 

The ASCII character set is suitable for encoding English language documents, but it does not have much in the way 
of special characters, such as the French ‘ç.’ It is wholly unsuited for encoding documents in languages such as 
Greek, Russian, and Chinese. Recently, the 16-bit Unicode character set has been adopted to support documents in 
all languages. This doubling of the character set representation enables a very large number of different characters 
to be represented. The Java programming language uses Unicode when representing character strings. Program 
libraries are also available for C that provide Unicode versions of the standard string functions such as strlen and 
strcpy. End Aside. 


2.1.6 Representing Code 


Consider the following C function: 


int sum(int x, int y) 
{ 


1 
2 
z return x + y; 
4 


When compiled on our sample machines, we generate machine code having the following byte representa- 
tions: 


Linux: 55 89 e5 8b 45 Oc 03 45 08 89 ec 5d c3 


NT: 55 89 e5 8b 45 0c 03 45 08 89 ec 5d c3 
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z | 0 1 z 
0 | 1 0|10 1 0 
1 | 0 1/1 1 1 


Figure 2.6: Operations of Boolean Algebra. Binary values 1 and 0 encode logic values TRUE and FALSE, 
while operations ~, &, |, and ^ encode logical operations NOT, AND, OR, and EXCLUSIVE-OR, respec- 
tively. 


一 CO] eR 
Co S 
=- O]e 
= 二 号 
O eile 


Sun: 81 C3 EO 08 90 02 00 09 


Alpha: 00 00 30 42 01 80 FA 6B 


Here we find that the instruction codings are different, except for the NT and Linux machines. Different 
machine types use different and incompatible instructions and encodings. The NT and Linux machines 
both have Intel processors and hence support the same machine-level instructions. In general, however, the 
structure of an executable NT program differs from a Linux program, and hence the machines are not fully 
binary compatible. Binary code is seldom portable across different combinations of machine and operating 
system. 


A fundamental concept of computer systems is that a program, from the perspective of the machine, is 
simply sequences of bytes. The machine has no information about the original source program, except 
perhaps some auxiliary tables maintained to aid in debugging. We will see this more clearly when we study 
machine-level programming in Chapter 3. 


2.1.7 Boolean Algebras and Rings 


Since binary values are at the core of how computers encode, store, and manipulate information, a rich body 
of mathematical knowledge has evolved around the study of the values 0 and 1. This started with the work 
of George Boole around 1850, and hence goes under the heading of Boolean algebra. Boole observed that 
by encoding logic values TRUE and FALSE as binary values 1 and 0, he could formulate an algebra that 
captures the properties of propositional logic. 


There is an infinite number of different Boolean algebras, where the simplest is defined over the two-element 
set {0, 1}. Figure 2.6 defines several operations in this Boolean algebra. Our symbols for representing these 
operations are chosen to match those used by the C bit-level operations, as will be discussed later. The 
Boolean operation ~ corresponds to the logical operation NOT, denoted in propositional logic as =~. That 
is, we say that —P is true when P is not true, and vice-versa. Correspondingly, ~p equals 1 when p equals 
0, and vice-versa. Boolean operation & corresponds to the logical operation AND, denoted in propositional 
logic as A. We say that P A Q holds when both P and Q are true. Correspondingly, p &q equals 1 only when 
p = 1 and q = 1. Boolean operation | corresponds to the logical operation OR, denoted in propositional 
logic as V. We say that P V Q holds when either P or Q are true. Correspondingly, p | q equals 1 
when either p = 1 or q = 1. Boolean operation ^ corresponds to the logical operation EXCLUSIVE-OR, 
denoted in propositional logic as @. We say that P @ Q holds when either P or Q are true, but not both. 
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Shared Properties 


Property Integer Ring Boolean Algebra 


a+b=b+a a|b=bla 


axb=bxa a&b=béa 
c=a+(b+c) (a |b |c=a | (b| co) 
(axb) xc=ax (bxc) (a &b) & c=a& (bac) 


a x (b+c) =(axb)+(axc) ee | (age) 


0=a 


Cancellation 


Unique to Rings 


Unique to Boolean Algebras 


Distributivity 


Idempotency 


DeMorgan’s laws 


Figure 2.7: Comparison of Integer Ring and Boolean Algebra. The two mathematical structures share 
many properties, but there are key differences, particularly between — and ~. 


Correspondingly, p ^ q equals 1 when either p = 1 and q = 0, or p = 0 and q = 1. 


Claude Shannon, who would later found the field of information theory, first made the connection between 
Boolean algebra and digital logic. In his 1937 master’s thesis, he showed that Boolean algebra could be 
applied to the design and analysis of networks of electromechanical relays. Although computer technology 
has advanced considerably since that time, Boolean algebra still plays a central role in digital systems design 
and analysis. 


There are many parallels between integer arithmetic and Boolean algebra, as well as several important dif- 
ferences. In particular, the set of integers, denoted Z, forms a mathematical structure known as a ring, 
denoted (Z, +, x, —,0, 1), with addition serving as the sum operation, multiplication as the product op- 
eration, negation as the additive inverse, and elements 0 and 1 serving as the additive and multiplicative 
identities. The Boolean algebra ({0,1}, |, &, ~, 0,1) has similar properties. Figure 2.7 highlights properties 
of these two structures, showing the properties that are common to both and those that are unique to one or 
the other. One important difference is that ~a is not an inverse for a under |. 
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Aside: What good is abstract algebra? 

Abstract algebra involves identifying and analyzing the common properties of mathematical operations in different 
domains. Typically, an algebra is characterized by a set of elements, some of its key operations, and some im- 
portant elements. As an example, modular arithmetic also forms a ring. For modulus n, the algebra is denoted 
(Zn, +n, Xn; ~n, 0, 1), with components defined as follows: 


Za = {0,1,...,n—1} 
atnb = a+bmodn 
aXnb = axbmodn 


ae = 0, a=0 
BS n—a, a>0 


Even though modular arithmetic yields different results from integer arithmetic, it has many of the same mathemat- 
ical properties. Other well-known rings include rational and real numbers. End Aside. 


If we replace the OR operation of Boolean algebra by the EXCLUSIVE-OR operation, and the complement 
operation ~ with the identity operation 7 一 where I (a) = a for all a—we have a structure ({0, 1}, ^, &, Z,0, 1). 
This structure is no longer a Boolean algebra—in fact it’s a ring. It can be seen to be a particularly simple 
form of the ring consisting of all integers {0,1,...,— 1} with both addition and multiplication performed 
modulo n. In this case, we have n = 2. That is, the Boolean AND and EXCLUSIVE-OR operations cor- 
respond to multiplication and addition modulo 2, respectively. One curious property of this algebra is that 
every element is its own additive inverse: a ^ I (a) = a ^ a = 0. 


Aside: Who, besides mathematicians, care about Boolean rings? 

Every time you enjoy the clarity of music recorded on a CD or the quality of video recorded on a DVD, you are 
taking advantage of Boolean rings. These technologies rely on error-correcting codes to reliably retrieve the bits 
from a disk even when dirt and scratches are present. The mathematical basis for these error-correcting codes is a 
linear algebra based on Boolean rings. End Aside. 


We can extend the four Boolean operations to also operate on bit vectors, i.e., strings of Os and 1s of 
some fixed length w. We define the operations over bit vectors according their applications to the matching 
elements of the arguments. For example, we define [aw—1, dw—2,---, ao]&[bw—1; bw—2,; -.- , bo] to be [aw_1& 
bw—1; ao 2& bw_2,...,a0 & bo], and similarly for operations ~, |, and ^. Letting {0,1}” denote the set 
of all strings of Os and 1s having length w, and a” denote the string consisting of w repetitions of symbol 
a, then one can see that the resulting algebras: ({0,1}”, |, &, 7,02, 1%) and ({0, 1}, ^, &, 7,0”, 1”) form 
Boolean algebras and rings, respectively. Each value of w defines a different Boolean algebra and a different 
Boolean ring. 


Aside: Are Boolean rings the same as modular arithmetic? 

The two-element Boolean ring ({0,1}, ^, &, Z, 0, 1) is identical to the ring of integers modulo two (Z2, +2, X2, —2, 0,1). 
The generalization to bit vectors of length w, however, however, yields a very different ring from modular arithmetic. 

End Aside. 


Practice Problem 2.5: 


Fill in the following table showing the results of evaluating Boolean operations on bit vectors. 
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[01101001] 
[01010101] 


One useful application of bit vectors is to represent finite sets. For example, we can denote any subset 
A C {0,1,...,w — 1} as a bit vector [ay_1,...,@1,@9], where a; = 1 if and only if i € A. For example, 
(recalling that we write aw_1 on the left and ao on the right), we have a = [01101001] representing the 
set A = {0,3,5,6}, and b = [01010101] representing the set B = {0,2,4,6}. Under this interpretation, 
Boolean operations | and & correspond to set union and intersection, respectively, and ~ corresponds to set 
complement. For example, the operation a & b yields bit vector [01000001], while A N B = {0,6}. 


In fact, for any set S, the structure (P(S), U, N, , Ø, S) forms a Boolean algebra, where P(S) denotes the 
set of all subsets of S, and denotes the set complement operator. That is, for any set A, its complement is 
the set A = {a € S|a Z A}. The ability to represent and manipulate finite sets using bit vector operations 
is a practical outcome of a deep mathematical principle. 


2.1.8 Bit-Level Operations in C 


One useful feature of C is that it supports bit-wise Boolean operations. In fact, the symbols we have used for 
the Boolean operations are exactly those used by C: | for OR, & for AND, ~ for NOT, and * for EXCLUSIVE- 
OR. These can be applied to any “integral” data type, that is, one declared as type char or int, with or 
without qualifiers such as short, long, or unsigned. Here are some example expression evaluations: 


Binary Expression Binary Result 


“0x41 “101000001 [10111110] 
“0x00 ~ [00000000] 11111111 


[ ] 
0x69 & 0x55 | [01101001] & [01010101] | [01000001] 
[ ] 


0x69 | 0x55 | [01101001] | [01010101] | [01111101 


As our examples show, the best way to determine the effect of a bit-level expression is to expand the 
hexadecimal arguments to their binary representations, perform the operations in binary, and then convert 
back to hexadecimal. 


Practice Problem 2.6: 


To show how the ring properties of ^ can be useful, consider the following program: 


1 void inplace_swap(int *x, int *y) 
2 { 
3 *x = *x © *y; /* Step 1 */ 
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4 zy = *x ^ žy; /* Step 2 */ 
5 *x = *x ^% *y; /* Step 3 */ 
6 


As the name implies, we claim that the effect of this procedure is to swap the values stored at the 
locations denoted by pointer variables x and y. Note that unlike the usual technique for swapping two 
values, we do not need a third location to temporarily store one value while we are moving the other. 
There is no performance advantage to this way of swapping. It is merely an intellectual amusement. 


Starting with values a and b in the locations pointed to by x and y, respectively, fill in the following table 
giving the values stored at the two locations after each step of the procedure. Use the ring properties to 
show that the desired effect is achieved. Recall that every element is its own additive inverse, that is, 
a“~a=0. 


miiy | a foo | 


Csa | 
Cso ll | 
Cse | S 


One common use of bit-level operations is to implement masking operations, where a mask is a bit pattern 
that indicates a selected set of bits within a word. As an example, the mask 0xFF (having 1s for the least 
significant eight bits) indicates the low-order byte of a word. The bit-level operation x & OxFF yields a 
value consisting of the least significant byte of x, but with all other bytes set to 0. For example, with x = 
0x8 9ABCDEF, the expression would yield 0x000000EF. The expression ~ 0 will yield a mask of all Is, 
regardless of the word size of the machine. Although the same mask can be written OxFFFFFFFF for a 
32-bit machine, such code is not as portable. 


Practice Problem 2.7: 


Write C expressions for the following values, with the results for x = 0x98FDECBA and a 32-bit word 
size shown in square brackets: 


A. The least significant byte of x, with all other bits set to 1 [OXFFFFFFBA]. 
B. The complement of the least significant byte of x, with all other bytes left unchanged [0x98FDEC45]. 


C. All but the least significant byte of x, with the least significant byte set to 0 [0x98FDECOO]. 


Although our examples assume a 32-bit word size, your code should work for any word size w > 8. 


Practice Problem 2.8: 


The Digital Equipment VAX computer was a very popular machine from the late 1970s until the late 
1980s. Rather than instructions for Boolean operations AND and OR, it had instructions bis (bit set) 
and bic (bit clear). Both instructions take a data word x and a mask word m. They generate a result 
z consisting of the bits of x modified according to the bits of m. With bis, the modification involves 
setting z to 1 at each bit position where m is 1. With bic, the modification involves setting z to 0 at 
each bit position where m is 1. 


We would like to write C functions bis and bic to compute the effect of these two instructions. Fill in 
the missing expressions in the code below using the bit-level operations of C. 
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/* Bit Set */ 

int bis(int x, int m) 

{ 
/* Write an expression in C that computes the effect of bit set */ 
int result = —} 
return result; 


/* Bit Clear */ 

int bic(int x, int m) 

{ 
/* Write an expression in C that computes the effect of bit set */ 
int result = —} 
return result; 


2.1.9 Logical Operations in C 


C also provides a set of logical operators | | ， &&, and !, which correspond to the OR, AND, and NOT 
operations of propositional logic. These can easily be confused with the bit-level operations, but their 
function is quite different. The logical operations treat any nonzero argument as representing TRUE and 
argument 0 as representing FALSE. They return either 1 or 0 indicating a result of either TRUE or FALSE, 
respectively. Here are some example expression evaluations: 


10x41 
10x00 


110x41 
0x69 && 0x55 
0x69 || 0x55 


Observe that a bit-wise operation will have behavior matching that of its logical counterpart only in the 
special case where the arguments are restricted to be either 0 or 1. 


A second important distinction between the logical operators && and | |, versus their bit-level counterparts 
& and | is that the logical operators do not evaluate their second argument if the result of the expression 
can be determined by evaluating the first argument. Thus, for example, the expression a && 5/a will 
never cause a division by zero, and the expression p && *p++ will never cause the dereferencing of a null 
pointer. 


Practice Problem 2.9: 


Suppose that x and y have byte values 0x66 and 0x93, respectively. Fill in the following table indicat- 
ing the byte values of the different C expressions 


40 CHAPTER 2. REPRESENTING AND MANIPULATING INFORMATION 


[Expression | Value [Expression | Value] 
Pxey | [rey] | 


Pp xiv | ot x ily | | 
x Ty] tx TT ty 


Practice Problem 2.10: 


Using only bit-level and logical operations, write a C expression that is equivalent to x == y. That is, 
it will return 1 when x and y are equal and 0 otherwise. 


2.1.10 Shift Operations in C 


C also provides a set of shift operations for shifting bit patterns to the left and to the right. For an operand 
x having bit representation [zxn_1, Zn—2,.--, zo], the C expression x << k yields a value with bit repre- 
sentation [£n-k—1; Zn—k—-2,---,L0,0,... 0]. That is, x is shifted k bits to the left, dropping off the k most 
significant bits and filling the left end with k Os. The shift amount should be a value between 0 and n — 1. 
Shift operations group from left to right, sox << j << kis equivalent to (x << j) << k. Be careful 
about operator precedence: 1<<5 - 1 is evaluatedas 1 << (5-1),notas (1<<5) - 1. 


There is a corresponding right shift operation x >> k, but it has a slightly subtle behavior. Generally, 
machines support two forms of right shift: logical and arithmetic. A logical right shift fills the left end 
with k Os, giving a result [0,...,0,¢%p-1,%n—2,.-.2,]. An arithmetic right shift fills the left end with k 
repetitions of the most significant bit, giving a result [£n—1, . ,Zn 1, Tn 1 Ln—2,--- £k]. This convention 
might seem peculiar, but as we will see it is useful for operating on signed integer data. 


The C standard does not precisely define which type of right shift should be used. For unsigned data (i.e., 
integral objects declared with the qualifier unsigned), right shifts must be logical. For signed data (the 
default), either arithmetic or logical shifts may be used. This unfortunately means that any code assuming 
one form or the other will potentially encounter portability problems. In practice, however, almost all 
compiler/machine combinations use arithmetic right shifts for signed data, and many programmers assume 
this to be the case. 


Practice Problem 2.11: 


Fill in the table below showing the effects of the different shift operations on single-byte quantities. 
Write each answer as two hexadecimal digits. 


x << 3] x >> 2 x >> 2 
(Logical) —_— 


oo | 


人 
O00 
lox55| | | | 
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C Declaration Typical 32-08 


char Be 127 R 127 
unsigned char 259 255 


short [int] —32, Tr 32,767 —32, Ts 32,767 

int —32,767 32,167 | ~2,147,483,648 | 2,147,483,647 
Se a et E 

long [int] —2,147,483,647 | 2,147,483,647 | —2,147,483, a 2, 147, 483, 647 


Figure 2.8: C Integral Data types. Text in square brackets is optional. 


2.2 Integer Representations 


In this section we describe two different ways bits can be used to encode integers—one that can only rep- 
resent nonnegative numbers, and one that can represent negative, zero, and positive numbers. We will see 
later that they are strongly related both in their mathematical properties and their machine-level implemen- 
tations. We also investigate the effect of expanding or shrinking an encoded integer to fit a representation 
with a different length. 


2.2.1 Integral Data Types 


C supports a variety of integral data types—ones that represent a finite range of integers. These are shown 
in Figure 2.8. Each type has a size designator: char, short, int, and long, as well as an indication of 
whether the represented number is nonnegative (declared as unsigned), or possibly negative (the default). 
The typical allocations for these different sizes were given in Figure 2.2. As indicated in Figure 2.8, these 
different sizes allow different ranges of values to be represented. The C standard defines a minimum range of 
values each data type must be able to represent. As shown in the figure, a typical 32-bit machine uses a 32-bit 
representation for data types int and unsigned, even though the C standard allows 16-bit representations. 
As described in Figure 2.2, the Compaq Alpha uses a 64-bit word to represent long integers, giving an 
upper limit of over 1.84 x 101° for unsigned values, and a range of over +9.22 x 1018 for signed values. 


New to C? 
Both C and C++ support signed (the default) and unsigned numbers. Java supports only signed numbers. End 


2.2.2 Unsigned and Two’s Complement Encodings 


Assume we have an integer data type of w bits. We write a bit vector as either g, to denote the entire vector, 
or as [Zw_1, Lw—2,---, zo] to denote the individual bits within the vector. Treating 7 as a number written 
in binary notation, we obtain the unsigned interpretation of Z. We express this interpretation as a function 
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Word Size w 


Figure 2.9: “Interesting” Numbers. Both numeric values and hexadecimal representations are shown. 
B2U „ (for “binary to unsigned,” length w): 


w-1 
BU, (2) = 》 ae (2.1) 
1=0 


oo 99 


(In this equation, the notation “=” means that the left hand side is defined to equal to the right hand side). 
That is, function B2U,, maps length w strings of Os and 1s to nonnegative integers. The least value is 
given by bit vector [00---0] having integer value 0, and the greatest value is given by bit vector [11--- 1] 
having integer value UMaz,, = yy 2' = 2” — 1. Thus, the function B2U,,, can be defined as a mapping 
B2U y:{0,1}” — {0,...,2” — 1}. Note that B2U , is a bijection—it associates a unique value to each bit 
vector of length w, and conversely each integer between 0 and 2” — 1 has a unique binary representation as 


a bit vector of length w. 


For many applications, we wish to represent negative values as well. The most common computer repre- 
sentation of signed numbers is known as two’s complement form. This is defined by interpreting the most 
significant bit of the word to have negative weight. We express this interpretation as a function BZT (for 
“binary to two’s complement” length w): 


w—-2 
BIG) Sty + ye (2.2) 
i=0 


The most significant bit is also called the sign bit. When set to 1, the represented value is negative, and 
when set to 0 the value is nonnegative. The least representable value is given by bit vector [10--- 0] (i.e., 


set the bit with negative weight but clear all others) having integer value TMin,, = —2”~'. The greatest 
value is given by bit vector [01 --- 1], having integer value TMazw = PUp 2' = 2071 — 1. Again, one 
can see that B2T,, is a bijection B2T: {0,1}” > {-2%-1,..., 2%! — 1}, associating a unique integer 


in the representable range for each bit pattern. 


Figure 2.9 shows the bit patterns and numeric values for several “interesting” numbers for different word 
sizes. The first three give the ranges of representable integers. A few points are worth highlighting. First, the 
two’s complement range is asymmetric: | TMiny| = | TMax,| + 1, that is, there is no positive counterpart 
to TMin,. As we shall see, this leads to some peculiar properties of two’s complement arithmetic and can 
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be the source of subtle program bugs. Second, the maximum unsigned value is nearly twice the maximum 
two’s complement value: UMaz, = 2TMazy, + 1. This follows from the fact that two’s complement 
notation reserves half of the bit patterns to represent negative values. The other cases are the constants —1 
and 0. Note that —1 has the same bit representation as UMaz,—a string of all 1s. Numeric value 0 is 
represented as a string of all Os in both representations. 


The C standard does not require signed integers to be represented in two’s complement form, but nearly all 
machines do so. To keep code portable, one should not assume any particular range of representable values 
or how they are represented, beyond the ranges indicated in Figure 2.2. The C library file <limits.h> 
defines a set of constants delimiting the ranges of the different integer data types for the particular machine 
on which the compiler is running. For example, it defines constants INT_MAX, INT_MIN, and UINT_MAX 
describing the ranges of signed and unsigned integers. For a two’s complement machine where data type 
int has w bits, these constants correspond to the values of TMaz,,, TMin,, and UMazy. 


Practice Problem 2.12: 


Assuming w = 4, we can assign a numeric value to each possible hex digit, assuming either an unsigned 
or two’s complement interpretation. Fill in the following table according to these interpretations 


Aside: Alternative represenations of signed numbers 
There are two other standard representations for signed numbers: 


One’s Complement: Same as two’s complement, except that the most significant bit has weight —(2”~ — 1) 
rather than —2”~?: 


w-2 


B20y(@) = -zwi(2 = 1) + vi 
i=0 


Sign-Magnitude: The most significant bit is a sign bit that determines whether the remaining bits should 
be given negative or positive weight: 


B28(#) = care ($a) 


Both of these representations have the curious property that there are two different encodings of the number 0. For 
both representations, [00 - - - 0] is interpreted as +0. The value 一 0 can be represented in sign-magnitude as [10 - - - 0] 
and in one’s complement as [11---1]. Although machines based on one’s complement representations were built 
in the past, almost all modern machines use two’s complement. We will see that sign-magnitude encoding is used 
with floating-point numbers. End Aside. 


As an example, consider the following code: 
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Weight _ 345 一 12， 345 53, 191 


1 
0 
0 
1 
1 
1 
0 
0 
0 
0 
0 
0 
1 
1 
0 
0 


PPPOOPPPPPPPOOOPP 
PPPOOPPPPPPOOOPP 


12, = —12, 345 33, 191 


Figure 2.10: Two’s Complement Representations of 12,345 and —12,345, and Unsigned Representation 
of 53,191. Note that the latter two have identical bit representations. 


2.2. INTEGER REPRESENTATIONS 45 


short int x = 12345; 
short int mx = -x; 


show_bytes((byte_pointer) &x, sizeof(short int)); 
show_bytes((byte_pointer) &mx, sizeof(short int)); 


a be WN BF 


When run on a big-endian machine, this code prints 30 39 and cf c7, indicating that x has hexadecimal 
representation 0x3039, while mx has hexadecimal representation 0xCFC7. Expanding these into binary 
we get bit patterns [0011000000111001] for x and [1100111111000111] for mx. As Figure 2.10 shows, 
Equation 2.2 yields values 12,345 and —12,345 for these two bit patterns. 


2.2.3 Conversions Between Signed and Unsigned 


Since both B2U „ and B2T „ are bijections, they have well-defined inverses. Define U2B,, to be B2U TE 
and T2B,, to be B2T, 1. These functions give the unsigned or two’s complement bit patterns for a numeric 
value. Given an integer x in the range 0 < x < 2”, the function U2B,,(x) gives the unique w-bit unsigned 
representation of x. Similarly, when is in the range —2"—! < x < 2071, the function T2B,,(«) gives the 
unique w-bit two’s complement representation of x. Observe that for values in the range 0 < x < 2¥71, 
both of these functions will yield the same bit representation—the most significant bit will be 0, and hence 
it does not matter whether this bit has positive or negative weight. 


Consider the following function: U2T (xz) = B2T »(U2By(«)). This function takes a number between 0 
and 2”—! — 1 and yields a number between —2”—! and 2”~! — 1, where the two numbers have identical bit 
representations, except that the argument is unsigned, while the result has a two’s complement representa- 
tion. Conversely, the function T2U (x) = B2U,(T2B(«)) yields the unsigned number having the same 
bit representation as the two’s complement value of x. For example, as Figure 2.10 indicates, the 16-bit, 
two’s complement representation of —12,345 is identical to the 16-bit, unsigned representation of 53,191. 
Therefore T2U16(—12, 345) = 53,191, and U2T16(53, 191) = —12, 345. 


These two functions might seem purely of academic interest, but they actually have great practical impor- 
tance. They formally define the effect of casting between signed and unsigned values in C. For example, 
consider executing the following code on a two’s complement machine: 


pa 


int x = -1; 
unsigned ux = (unsigned) x; 


N 


This code will set ux to UMazw, where w is the number of bits in data type int, since by Figure 2.9 we 
can see that the w-bit two’s complement representation of —1 has the same bit representation as UMaz,,. In 
general, casting from a signed value x to unsigned value (unsigned) x is equivalent to applying function 
T2U. The cast does not change the bit representation of the argument, just how these bits are interpreted 
as a number. Similarly, casting from unsigned value u to signed value (int) u is equivalent to applying 
function U2T. 


Practice Problem 2.13: 


Using the table you filled in when solving Problem 2.12, fill in the following table describing the function 
T2 Ua: 
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aw 
+21 2w1 Unsigned 
Two's 
Complement 0 0 


—2w-1 


Figure 2.11: Conversion From Two’s Complement to Unsigned. Function T2U converts negative 
numbers to large positive numbers. 


To get a better understanding of the relation between a signed number x and its unsigned counterpart 
T2U (x), we can use the fact that they have identical bit representations to derive a numerical rela- 
tionship. Comparing Equations 2.1 and 2.2, we can see that for bit pattern z, if we compute the differ- 
ence B2U„ (Z) — B2T„ (7), the weighted sums for bits from 0 to w — 2 will cancel each other, leav- 
ing a value: B2U,,(Z) — B2Ty(#) = ty—1(2¥-! — —2%-1) = ay_12”. This gives a relationship 
B2U y(Z) = zw_12 + BET _.(Z). If we let x = B2T,(Z), we then have 


BQU,(T2By(2)) = T2U y(t) = Tu-122 +2 (2.3) 


This relationship is useful for proving relationships between unsigned and two’s complement arithmetic. In 
the two’s complement representation of x, bit Zuw-1 determines whether or not x is negative, giving 


72Uuw(z) = 


w 
i z<0 (2.4) 


T, zr>0 


Figure 2.11 illustrates the behavior of function T2U. As it illustrates, when mapping a signed number 
to its unsigned counterpart, negative numbers are converted to large positive numbers, while nonnegative 
numbers remain unchanged. 


Practice Problem 2.14: 


Explain how Equation 2.4 applies to the entries in the table you generated when solving Problem 2.13. 


Going in the other direction, we wish to derive the relationship between an unsigned number x and its signed 
counterpart U2T (x). If we let r = B2U„ (z), we have 


B2Tœ(U2By(&)) = C2 gle) = —tyai2" +2 (2.5) 
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aw +2W1 
Unsigned 
nsigne Two's 
0 0 Complement 
一 2w-1 


Figure 2.12: Conversion From Unsigned to Two’s Complement. Function U2T converts numbers 
greater than 2“—! — 1 to negative values. 


In the unsigned representation of x, bit zw_l determines whether or not x is greater than or equal to 2”, 
giving 


x, g < 2071 
UPT la). = | a ee (2.6) 


This behavior is illustrated in Figure 2.12. For small (< 2”~') numbers, the conversion from unsigned to 
signed preserves the numeric value. For large (> 2”~') the number is converted to a negative value. 


To summarize, we can consider the effects of converting in both directions between unsigned and two’s 
complement representations. For values in the range 0 < x < 2%-! we have T2U,,(x) = «x and 
U2T (x) = x. That is, numbers in this range have identical unsigned and two’s complement represen- 
tations. For values outside of this range, the conversions either add or subtract 2”. For example, we have 
T2U y(—1) = —14+2” = UMaz,—1the negative number closest to 0 maps to the largest unsigned number. 
At the other extreme, one can see that T2U,,(TMiny) = —2¥-' +2” = 20-1 = TMaz, + 1—the most 
negative number maps to an unsigned number just outside the range of positive, two’s complement numbers. 
Using the example of Figure 2.10, we can see that T2U 1¢(—12, 345) = 65,536 + —12, 345 = 53,191. 


2.2.4 Signed vs. Unsigned in C 


As indicated in Figure 2.8, C supports both signed and unsigned arithmetic for all of its integer data types. 
Although the C standard does not specify a particular representation of signed numbers, almost all machines 
use two’s complement. Generally, most numbers are signed by default. For example, when declaring a 
constant such as 12345 or 0x1A2B, the value is considered signed. To create an unsigned constant, the 
character ‘U’ or ‘u’ must be added as suffix, e.g., 12345U or Ox1A2Bu. 


C allows conversion between unsigned and signed. The rule is that the underlying bit representation is not 
changed. Thus, on a two’s complement machine, the effect is to apply the function U2T œ when converting 
from unsigned to signed, and T2U, when converting from signed to unsigned, where w is the number of 
bits for the data type. 


Conversions can happen due to explicit casting, such as in the code: 


1 Int Ex, ty; 
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2 unsigned ux, uy; 

3 

4 tx = (int) ux; 

5 uy = (unsigned) ty; 


or implicitly when an expression of one type is assigned to a variable of another, as in the code: 


int tx, ty; 
unsigned ux, uy; 


tx = ux; /* Cast to signed */ 
uy = ty; /* Cast to unsigned */ 


OB WN FB 


When printing numeric values with print f, the directives $d, Su, and $x should be used to print a number 
as a signed decimal, an unsigned decimal, and in hexadecimal format, respectively. Note that printf does 
not make use of any type information, and so it is possible to print a value of type int with directive Su 
and a value of type unsigned with directive 3d. For example, consider the following code: 


i int x = -1; 

2 unsigned u = 2147483648; /* 2 to the 31st */ 
3 

4 printf ("x = Su = %d\n", x, x); 

5 printf ("u = %u = %d\n", u, u); 


When run on a 32-bit machine it prints the following: 


x = 4294967295 = -1 
u = 2147483648 -2147483648 


In both cases, printf prints the word first as if it represented an unsigned number and second as if it 
represented a signed number. We can see the conversion routines in action: T2U32(—1) = UMar32 = 
4,294, 967,295 and U2T32(231) = 23t — 232 = 一 231 — TMinsə. 


Some peculiar behavior arises due to C’s handling of expressions containing combinations of signed and 
unsigned quantities. When an operation is performed where one operand is signed and the other is unsigned, 
C implicitly casts the signed argument to unsigned and performs the operations assuming the numbers are 
nonnegative. As we will see, this convention makes little difference for standard arithmetic operations, but 
it leads to nonintuitive results for relational operators such as < and >. Figure 2.13 shows some sample 
relational expressions and their resulting evaluations, assuming a 32-bit machine using two’s complement 
representation. The nonintuitive cases are marked by ‘*’. Consider the comparison -1 < OU. Since the 
second operand is unsigned, the first one is implicitly cast to unsigned, and hence the expression is equivalent 
to the comparison 4294967295U < OU (recall that T2U,,(—1) = UMaz,,), which of course is false. 
The other cases can be understood by similar analyses. 
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Expression 
unsigned | 1 
signed 1 
unsigned 
2147483647 > -2147483648 signed 


2147483647U > -2147483648 unsigned 
2147483647 > (int) 2147483648U | signed 
-1 > -2 signed 
(unsigned) -1 > -2 unsigned 


Figure 2.13: Effects of C Promotion Rules on 32-Bit Machine. Nonintuitive cases marked by ‘**’. When 
either operand of a comparison is unsigned, the other operand is implicitly cast to unsigned. 


2.2.5 Expanding the Bit Representation of a Number 


One common operation is to convert between integers having different word sizes, while retaining the same 
numeric value. Of course, this may not be possible when the destination data type is too small to represent 
the desired value. Converting from a smaller to a larger data type, however, should always be possible. To 
convert an unsigned number to a larger data type, we can simply add leading Os to the representation. this 
operation is known as zero extension. For converting a two’s complement number to a larger data type, the 
tule is to perform a sign extension, adding copies of the most significant bit to the representation. Thus, 
if our original value has bit representation [7 1, Z»—2,-.-,Zo], the expanded representation would be 
ETET .. -3 Ly—1, Tw—1; Tw—2;5->- , £o]. 


As an example, consider the following code: 


1 short sx = val; /* -12345 */ 

2 unsigned short usx = sx; /* 53191 */ 

3 int xX = Sx} /* -12345 */ 

4 unsigned ux = usx; /* 53191 */ 

5 

6 printf ("sx = Sd:\t", sx); 

7 show_bytes((byte_pointer) &sx, sizeof(short)); 

8 printf ("usx = Su:\t", usx); 

9 show_bytes((byte_pointer) &usx, sizeof(unsigned short) ); 
10 printf ("x = $d:\t", x); 

11 show_bytes((byte_pointer) &x, sizeof(int)); 

12 printf ("ux = %Su:\t", ux); 

13 show_bytes((byte_pointer) &ux, sizeof (unsigned) ); 


When run on a 32-bit, big-endian machine using two’s complement representations this code prints: 


sx = -12345: cf c7 
usx = 53191: cf c7 
x = -12345: ff ff cf c7 


ux = 53191: 00 00 cf c7 
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We see that although the two’s complement representation of —12,345 and the unsigned representation of 
53,191 are identical for a 16-bit word size, they differ for a 32-bit word size. In particular, —12,345 has 
hexadecimal representation OxFFFFCFC7, while 53,191 has hexadecimal representation 0x0000CFC7. 
The former has been sign-extended—16 copies of the most significant bit 1, having hexadecimal represen- 
tation OxFFFF, have been added as leading bits. The latter has been extended with 16 leading Os, having 
hexadecimal representation 0x0000. 


Can we justify that sign extension works? What we want to prove is that 


B2Tw4k([£w-1, YU 一 1 一 1 Tw—2;. ， , Z0]) = B2T w ([£w-1, 化 山 一 2 ， , £o]) 


where in the expression on the left-hand side, we have made k additional copies of bit Zuw . The proof 
follows by induction on k. That is, if we can prove that sign-extending by one bit preserves the numeric 
value, then this property will hold when sign-extending by an arbitrary number of bits. Thus, the task 
reduces to proving that 


BET pial tig 1; Tw—-1, Tw 2,...,7T0]) = BET u ([|£w—1,; £w-2;. . 08) 


Expanding the left-hand expression with Equation 2.2 gives 


w-1 
BET ai [Bw 1; Tw—-1,%w densa |) = —Ly—12” a >》 a2 
1=0 


w—2 
= —Twy-12” + ae i + 5 142" 
2 一 0 


也 一 2 
= 一 Zuo-1(22 — 271) + YE 2,2! 
2 一 0 


w—2 ; 
= -zw 12 + Yo 2,2" 
2 一 0 
一 BoE ol tai; Lw—2;. . ,20]) 


The key property we exploit is that —2” + 2¥-! = —2”—!. Thus, the combined effect of adding a bit of 
weight —2” and of converting the bit having weight —2”—! to be one with weight 2”~! is to preserve the 
original numeric value. 


One point worth making is that the relative order of conversion from one data size to another and between 
unsigned and signed can affect the behavior of a program. Consider the following additional code for our 
previous example: 


1 unsigned uy = x; /* Mystery! */ 

2 

3 printf("uy = Su:\t", uy); 

4 show_bytes((byte_pointer) &uy, sizeof (unsigned) ); 
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This portion of the code causes the following to be printed: 
uy = 4294954951: ff ff cf c7 


This shows that the expressions: 


(unsigned) (int) sx /* 4294954951 */ 
and 
(unsigned) (unsigned short) sx /* 53191 */ 


produce different values, even though the original and the final data types are the same. In the former 
expression, we first sign extend the 16-bit short to a 32-bit int, whereas zero extension is performed in 
the latter expression. 


2.2.6 Truncating Numbers 


Suppose that rather than extending a value with extra bits, we reduce the number of bits representing a 
number. This occurs, for example, in the code: 


1 int x = 53191; 
2 short sx = (short) x; /* -12345 */ 
3 int y = sx; /* -12345 */ 


On a typical 32-bit machine, when we cast x to be short, we truncate the 32-bit int to be a 16-bit 
short int. As we saw before, this 16-bit pattern is the two’s complement representation of —12,345. 
When we cast this back to int, sign extension will set the high-order 16 bits to 1s, yielding the 32-bit two’s 
complement representation of —12,345. 


When truncating a w-bit number 2 = [zw_1, Zw—2,.--, Xo] to a k-bit number, we drop the high-order w — k 
bits, giving a bit vector Z = [xp_1, Tk 2,..., 20]. Truncating a number can alter its value—a form of 
overflow. We now investigate what numeric value will result. For an unsigned number z, the result of 
truncating it to k bits is equivalent to computing x mod 2". This can be seen by applying the modulus 
operation to Equation 2.1: 


w—1 
B2U y([tw, 化 一 1 ,2Z0]) mod = | na mod of 
| na mod 24 


= r2 
i=0 
= B2U 4 (|p, Tk-1,..., £0]) 
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In the above derivation we make use of the property that 2’ mod 2" = 0 for any i > k, and that aay Xi2’ < 
Ye So ae 

For a two’s complement number z, a similar argument shows that B27 ([zw, Tw_1,...,X0]) mod 2% = 
B2U,([xg, 2p—1,---;£0]). That is, 2 mod 2% can be represented by an unsigned number having bit-level 
representation |[7,_1,...,o]. In general, however, we treat the truncated number as being signed. This will 
have numeric value U2T (x mod 2*). 


Summarizing, the effects of truncation are: 


BOU glee ZL;Z0]) B2U pl Py zwo-1 ,zol) mod gk (2.7) 
B2Tk([Ek,£k-1;,---;,£0]) = U2Tk(B2Tu([|£w,; £w-1,.--,z0]) mod oF (2.8) 


Practice Problem 2.15: 


Suppose we truncate a four-bit value (represented by hex digits 0 through F) to a three-bit value (repre- 
sented as hex digits 0 through 7). Fill in the table below showing the effect of this truncation for some 
cases, in terms of the unsigned and two’s complement interpretations of those bit patterns. 


Hex Two's Complement 


Explain how Equations 2.7 and 2.8 apply to these cases. 


2.2.7 Advice on Signed vs. Unsigned 


As we have seen, the implicit casting of signed to unsigned leads to some nonintuitive behavior. Nonintuitive 
features often lead to program bugs, and ones involving the nuances of implicit casting can be especially 
difficult to see. Since the casting is invisible, we can often overlook its effects. 


Practice Problem 2.16: 


Consider the following code that attempts to sum the elements of an array a, where the number of 
elements is given by parameter length: 


1 /* WARNING: This is buggy code */ 

2 float sum_elements(float a[], unsigned length) 
3: 4 

GE. ae 

float result = 0; 


for (i = 0; i <= length-1; i++) 
result += a[i]; 
return result; 


Oo OA HD A 
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When run with argument length equal to 0, this code should return 0.0. Instead it encounters a memory 
error. Explain why this happens. Show how this code can be corrected. 


One way to avoid such bugs is to never use unsigned numbers. In fact, few languages other than C support 
unsigned integers. Apparently these other language designers viewed them as more trouble than they are 
worth. For example, Java supports only signed integers, and it requires that they be implemented with two’s 
complement arithmetic. The normal right shift operator >> is guaranteed to perform an arithmetic shift. 
The special operator >>> is defined to perform a logical right shift. 


Unsigned values are very useful when we want to think of words as just collections of bits with no nu- 
meric interpretation. This occurs, for example, when packing a word with flags describing various Boolean 
conditions. Addresses are naturally unsigned, so systems programmers find unsigned types to be helpful. 
Unsigned values are also useful when implementing mathematical packages for modular arithmetic and for 
multiprecision arithmetic, in which numbers are represented by arrays of words. 


2.3 Integer Arithmetic 


Many beginning programmers are surprised to find that adding two positive numbers can yield a negative 
result, and that the comparison x < y can yield a different result than the comparison x-y < 0. These 
properties are artifacts of the finite nature of computer arithmetic. Understanding the nuances of computer 
arithmetic can help programmers write more reliable code. 


2.3.1 Unsigned Addition 


Consider two nonnegative integers x and y, such that 0 < x,y < 2” — 1. Each of these numbers can 
be represented by w-bit unsigned numbers. If we compute their sum, however, we have a possible range 
0<a+y < 2”+!_2. Representing this sum could require w+1 bits. For example, Figure 2.14 shows a plot 
of the function x + y when x and y have four-bit representations. The arguments (shown on the horizontal 
axes) range from 0 to 15, but the sum ranges from 0 to 30. The shape of the function is a sloping plane. If 
we were to maintain the sum as a w + 1 bit number and add it to another value, we may require w + 2 bits, 
and so on. This continued “word size inflation” means we cannot place any bound on the word size required 
to fully represent the results of arithmetic operations. Some programming languages, such as Lisp, actually 
support infinite precision arithmetic to allow arbitrary (within the memory limits of the machine, of course) 
integer arithmetic. More commonly, programming languages support fixed-precision arithmetic, and hence 
operations such as “addition” and “multiplication” differ from their counterpart operations over integers. 


Unsigned arithmetic can be viewed as a form of modular arithmetic. Unsigned addition is equivalent to 
computing the sum modulo 2”. This value can be computed by simply discarding the high-order bit in the 
w + 1-bit representation of x + y. For example, consider a four-bit number representation with x = 9 
and y = 12, having bit representations [1001] and [1100], respectively. Their sum is 21, having a 5-bit 
representation [10101]. But if we discard the high-order bit, we get [0101], that is, decimal value 5. This 
matches the value 21 mod 16 = 5. 


In general, we can see that if x+y < 2”, the leading bit in the w + 1-bit representation of the sum will equal 
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Integer Addition 


Figure 2.14: Integer Addition. With a four-bit word size, the sum could require 5 bits. 


2wr1 


Overflow 


x +4 y 


| 


Figure 2.15: Relation Between Integer Addition and Unsigned Addition. When x + y is greater than 
2” — 1, the sum overflows. 


aw 
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Unsigned Addition (4-bit word) 


Figure 2.16: Unsigned Addition. With a four-bit word size, addition is performed modulo 16. 


0, and hence discarding it will not change the numeric value. On the other hand, if 2” < x +y < 2”*', the 
leading bit in the w + 1-bit representation of the sum will equal 1, and hence discarding it is equivalent to 
subtracting 2” from the sum. These two cases are illustrated in Figure 2.15. This will give us a value in the 
range 0 < z +y — 2” < Qut! — 2w = 2”, which is precisely the modulo 2” sum of z and y. Let us define 
the operation +, for arguments x and y such that 0 < x,y < 2” as: 


uy, = J THY ary <2 
-0 poe 2” <aty <Q a 


This is precisely the result we get in C when performing addition on two w-bit unsigned values. 


An arithmetic operation is said to overflow when the full integer result cannot fit within the word size limits 
of the data type. As Equation 2.9 indicates, overflow occurs when the two operands sum to 2" or more. 
Figure 2.16 shows a plot of the unsigned addition function for word size w = 4. The sum is computed 
modulo 24 = 16. When x + y < 16, there is no overflow, and x +', y is simply x + y. This is shown as 
the region forming a sloping plane labeled “Normal.” When x + y > 16, the addition overflows, having 
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the effect of decrementing the sum by 16. This is shown as the region forming a sloping plane labeled 
“Overflow.” 


When executing C programs, overflows are not signalled as errors. At times, however, we might wish to 
determine whether overflow has occurred. For example, suppose we compute s = x +, y, and we wish to 
determine whether s equals x +y. We claim that overflow has occurred if and only if s < x (or equivalently 
s < y.) To see this, observe that x + y > x, and hence if s did not overflow, we will surely have s > zx. 
On the other hand, if s did overflow, we have s = x + y — 2”. Given that y < 2”, we have y — 2” < 0, 
and hence s = x+y — 2” < zx. In our earlier example, we saw that 9 +4 12 = 5. We can see that overflow 
occurred, since 5 < 9. 


Modular addition forms a mathematical structure known as an Abelian group, named after the Danish math- 
ematician Niels Henrik Abel (1802-1829). That is, it is commutative (that’s where the “Abelian” part 
comes in) and associative. It has an identity element 0, and every element has an additive inverse. Let us 
consider the set of w-bit unsigned numbers with addition operation +. For every value x, there must 
be some value -x such that -p £ +), £ = 0. When x = 0, the additive inverse is clearly 0. For 
x > 0, consider the value 2“ — x. Observe that this number is in the range 0 < 2” — x < 2”, and 
(x + 2” — x) mod 2” = 2” mod 2” = 0. Hence it is the inverse of x under +},. These two cases lead to 
the following equation for 0 < x < 2”: 


5 = E (2.10) 


Practice Problem 2.17: 


We can represent a bit pattern of length w = 4 with a single hex digit. For an unsigned interpretation of 
these digits use Equation 2.10 fill in the following table giving the values and the bit representations (in 
hex) of the unsigned additive inverses of the digits shown. 


x 


2.3.2 Two’s Complement Addition 


A similar problem arises for two’s complement addition. Given integer values z and y in the range —2”—! < 
X,Y < 2¥—! — 1, their sum is in the range —-2Y < x+y < 2” — 2, potentially requiring w + 1 bits to 
represent exactly. As before, we avoid ever-expanding data sizes by truncating the representation to w bits. 
The result is not as familiar mathematically as modular addition, however. 


The w-bit two’s complement sum of two numbers has the exact same bit-level representation as the un- 
signed sum. In fact, most computers use the same machine instruction to perform either unsigned or signed 
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x+y 

+2" T positive Overtlow 
Case 4 x+y 

+2W-1 =») +2w-1 
Case 3 | 

0 0 
Case2 | 

—2w-1 —2w-1 
Case 1 

ow Negative Overflow 


Figure 2.17: Relation Between Integer and Two’s Complement Addition. When zx + y is less than 
—2v—! there is a negative overflow. When it is greater than 22-1 + 1, there is a positive overflow. 


addition. Thus, we can define two’s complement addition for word size w, denoted as +,, on operands x 
and y such that —2Y-! < z, y < 271 as 
zt,y = U2Tu(T2U„(£)+y T2Uw(y)) (2.11) 


By Equation 2.3 we can write T2U„ (£) as tw—12” + z, and T2U wœ (y) as yw_12 +y. Using the property 
that +w is simply addition modulo 2”, along with the properties of modular addition, we then have 


U2T,(T2U le) +, T2Uw(y)) 
= U2Ty|(—ty—12” +£ + —Yw—12" +y) mod 2”] 
U2T »|(z +y) mod 2”] 


t 
2 tyy 


The terms Zuw-122 and y,—12” drop out since they equal 0 modulo 2%. 


To better understand this quantity, let us define z as the integer sum z = gz +y, 2 as 2! = z mod 2”, and z” 
as z” = U2T,(z'). The value z” is equal to x +',, y. We can divide the analysis into four cases as illustrated 
in Figure 2.17: 


1. —2" < z < —2”-!. Then we will have z’ = z + 2”. This gives 0 < 2’ < age! oe gat 
Examining Equation 2.6, we see that z’ is in the range such that z” = z’. This case is referred to as 
negative overflow. We have added two negative numbers x and y (that’s the only way we can have 
z < —27!) and obtained a nonnegative result z” = x + y+ 2”. 


2. —2¥-! < z < 0. Then we will again have z’ = z + 2”, giving —2¥-1 + 24 = QU-1 < z! < 2Y, 
Examining Equation 2.6, we see that z’ is in such a range that z” = z’ — 2”, and therefore z” = 
zi — 2” = z +2” — 2” = z. That is, our two’s complement sum z” equals the integer sum x + y. 


3. 0 < z < 2X71, Then we will have z’ = z, giving 0 < z’ < 2”~!, and hence z” = z’ = z. Again, the 
two’s complement sum z” equals the integer sum x + y. 
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Figure 2.18: Two’s Complement Addition Examples. The bit-level representation of the four-bit two’s 
complement sum can be obtained by performing binary addition of the operands and truncating the result to 
4 bits. 


4. 2¥-1 < z < 2”. We will again have z’ = z, giving 22-1 < z' < 2”. But in this range we have 
z" = z! — 2”, giving z2” = x +y — 2”. This case is referred to as positive overflow. We have added 
two positive numbers x and y (that’s the only way we can have z > 2”~') and obtained a negative 
result z” = g +y — 2”. 


By the preceding analysis, we have shown that when operation +w is applied to values x and y in the range 
yk z rys Qu-l 一 1, we have 


gty—2¥, Wl<g+y Positive Overflow 
gti = u+y, —29-l<a+y<2¥-! Normal (2.12) 
hyo T+y < et Negative Overflow 


As an illustration, Figure 2.18 shows some examples of four-bit two’s complement addition. Each example 
is labeled by the case to which it corresponds in the derivation of Equation 2.12. Note that 24 = 16, and 
hence negative overflow yields a result 16 more than the integer sum, and positive overflow yields a result 
16 less. We include bit-level representations of the operands and the result. Observe that the result can be 
obtained by performing binary addition of the operands and truncating the result to four bits. 


Figure 2.19 illustrates two’s complement addition for word size w = 4. The operands range between —8 
and 7. When x + y < —8, two’s complement addition has a negative underflow, causing the sum to be 
incremented by 16. When —8 < x + y < 8, the addition yields x + y. When x + y > 8, the addition has 
a positive overflow, causing the sum to be decremented by 16. Each of these three ranges forms a sloping 
plane in the figure. 


Equation 2.12 also lets us identify the cases where overflow has occurred. When both x and y are negative, 
but z + y => 0, we have negative overflow. When both x and y are positive, but x + y < 0, we have 
positive overflow. 


Practice Problem 2.18: 
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Two's Complement Addition (4-bit word) 


Figure 2.19: Two’s Complement Addition. With a four-bit word size, addition can have a negative overflow 
when z +y < —8 and a positive overflow when x + y > 8. 
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Fill in the following table in the style of Figure 2.18. Give the integer values of the 5-bit arguments, 
the values of both their integer and two’s complement sums, the bit-level representation of the two’s 
complement sum, and the case from the derivation of Equation 2.12. 


2.3.3 Two’s Complement Negation 


We can see that every number x in the range —2¥-' < x < 27! has an additive inverse under +!, 
as follows. First, for x #4 —2”~', we can see that its additive inverse is simply —x. That is, we have 
一 22-1 < ge < 2V7! and =x tyt = -rte = 0: Fog = —2v-! — TMin,,, on the other hand, 
—a = 2”—! cannot be represented as a w-bit number. We claim that this special value has itself as the 
additive inverse under +!,. The value of —2”+! +! -2”+! is given by the third case of Equation 2.12, since 
—2u-1 4 —2W-1 = _2”. This gives 一 22+1 +1, —2v+! = —2” + 2¥ = 0. From this analysis we can 
define the two’s complement negation operation —', for x in the range —27-! < x < 207! as: 


(2.13) 


he oe eh. r= —9w-1 
=F, y > =o 


Practice Problem 2.19: 


We can represent a bit pattern of length w = 4 with a single hex digit. For a two’s complement in- 
terpretation of these digits, fill in the following table to determine the additive inverses of the digits 
shown. 


x 4T 


What do you observe about the bit patterns generated by two’s complement and unsigned (Problem 2.17) 
negation. 
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A well-known technique for performing two’s complement negation at the bit level is to complement the 
bits and then increment the result. In C, this can be written as ~x + 1. To justify the correctness of this 
technique, observe that for any single bit x;, we have “x; = 1 — zi. Let z be a bit vector of length w 
and x = B2T,(Z) be the two’s complement number it represents. By Equation 2.2, the complemented bit 
vector “Z has numeric value 


w—2 
BT) = —(1—ty—1)2"71 + So (1 — a) 2" 
2 一 0 
w—2 ; w—2 i 
= 1- + 5 | ns Ee + 5 142" 


= [207 ot — 1] — BT 


= lez 


The key simplification in the above derivation is that aay 2' = 28-1 _ 1, It follows that by incrementing 
~Z we obtain —2. 


To increment a number x represented at the bit-level as Z = [£w—1, Zw—2,---, zo], define the operation incr 


as follows. Let k be the position of the rightmost zero, such that 7 is of the form [7 1, Zw—2,---,241,0,1,... 


We then define incr(Z) to be [tw_1, Zw—2,---;2k+41,1,0,...,0]. For the special case where the bit-level 
representation of z is [1,1,..., 1], define incr(z) to be [0,...,0]. To show that incr (z) yields the bit-level 
representation of x +, 1, consider the following cases: 


1. When 7 = [1,1,...,1], we have z = —1. The incremented value incr(Z) = [0,...,0] has numeric 
value 0. 

2. When k = w — 1, i.e., Z = [0,1,...,1], we have x = TMazy. The incremented value incr(Z) = 
[1,0,...,0] has numeric value TMin,,. From Equation 2.12, we can see that TMaz,, +w 1 is one of 


the positive overflow cases, yielding TMiny. 


3. When k < w — 1, i.e., x Æ TMazry and z # —1, we can see that the low-order k + 1 bits of incr (z) 
has numeric value 2", while the low-order k + 1 bits of Z has numeric value ae, 2i = 2% — 1. The 
high-order w — k + 1 bits have matching numeric values. Thus, incr (z) has numeric value x + 1. In 
addition, for x A TMazy, adding 1 to x will not cause an overflow, and hence x +w 1 has numeric 
value x + 1 as well. 


As illustrations, Figure 2.20 shows how complementing and incrementing affect the numeric values of 
several four-bit vectors. 


2.3.4 Unsigned Multiplication 


Integers x and y in the range 0 < x,y < 2” — 1 can be represented as w-bit unsigned numbers, but their 
product x - y can range between 0 and (2” — 1)? = 22" — 2W+1 4.1. This could require as many as 2w bits 
to represent. Instead, unsigned multiplication in C is defined to yield the w-bit value given by the low-order 
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Figure 2.20: Examples of Complementing and Incrementing four-bit numbers. The effect is to compute 
the two’s value negation. 


w bits of the 2w-bit integer product. By Equation 2.7, this can be seen to be equivalent to computing the 


product modulo 2”. Thus, the effect of the w-bit unsigned multiplication operation *} is: 


TY = (sg) mod 2” (2.14) 


It is well known that modular arithmetic forms a ring. We can therefore deduce that unsigned arithmetic 


over w-bit numbers forms a ring ({0,...,2” — 1}, +4,, *4,, -1,, 0,1). 


2.3.5 Two’s Complement Multiplication 


Integers x and y in the range 一 20-1 < x,y < 2¥~-' — 1 can be represented as w-bit two’s complement 
numbers, but their product x + y can range between —2-! . (28W71 — 1) = —27¥-? 4 QU! and —207! . 
—Qv-! = 2?w-2. This could require as many as 2w bits to represent in two’s complement form—most 
cases would fit into 2w — 1 bits, but the special case of 27”? requires the full 2w bits (to include a sign bit 
of 0). Instead, signed multiplication in C is generally performed by truncating the 2w-bit product to w bits. 


By Equation 2.8, the effect of the w-bit two’s complement multiplication operation *},, 


is: 
eg = UlT,((e-y) mod 2”) (2.15) 


We claim that the bit-level representation of the product operation is identical for both unsigned and two’s 
complement multiplication. That is, given bit vectors 7 and 7 of length w, the bit-level representation of the 
unsigned product B2U ,,(Z) *", B2U ~(y) is identical to the bit-level representation of the two’s complement 
product B2T ,(Z) *\,, B2T »(Z). This implies that the machine can use a single type of multiply instruction 
to multiply both signed and unsigned integers. 


To see this, let x = B2T œ (7) and y = B2T,(y) be the two’s complement values denoted by these bit 
patterns, and let x’ = B2U,,(Z) and y = B2U „(Ņ) be the unsigned values. From Equation 2.3, we have 
2 = T + Ly—12”, and y' = y + Yw—12”. Computing the product of these values modulo 2” gives: 


(x-y) mod 2” = [(£ + tw—12") - (y + Yw—12”)] mod 2” (2.16) 
= |z- y+ (Tw y+ Yw—-12)2” + we go | mod 2” (2.17) 
= fey) mod 2” (2.18) 


Thus, the low-order w bits of x - y and x’ - y’ are identical. 
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Unsigned 5 15 [001111 (111 
Two’s Comp. | —3 [101] [011] | —9 [110111] | —1 [111] 


Unsigned 4 [100] [111] | 28 [011100] 4 [100] 
Unsigned 3 [011] [011] [001001] 1 [001] 


Figure 2.21: 3-Bit Unsigned and Two’s Complement Multiplication Examples. Although the bit-level 
representations of the full products may differ, those of the truncated products are identical. 


As illustrations, Figure 2.21 shows the results of multiplying different 3-bit numbers. For each pair of bit- 
level operands, we perform both unsigned and two’s complement multiplication. Note that the unsigned, 
truncated product always equals x-y mod 8, and that the bit-level representations of both truncated products 
are identical. 


Practice Problem 2.20: 


Fill in the following table showing the results of multiplying different 3-bit numbers, in the style of 
Figure 2.21 


Mæ Cd dy | mey | 


Unsigned 
Two’s Comp 


Unsigned 
oo 
ith 
Two’s Comp. [ 


We can see that unsigned arithmetic and two’s complement arithmetic over w-bit numbers are isomorphic— 
the operations +4, ~w, and *», have the exact same effect at the bit level as do +4, ~w, and *;,. From this 


we can deduce that two’s complement arithmetic forms a ring ({—2~1,...,2¥~! — 1}, +!,, *!,,-1,,0, 1). 


2.3.6 Multiplying by Powers of Two 


On most machines, the integer multiply instruction is fairly slow—requiring 12 or more clock cycles— 
whereas other integer operations such as addition, subtraction, bit-level operations, and shifting require 
only one clock cycle. As a consequence, one important optimization used by compilers is to attempt to 
replace multiplications by constant factors with combinations of shift and addition operations. 


Let x be the unsigned integer represented by bit pattern [v7 1, Zw—2,.--, £o]. Then for any k > 0, we 
claim the bit-level representation of 72" is given by [Zw—1,Lw—2,---,20,0,...,0], where k Os have been 
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added to the right. This property can be derived using Equation 2.1: 


w-l 
B2U myk (20-1; Tu-232 <... D0; 0, see , 0]) = 5 gitt 
i=0 


w—1 ; 
= bs na oF 
2 一 0 


= g2" 


For k < w, we can truncate the shifted bit vector to be of length w, giving [7 »—4-1, Zw—K—2,---, £0, 0,-.., 0]. 
By Equation 2.7, this bit-vector has numeric value x2% mod 2” = x ie 2". Thus, for unsigned variable 
x, the C expression x << k is equivalent tox * pwr2k, where pwr2k equals 25, In particular, we can 
compute pwr2kas1U << k. 


By similar reasoning, we can show that for a two’s complement number x having bit pattern [zw_1, Tw_2,... ,zol, 
and any k in the range 0 < k < w, bit pattern [7 —,-1,...,20,0,...,0] will be the two’s complement 
representation of x *), 2’. Therefore, for signed variable x , the C expression x << k is equivalent to 

x * pwr2k, where pwr2k equals 2K, 


Note that multiplying by a power of two can cause overflow with either unsigned or two’s complement 
arithmetic. Our result shows that even then we will get the same effect by shifting. 


Practice Problem 2.21: 


As we will see in Chapter 3, the leal instruction on an Intel-compatible processor can perform com- 
putations of the form a<<k + b, where k is either 0, 1, or 2, and b is either 0 or some program value. 
The compiler often uses this instruction to perform multiplications by constant factors. For example, we 
can compute 3*a as a<<1 + a. 


What multiples of a can be computed with this instruction? 


2.3.7 Dividing by Powers of Two 


Integer division on most machines is even slower than integer multiplication—requiring 30 or more clock 
cycles. Dividing by a power of two can also be performed using shift operations, but we use a right shift 
rather than a left shift. The two different shifts—logical and arithmetic—serves this purpose for unsigned 
and two’s complement numbers, respectively. 


Integer division always rounds toward zero. For z > 0 and y > 0, the result should be |x/y |, where for any 
real number a, |a | is defined to be the unique integer a’ such that a’ < a < a'+ 1. As examples |3.14| = 3, 
|—-3.14| = —4, and |3] = 3. 


Consider the effect of performing a logical right shift on an unsigned number. Let x be the unsigned 


integer represented by bit pattern [£w—1, Zw—2,---, £0], and k be in the range 0 < k < w. Let 2’ be the 
unsigned number with w — k-bit representation [7 »—1, Zw—2,---,Z%], and x” be the unsigned number with 
k-bit representation [zx_1,...,x0]. We claim that 2’ = |«/2*|. To see this, by Equation 2.1, we have 


C=, r2, x' = De xj2'—* and z” = > Xi2i. We can therefore write x as x = 2f x! + z". 
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Observe that 0 < z” < ya, 2i = 2* — 1, and hence 0 < x” < 2*, implying that |z” /2*| = 0. Therefore 

|x /2* | = a’ 十 ZX/28| =z + |z" /2 | =x. 

Observe that performing a logical right shift of bit vector [£tw—1, Zw_2,..., £o] by k yields bit vector 
Ora 0 vos 1; Vo oy WR|: 


This bit vector has numeric value x’. That is, logically right shifting an unsigned number by k is equiv- 
alent to dividing it by 2". Therefore, for unsigned variable x, the C expression x >> k is equivalent to 
x / pwr2k, where pwr2k equals 2K, 


Now consider the effect of performing an arithmetic right shift on a two’s complement number. Let x be the 


two’s complement integer represented by bit pattern [7 1, Zw—2,-.-, z0], and k be in the range 0 < k < w. 
Let x’ be the two’s complement number represented by the w — k bits [£w—1, Tw—2,.--, £k], and x” be the 
unsigned number represented by the low-order k bits [x,_1,..., £o]. By a similar analysis as the unsigned 
case, we have z = 2' a! + g", and 0 < z” < 2*, giving x’ = |«/2*|. Furthermore, observe that shifting bit 
vector [Zw_1, Tw_2,..., Lo] right arithmetically by k yields a bit vector 

[Zu see Ly—1,Lyw—1, Tw—2;. „Tkl; 
which is the sign extension from w — k bits to w bits of [zw_1, Zw_2,..., zk]. Thus, this shifted bit vector 


is the two’s complement representation of |x/y|. 


For x > 0, our analysis shows that this shifted result is the desired value. For x < 0 and y > 0, however, 
the result of integer division should be [x/y], where for any real number a, [a] is defined to be the unique 
integer a’ such that a’ — 1 < a < a’. That is, integer division should round negative results upward 
toward zero. For example the C expression -5/2 yields —2. Thus, right shifting a negative number by k is 
not equivalent to dividing it by 2% when rounding occurs. For example, the four-bit representation of 一 5 is 
[1011]. If we shift it right by one arithmetically we get [1101], which is the two’s complement representation 
of —3. 


We can correct for this improper rounding by “biasing” the value before shifting. This technique exploits 
the property that [a/y] = |(a +y — 1)/y] for integers x and y such that y > 0. Thus, for x < 0, if we first 
add 2% — 1 to x before right shifting, we will get a correctly rounded result. This analysis shows that for 
a two’s complement machine using arithmetic right shifts, the C expression (x<0 ? (x + (1<<k)- 
1) : x) >> kis equivalent to x/pwr2k, where pwr2k equals 2K, For example, to divide —5 by 2, we 
first add bias 2 — 1 = 1 giving bit pattern [1100]. Right shifting this by one arithmetically gives bit pattern 
[1110], which is the two’s complement representation of —2. 


Practice Problem 2.22: 


In the following code, we have omitted the definitions of constants M and N: 


#define M /* Mystery number 1 */ 

#define N /* Mystery number 2 */ 

int arith(int x, int y) 

{ 
int result = 0; 
result = x*M + y/N; /* M and N are mystery numbers. */ 
return result; 


} 
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We compiled this code for particular values of M and N. The compiler optimized the multiplication and 
division using the methods we have discussed. The following is a translation of the generated machine 
code back into C: 


/* Translation of assembly code for arith */ 
int optarith(int x, int y) 


= Cy 
if (y < 0) y += 3; 
y >>= 2; /* Arithmetic shift */ 
return xty; 


What are the values of M and N? 


2.4 Floating Point 


Floating-point representation encodes rational numbers of the form V = x x 2”. It is useful for performing 
computations involving very large numbers (|V| >> 0), numbers very close to 0 (|V| < 1), and more 
generally as an approximation to real arithmetic. 


Up until the 1980s, every computer manufacturer devised its own conventions for how floating-point num- 
bers were represented and the details of the operations performed on them. In addition, they often did not 
worry too much about the accuracy of the operations, viewing speed and ease of implementation as being 
more critical than numerical precision. 


All of this changed around 1985 with the advent of IEEE Standard 754, a carefully crafted standard for 
representing floating-point numbers and the operations performed on them. This effort started in 1976 
under Intel’s sponsorship with the design of the 8087, a chip that provided floating-point support for the 
8086 processor. They hired William Kahan, a professor at the University of California, Berkeley, as a 
consultant to help design a floating point standard for its future processors. They allowed Kahan to join 
forces with a committee generating an industry-wide standard under the auspices of the Institute of Electrical 
and Electronics Engineers (IEEE). The committee ultimately adopted a standard close to the one Kahan had 
devised for Intel. Nowadays virtually all computers support what has become known as ZEEE floating point. 
This has greatly improved the portability of scientific application programs across different machines. 


Aside: The IEEE 

The Institute of Electrical and Electronic Engineers (IEEE—pronounced “I-Triple-E”) is a professional society that 
encompasses all of electronic and computer technology. They publish journals, sponsor conferences, and set up 
committees to define standards on topics ranging from power transmission to software engineering. End Aside. 


In this section we will see how numbers are represented in the IEEE floating-point format. We will also 
explore issues of rounding, when a number cannot be represented exactly in the format and hence must be 
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adjusted upward or downward. We will then explore the mathematical properties of addition, multiplication, 
and relational operators. Many programmers consider floating point to be, at best, uninteresting and at worst, 
arcane and incomprehensible. We will see that since the IEEE format is based on a small and consistent set 
of principles, it is really quite elegant and understandable. 


2.4.1 Fractional Binary Numbers 


A first step in understanding floating-point numbers is to consider binary numbers having fractional values. 


Let us first examine the more familiar decimal notation. Decimal notation uses a representation of the 
form: dmdm_1:** dido.d_1d_2:**d_n, where each decimal digit d; ranges between 0 and 9. This notation 
represents a number 


ue . 
d = > Wxa 


2 一 一 多 


The weighting of the digits is defined relative to the decimal point symbol ‘.’: digits to the left are weighted 
by positive powers of ten, giving integral values, while digits to the right are weighted by negative powers 
of ten, giving fractional values. For example, 12.3419 represents the number 1 x 101 +2 x 10°+3 x 1071+ 


=2 34 
4x 10-? = 12.86, 


By analogy, consider a notation of the form bmbm-—1 « - b1b0-b—1b—2 +--+ b-n, where each binary digit, or bit, 
b; ranges between 0 and 1. This notation represents a number 


m 


2 一 一 包 


The symbol “.” now becomes a binary point, with bits on the left being weighted by positive powers of 
two, and those on the right being weighted by negative powers of two. For example, 101.112 represents the 
number 1 x 2? +0 x 2'4+1x2°+1x«27'4+1x27%=4+40414$4+4=53, 


One can readily see from Equation 2.19 that shifting the binary point one position to the left has the effect of 
dividing the number by two. For example, while 101.112 represents the number 53, 10.111, represents the 
number 2 + 0 + 4 + + + 4 = 2%. Similarly, shifting the binary point one position to the right has the effect 
of multiplying the number by two. For example, 1011.12 represents the number 8 +0 +2 +1 + 3 = 114. 


Note that numbers of the form 0.11 - - - 12 represent numbers just below 1. For example, 0.111111 repre- 
sents oo We will use the shorthand notation 1.0 — e to represent such values. 


Assuming we consider only finite-length encodings, decimal notation cannot represent numbers such as 3 


and 2 exactly. Similarly, fractional binary notation can only represent numbers that can be written x x 2”. 
Other values can only be approximated. For example, although the number + can be approximated with 
increasing accuracy by lengthening the binary representation, we cannot represent it exactly as a fractional 
binary number: 
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0.010 
0.2510 
0.2510 
0.187510 


0.02 

0.012 

0.0102 
0.00112 
0.001102 
0.0011012 
0.00110102 
0.001100112 


0.187510 
0.20312510 
0.20312510 
0.1992187510 


sales ons oO 


4 

Ot 
i) 

oo] 


N| 


56 


Practice Problem 2.23: 


Fill in the missing information in the table below 


Fractional Value | Binary Rep. | Decimal Rep. 


~ om o 
~ po S 
| e 
o o o 


Practice Problem 2.24: 


The imprecision of floating point arithmetic can have disastrous effects, as shown by the following (true) 
story. On February 25, 1991, during the Gulf War, an American Patriot Missile battery in Dharan, Saudi 
Arabia, failed to intercept an incoming Iraqi Scud missile. The Scud struck an American Army barracks 
and killed 28 soldiers. The U. S. General Accounting Office (GAO) conducted a detailed analysis of the 
failure [49] and determined that the underlying cause was an imprecision in a numeric calculation. In 
this exercise, you will reproduce part of the GAO’s analysis. 


The Patriot system contains an internal clock, implemented as a counter that is incremented every 0.1 
seconds. To determine the time in seconds, the program would multiply the value of this counter by a 
24-bit quantity that was a fractional binary approximation to b In particular, the binary representation 
of b is the nonterminating sequence: 


0.000110011[0011] :+ > 


where the portion in brackets is repeated indefinitely. The computer approximated 0.1 using just the 
leading bit plus the first 23 bits of this sequence to the right of the binary point. Let us call this number 
x. 

A. What is the binary representation of x — 0.1? 


B. What is the approximate decimal value of x — 0.1? 
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C. The clock starts at 0 when the system is first powered up and keeps counting up from there. In 
this case, the system had been running for around 100 hours. What was the difference between the 
time computed by the software and the actual time? 


D. The system predicts where an incoming missile will appear based on its velocity and the time of 
the last radar detection. Given that a Scud travels at around 2,000 meters per second, how far off 
was its prediction? 


Normally, a slight error in the absolute time reported by a clock reading would not affect a tracking 
computation. Instead, it should depend on the relative time between two successive readings. The 
problem was that the Patriot software had been upgraded to use a more accurate function for reading 
time, but not all of the function calls had been replaced by the new code. As a result, the tracking 
software used the accurate time for one reading and the inaccurate time for the other [67]. 


2.4.2 IEEE Floating-Point Representation 


Positional notation such as considered in the previous section would be very inefficient for representing very 
large numbers. For example, the representation of 5 x 2100 would consist of the bit pattern 101 followed by 
one hundred 0’s. Instead, we would like to represent numbers in a form x x 2” by giving the values of x 
and y. 


The IEEE floating point standard represents a number in a form V = (—1)§ x M x 2”: 


e The sign s determines whether the number is negative (s = 1) or positive (s = 0), where the interpre- 
tation of the sign bit for numeric value 0 is handled as a special case. 


e The significand M is a fractional binary number that ranges either between 1 and 2 — e or between 0 
and 1 — e. 


e The exponent E weights the value by a (possibly negative) power of two. 
The bit representation of a floating-point number is divided into three fields to encode these values: 


e The single sign bit s directly encodes the sign s. 
e The k-bit exponent field exp = ez_1 - --e1e9 encodes the exponent E. 


e The n-bit fraction field frac = fp_1--- f1f encodes the significand M, but the value encoded also 
depends on whether or not the exponent field equals 0. 


In the single-precision floating-point format (a float in C), fields s, exp, and frac are 1, k = 8, and 
n = 23 bits each, yielding a 32-bit representation. In the double-precision floating-point format (a double 
in C), fields s, exp, and frac are 1, k = 11, and n = 52 bits each, yielding a 64-bit representation. 


The value encoded by a given bit representation can be divided into three different cases, depending on the 
value of exp. 
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Normalized Values 


This is the most common case. They occur when the bit pattern of exp is neither all Os (numeric value 
0) or all 1s (numeric value 255 for single precision, 2047 for double). In this case, the exponent field is 
interpreted as representing a signed integer in biased form. That is, the exponent value is E = e — Bias 
where e is the unsigned number having bit representation e,_ ---e1e9, and Bias is a bias value equal to 
2'-! _ 1 (127 for single precision and 1023 for double). This yields exponent ranges from —126 to +127 
for single precision and —1022 to +1023 for double precision. 


The fraction field frac is interpreted as representing the fractional value f, where 0 < f < 1, having 
binary representation 0.f—1--- fıfo, that is, with the binary point to the left of the most significant bit. 
The significand is defined to be M = 1 + f. This is sometimes called an implied leading 1 representation, 
because we can view M to be the number with binary representation 1.f,-1fn—2--- fo. This representation 
is a trick for getting an additional bit of precision for free, since we can always adjust the exponent E so 
that significand M is in the range 1 < M < 2 (assuming there is no overflow). We therefore do not need to 
explicitly represent the leading bit, since it always equals 1. 


Denormalized Values 


When the exponent field is all Os, the represented number is in denormalized form. In this case, the exponent 
value is Æ = 1 — Bias, and the significand value is M = f, that is, the value of the fraction field without 
an implied leading 1. 


Aside: Why set the bias this way for denormlized values? 
Having the exponent value be 1 — Bias rather than simply — Bias might seem counterintuitive. We will see shortly 
that it provides for smooth transition from denormalized to normalized values.End Aside. 


Denormalized numbers serve two purposes. First, they provide a way to represent numeric value 0, since 
with a normalized number we must always have M > 1, and hence we cannot represent 0. In fact the 
floating-point representation of +0.0 has a bit pattern of all Os: the sign bit is 0, the exponent field is all 
Os (indicating a denormalized value), and the fraction field is all Os, giving M = f = 0. Curiously, when 
the sign bit is 1, but the other fields are all Os, we get the value —0.0. With IEEE floating-point format, the 
values —0.0 and 十 0.0 are considered different in some ways and the same in others. 


A second function of denormalized numbers is to represent numbers that are very close to 0.0. They provide 
a property known as gradual underflow in which possible numeric values are spaced evenly near 0.0. 


Special Values 


A final category of values occurs when the exponent field is all 1s. When the fraction field is all Os, the 
resulting values represent infinity, either 十 co when s = 0, or 一 co when s = 1. Infinity can represent 
results that overflow, as when we multiply two very large numbers, or when we divide by zero. When the 
fraction field is nonzero, the resulting value is called a “NaN,” short for “Not a Number.” Such values are 
returned as the result of an operation where the result cannot be given as a real number or as infinity, as when 
computing /—1 or 00 — oo. They can also be useful in some applications for representing uninitialized data. 
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A. Complete Range 


+0.4 


e Denormalized a Normalized a Infinity 


Figure 2.22: Representable Values for 6-Bit Floating-Point Format. There are k = 3 exponent bits and 
n = 2 significand bits. The bias is 3. 


2.4.3 Example Numbers 


Figure 2.22 shows the set of values that can be represented in a hypothetical 6-bit format having k = 3 
exponent bits and n = 2 significand bits. The bias is 23-1 — 1 = 3. Part A of the figure shows all 
representable values (other than NaN). The two infinities are at the extreme ends. The normalized numbers 
with maximum magnitude are +14. The denormalized numbers are clustered around 0. These can be seen 
more clearly in part B of the figure, where we show just the numbers between —1.0 and +1.0. The two 
zeros are special cases of denormalized numbers. Observe that the representable numbers are not uniformly 
distributed—they are denser nearer the origin. 


Figure 2.23 shows some examples for a hypothetical eight-bit floating-point format having k = 4 exponent 
bits and n = 3 fraction bits. The bias is 2471 — 1 = 7. The figure is divided into three regions representing 
the three classes of numbers. Closest to 0 are the denormalized numbers, starting with 0 itself. Denormalized 


numbers in this format have E = 1 — 7 = —6, giving a weight 2” = 十. The fractions f range over the 
values 0, $, P Z, giving numbers V in the range 0 to — = a: 
The smallest normalized numbers in this format also have Æ = 1 — 7 = —6, and the fractions also range 


over the values 0, $ as Z. However, the significands then range from 1+ 0 = 1 tol + a = 2, giving 


numbers V in the range =; to #2 


512 B12* 
Observe the smooth transition between the largest denormalized number = and the smallest normalized 
number z5- This smoothness is due to our definition of Æ for denormalized values. By making it 1 — Bias 


rather than — Bias, we compensate for the fact that the significand of a denormalized number does not have 
an implied leading 1. 


As we increase the exponent, we get successively larger normalized values, passing through 1.0 and then to 
the largest normalized number. This number has exponent E = 7, giving a weight 2” = 128. The fraction 
equals f giving a significand M = 5, Thus the numeric value is V = 240. Going beyond this overflows to 
+00. 
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Description 

Zero 0 0000 

Smallest Pos. 0 0000 
0 0000 
0 0000 


0 0000 
Largest Denorm. 0 0000 
Smallest Norm. 0 0001 
0 0001 


6 8 
8 8 
了 1 
= 
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0 0110 
0 0110 
O 0111 
0 0111 
0 0111 
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20| 5 001 <© oo] a0] 


0 1110 
Largest Norm. 0 1110 
Infinity 0 1111 000 


col~ COL 
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Figure 2.23: Example Nonnegative Values for eight-bit Floating-Point Format. There are k = 4 expo- 
nent bits and n = 3 significand bits. The bias is 7. 
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One interesting property of this representation is that if we interpret the bit representations of the values in 
Figure 2.23 as unsigned integers, they occur in ascending order, as do the values they represent as floating- 
point numbers. This is no accident—the IEEE format was designed so that floating-point numbers could 
be sorted using an integer-sorting routine. A minor difficulty is in dealing with negative numbers, since 
they have a leading one, and they occur in descending order, but this can be overcome without requiring 
floating-point operations to perform comparisons (see Problem 2.47). 


Practice Problem 2.25: 


Consider a 5-bit floating-point representation based on the IEEE floating-point format, with one sign bit, 
two exponent bits (k = 2), and two fraction bits (n = 2). The exponent bias is 27—! — 1 = 1. 


The table below enumerates the entire nonnegative range for this 5-bit floating-point representation. Fill 
in the blank table entries using the following directions: 


e: The value represented by considering the exponent field to be an unsigned integer. 
E: The value of the exponent after biasing. 

f: The value of the fraction. 

M: The value of the significand. 

V: The numeric value represented. 


” 


Express the values of f, M and V as fractions of the form +. You need not fill in entries marked “—”. 


Bisse SOC 
C | 
roof | 
oon SS 
Po 00 17 | 

Po 01 00 | 

woro | 
ooro SS 
woa | 
Goo 2 |g zi F | 
osoa o q ToS 
CEE | 
woa o q ë ToS 
bael — — | — — | +0 
onaj = | a | 
pan — =- [| — — | Naw 
| 


Figure 2.24 shows the representations and numeric values of some important single and double-precision 
floating-point numbers. As with the eight-bit format shown in Figure 2.23 we can see some general proper- 
ties for a floating-point representation with a k-bit exponent and an n-bit fraction: 
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Description exp frac Single Precision Double Precision 
Value Decimal Value Decimal 
0 0.0 0 0.0 


Zero 


Smallest denorm. tee tee 2723 x 27126 ? 2752 x 271022 4.9 x 107324 


Largest denorm. zr zr (=e) x2 P? 12x107% | (I—e)x 27022 3.2 x 107308 
Smallest norm. e T 1 Se eae 1.2 x 10738 E 2.2 x 107308 
One zE zr 1 x 20 1.0 1 x 20 1.0 

Largest norm. zz zE (2—6) x217 3.4x10% | (2—e)x 210? 1.8 x 10308 


Figure 2.24: Examples of Nonnegative Floating-Point Numbers. 


e The value 十 0.0 always has a bit representation of all 0’s. 


e The smallest positive denormalized value has a bit representation consisting of a 1 in the least signif- 
icant bit position and otherwise all Os. It has a fraction (and significand) value M = f = 27” and an 
exponent value Æ = —2%71 + 2. The numeric value is therefore V = 2 2 


e The largest denormalized value has a bit representation consisting of an exponent field of all Os and 
a fraction field of all 1s. It has a fraction (and significand) value M = f = 1 — 27” (which we 
have written 1 — e€) and an exponent value Æ = —2*~! + 2. The numeric value is therefore V = 
(1—27-") x 2-2 +2, which is just slightly smaller than the smallest normalized value. 


e The smallest positive normalized value has a bit representation with a 1 in the least significant bit 
of the exponent field and otherwise all Os. It has a significand value M = 1 and an exponent value 
E = —2'—! + 2, The numeric value is therefore V = 27271 +2, 


e The value 1.0 has a bit representation with all but the most significant bit of the exponent field equal 
to 1 and all other bits equal to 0. Its significand value is M = 1 and its exponent value is Æ = 0. 


e The largest normalized value has a bit representation with a sign bit of 0, the least significant bit of 
the exponent equal to 0, and all other bits equal to 1. It has a fraction value of f = 1 — 27”, giving 
a significand M = 2 — 27” (which we have written 2 — e€). It has an exponent value E = 2-1 — 1, 
giving a numeric value V = (2 — 27”) x 227-1 = (1 — 2771) 22°", 


Practice Problem 2.26: 
A. For a floating-point format with a k-bit exponent and an n-bit fraction, give a formula for the 


smallest positive integer that cannot be represented exactly (because it would require an n + 1-bit 
fraction to be exact). 


B. What is the numeric value of this integer for single-precision format (k = 8, n = 23)? 


2.4.4 Rounding 


Floating-point arithmetic can only approximate real arithmetic, since the representation has limited range 
and precision. Thus, for a value x, we generally want a systematic method of finding the “closest” matching 
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Round-to-even 


Round-toward-zero 
Round-down 
Round-up 


Figure 2.25: Illustration of Rounding Modes for Dollar Rounding. The first rounds to a nearest value, 
while the other three bound the result above or below. 


value x’ that can be represented in the desired floating-point format. This is the task of the rounding opera- 
tion. The key problem is to define the direction to round a value that is halfway between two possibilities. 
For example, if I have $1.50 and want to round it to the nearest dollar, should the result be $1 or $2? An 
alternative approach is to maintain a lower and an upper bound on the actual number. For example, we 
could determine representable values x~ and x* such that the value x is guaranteed to lie between them: 
£7 <a < x™. The IEEE floating-point format defines four different rounding modes. The default method 
finds a closest match, while the other three can be used for computing upper and lower bounds. 


Figure 2.25 illustrates the four rounding modes applied to the problem of rounding a monetary amount to 
the nearest whole dollar. Round-to-even (also called round-to-nearest) is the default mode. It attempts to 
find a closest match. Thus, it rounds $1.40 to $1 and $1.60 to $2, since these are the closest whole dollar 
values. The only design decision is to determine the effect of rounding values that are halfway between 
two possible results. Round-to-even mode adopts the convention that it rounds the number either upward or 
downward such that the least significant digit of the result is even. Thus, it rounds both $1.50 and $2.50 to 
$2. 


The other three modes produce guaranteed bounds on the actual value. These can be useful in some nu- 
merical applications. Round-toward-zero mode rounds positive numbers downward and negative numbers 
upward, giving a value ĉ such that |£| < |x|. Round-down mode rounds both positive and negative numbers 
downward, giving a value x~ such that x < x. Round-up mode rounds both positive and negative numbers 
upward, giving a value x* such that z < xt. 


Round-to-even at first seems like it has a rather arbitrary goal—why is there any reason to prefer even 
numbers? Why not consistently round values halfway between two representable values upward? The 
problem with such a convention is that one can easily imagine scenarios in which rounding a set of data 
values would then introduce a statistical bias into the computation of an average of the values. The average 
of a set of numbers that we rounded by this means would be slightly higher than the average of the numbers 
themselves. Conversely, if we always rounded numbers halfway between downward, the average of a set 
of rounded numbers would be slightly lower than the average of the numbers themselves. Rounding toward 
even numbers avoids this statistical bias in most real-life situations. It will round upward about 50% of the 
time and round downward about 50% of the time. 


Round-to-even rounding can be applied even when we are not rounding to a whole number. We simply 
consider whether the least significant digit is even or odd. For example, suppose we want to round decimal 
numbers to the nearest hundredth. We would round 1.2349999 to 1.23 and 1.2350001 to 1.24, regardless of 
rounding mode, since they are not halfway between 1.23 and 1.24. On the other hand, we would round both 
1.2350000 and 1.2450000 to 1.24, since four is even. 
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Similarly, round-to-even rounding can be applied to binary fractional numbers. We consider least significant 
bit value 0 to be even and 1 to be odd. In general, the rounding mode is only significant when we have a 
bit pattern of the form XX ---X.YY---Y100---, where X and Y denote arbitary bit values with the 
rightmost Y being the position to which we wish to round. Only bit patterns of this form denote values 
that are halfway between two possible results. As examples, consider the problem of rounding values to 
the nearest quarter (i.e., 2 bits to the right of the binary point). We would round 10.000112 (23) down 
to 10.002 (2), and 10.001102 (23) up to 10.012 (24), because these values are not halfway between two 
possible values. We would round 10.111002 (22) up to 11.002 (3) and 10.101002 down to 10.102 (25), 
since these values are halfway between two possible results, and we prefer to have the least significant bit 
equal to zero. 


2.4.5 Floating-Point Operations 


The IEEE standard specifies a simple rule for determining the result of an arithmetic operation such as 
addition or multiplication. Viewing floating-point values x and y as real numbers, and some operation © 
defined over real numbers, the computation should yield Round(x © y), the result of applying rounding 
to the exact result of the real operation. In practice, there are clever tricks floating-point unit designers 
use to avoid performing this exact computation, since the computation need only be sufficiently precise to 
guarantee a correctly rounded result. When one of the arguments is a special value such as 一 0, oo or NaN, 
the standard specifies conventions that attempt to be reasonable. For example 1/ — 0 is defined to yield 一 co， 
while 1/ + 0 is defined to yield +00. 


One strength of the IEEE standard’s method of specifying the behavior of floating-point operations is that 
it is independent of any particular hardware or software realization. Thus, we can examine its abstract 
mathematical properties without considering how it is actually implemented. 


We saw earlier that integer addition, both unsigned and two’s complement, forms an Abelian group. Ad- 
dition over real numbers also forms an Abelian group, but we must consider what effect rounding has on 
these properties. Let us define x +" y to be Round(x + y). This operation is defined for all values of x 
and y, although it may yield infinity even when both x and y are real numbers due to overflow. The op- 
eration is commutative, with z +€ y = y +' x for all values of x and y. On the other hand, the operation 
is not associative. For example, with single-precision floating point the expression (3.14+1e10) -1e10 
would evaluate to 0 . 0 一 the value 3.14 would be lost due to rounding. On the other hand, the expression 
3.14+(1e10-1e10) would evaluate to 3.14. As with an Abelian group, most values have inverses 
under floating-point addition, that is, x +€ 一 2 = 0. The exceptions are infinities (since +00 — co = NaN), 
and NaN’s, since NaN +x = NaN for any z. 

The lack of associativity in floating-point addition is the most important group property that is lacking. It has 


important implications for scientific programmers and compiler writers. For example, suppose a compiler 
is given the following code fragment: 


x=a + b+ č} 
y=btcetd; 


The compiler might be tempted to save one floating-point addition by generating the code: 


t=b+c; 
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了 


x = ie 
d; 


a 十 
y= t+ 
However, this computation might yield a different value for x than would the original, since it uses a different 
association of the addition operations. In most applications, the difference would be so small as to be 
inconsequential. Unfortunately, compilers have no way of knowing what trade-offs the user is willing to 
make between efficiency and faithfulness to the exact behavior of the original program. As result, they tend 
to be very conservative, avoiding any optimizations that could have even the slightest effect on functionality. 


On the other hand, floating-point addition satisfies the following monotonicity property: if a > 6 then 
x +a > x +b for any values of a, b, and x other than NaN. This property of real (and integer) addition is 
not obeyed by unsigned or two’s complement addition. 


Floating-point multiplication also obeys many of the properties one normally associates with multiplication, 
namely those of a ring. Let us define x *' y to be Round(x x y). This operation is closed under multi- 
plication (although possibly yielding infinity or NaN), it is commutative, and it has 1.0 as a multiplicative 
identity. On the other hand, it is not associative due to the possibility of overflow or the loss of precision due 
to rounding. For example, with single-precision floating point, the expression (1e20*1e20) *1e—-20 will 
evaluate to +00, while 1e20* (le20*1e-20) will evaluate to 1e20. In addition, floating-point multi- 
plication does not distribute over addition. For example, with single-precision floating point, the expression 
1e20* (le20-1e20) will evaluate to 0.0, while 1e20*1e20-1e20*1e20 will evaluate to NaN. 


On the other hand, floating-point multiplication satisfies the following monotonicity properties for any val- 
ues of a, b, and c other than NaN: 


a>bandc>0 > atic>b*'c 
a>bandc<0 => at*ic<b*'c 


In addition, we are also guaranteed that a *' a > 0, as long as a # NaN. As we saw earlier, none of these 
monotonicity properties hold for unsigned or two’s complement multiplication. 


This lack of associativity and distributivity is of serious concern to scientific programmers and to compiler 
writers. Even such a seemingly simple task as writing code to determine whether two lines intersect in 
three-dimensional space can be a major challenge. 


2.4.6 Floating Point in C 


C provides two different floating-point data types: float and double. On machines that support IEEE 
floating point, these data types correspond to single and double-precision floating point. In addition, the ma- 
chines use the round-to-even rounding mode. Unfortunately, since the C standard does require the machine 
use IEEE floating point, there are no standard methods to change the rounding mode or to get special values 
such as 一 0, +00, —oo, or NaN. Most systems provide a combination of include (‘.h’) files and procedure 
libraries to provide access to these features, but the details vary from one system to another. For example, 
the GNU compiler Gcc defines macros INFINITY (for +oo) and NAN (for NaN) when the following 
sequence occurs in the program file: 


#define _GNU_SOURCE 1 
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#include <math.h> 


Practice Problem 2.27: 


Fill in the following macro definitions to generate the double-precision values 十 co, 一 co, and 0. 


#define POS_INFINITY 
#define NEG_INFINITY 
#define NEG_ZERO 
#endif 


You cannot use any include files (such as math . h), but you can make use of the fact that the largest 
finite number that can be represented with double precision is around 1.8 x 10308 


When casting values between int, float, and double formats, the program changes the numeric values 
and the bit representations as follows (assuming a 32-bit int): 


e From int to float, the number cannot overflow, but it may be rounded. 


e From int or float to double, the exact numeric value can be preserved because double has 
both greater range (i.e., the range of representable values), as well as greater precision (i.e., the number 
of significant bits). 


e From double to float, the value can overflow to 十 co or —oo, since the range is smaller. Otherwise 
it may be rounded since the precision is smaller. 


e From float or double to int the value will be truncated toward zero. For example 1.999 will be 
converted to 1, while —1.999 will be converted to —1. Note that this behavior is very different from 
rounding. Furthermore, the value may overflow. The C standard does not specify a fixed result for 
this case, but on most machines the result will either be TMazw or TMin,,, where w is the number 
of bits in an int. 


Aside: Ariane 5: the high cost of floating-point overflow 

Converting large floating-point numbers to integers is a common source of programming errors. Such an error had 
particularly disastrous consequences for the maiden voyage of the Ariane 5 rocket, on June 4, 1996. Just 37 seconds 
after lift-off, the rocket veered off its flight path, broke up, and exploded. On board the rocket were communication 
satellites, valued at $500 million. 


A later investigation [46] showed that the computer controlling the inertial navigation system had sent invalid data to 
the computer controlling the engine nozzles. Instead of sending flight control information, it had sent a diagnostic 
bit pattern indicating that, in an effort to convert a 64-bit floating point number into a 16-bit signed integer, an 
overflow had been encountered. 


The value that overflowed measured the horizontal velocity of the rocket, which could be more than five times 
higher than that achieved by the earlier Ariane 4 rocket. In the design of the Ariane 4 software, they had carefully 
analyzed the numeric values and determined that the horizontal velocity would never overflow a 16-bit number. 
Unfortunately, they simply reused this part of the software in the Ariane 5 without checking the assumptions on 
which it had been based. End Aside. 
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Practice Problem 2.28: 


Assume variables x, f, and d are of type int, float, and double, respectively. Their values are 
arbitrary, except that neither f nor d equals +00, 一 co, or NaN. For each of the following C expressions, 
either argue that it will always be true (i.e., evaluate to 1) or give a value for the variables such that it is 
not true (i.e., evaluates to 0). 


A. x == (int) (float) x 

B. x == (int) (double) x 

C. f == (float) (double) f 

D. == (float) d 

E. £ == -(-f) 

F 2/3 5& 2/30 

G. (d >= 0.0) || ((d*2) < 0.0) 
H. (d+f)-d == f 


2.5 Summary 


Computers encode information as bits, generally organized as sequences of bytes. Different encodings 
are used for representing integers, real numbers, and character strings. Different models of computers use 
different conventions for encoding numbers and for ordering the bytes within multibyte data. 


The C language is designed to accomodate a wide range of different implementations in terms of word 
sizes and numeric encodings. Most current machines have 32-bit word sizes, although high-end machines 
increasingly have 64-bit words. Most machines use two’s complement encoding of integers and IEEE en- 
coding of floating point. Understanding these encodings at the bit level, and the mathematical characteristics 
of the arithmetic operations is important for writing programs that operate correctly over the full range of 
numeric values. 


The C standard dictates that when casting between signed and unsigned integers, the underlying bit pattern 
should not change. On a two’s complement machine, this behavior is characterized by functions T2U „ and 
U2T wœ, for a w-bit value. The implicit casting of C gives results that many programmers do not anticipate, 
often leading to program bugs. 


Due to the finite lengths of the encodings, computer arithmetic has properties quite different from conven- 
tional integer and real arithmetic. The finite length can cause numbers to overflow, when they exceed the 
range of the representation. Floating point values can also underflow, when they are so close to 0.0 that they 
are changed to zero. 


The finite integer arithmetic implemented by C, as well as most other programming languages, has some 
peculiar properties compared to true integer arithmetic. For example, the expression x*x can evaluate to 
a negative number due to overflow. Nonetheless, both unsigned and two’s complement arithmetic satisfies 
the properties of a ring. This allows compilers to do many optimizations. For example, in replacing the 
expression 7*x by (x<<3) -x, we make use of the associative, commutative and distributive properties, 
along with the relationship between shifting and multiplying by powers of two. 
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We have seen several clever ways to exploit combinations bit-level operations and arithmetic operations. For 
example, we saw that with two’s complement arithmetic, ~x+1 is equivalent to -x. As another example, 
suppose we want a bit pattern of the form [0,...,0,1,..., 1], consisting of w — k Os followed by k 1s. Such 
bit patterns are useful for masking operations. This pattern can be generated by the C expression (1<<k) 一 
1, exploiting the property that the desired bit pattern has numeric value 2% — 1. For example, the expression 
(1<<8) -1 will generate the bit pattern OxFF. 


Floating point representations approximate real numbers by encoding numbers of the form x x 2”. The most 
common floating point representation was defined by IEEE Standard 754. It provides for several different 
precisions, with the most common being single (32 bits) and double (64 bits). IEEE floating point also has 
representations for special values oo and not-a-number. 


Floating point arithmetic must be used very carefully, since it has only limited range and precision, and 
since it does not obey common mathematical properties such as associativity. 


Bibliographic Notes 


Reference books on C [37, 30] discuss properties of the different data types and operations. The C standard 
does not specify details such as precise word sizes or numeric encodings. Such details are intentionally 
omitted to make it possible to implement C on a wide range of different machines. Several books have been 
written giving advice to C programmers [38, 47] that warn about problems with overflow, implicit casting 
to unsigned, and some of the other pitfalls we have covered in this chapter. These books also provide 
helpful advice on variable naming, coding styles, and code testing. Books on Java (we recommend the 
one coauthored by James Gosling, the creator of the language [1]) describe the data formats and arithmetic 
operations supported by Java. 


Most books on logic design [82, 36] have a section on encodings and arithmetic operations. Such books 
describe different ways of implementing arithmetic circuits. Appendix A of Hennessy and Patterson’s com- 
puter architecture textbook [31] does a particularly good job of describing different encodings (including 
IEEE floating point) as well as different implementation techniques. 


Overton’s book on IEEE floating point [53] provides a detailed description of the format as well as the 
properties from the perspective of a numerical applications programmer. 


Homework Problems 


Homework Problem 2.29 [Category 1]: 


Compile and run the sample code that uses show_bytes (file show-bytes . c) on different machines to 
which you have access. Determine the byte orderings used by these machines. 


Homework Problem 2.30 [Category 1]: 
Try running the code for show_bytes for different sample values. 
Homework Problem 2.31 [Category 1]: 


Write procedures show_short, show_long, and show_doub1e that print the byte representations of 
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C objects of types short int,long int, and double respectively. Try these out on several machines. 


Homework Problem 2.32 [Category 2]: 


Write a procedure is_1ittle_endian that will return 1 when compiled and run on a little-endian ma- 
chine, and will return 0 when compiled and run on a big-endian machine. This program should run on any 
machine, regardless of its word size. 


Homework Problem 2.33 [Category 2]: 


Write a C expression that will yield a word consisting of the least significant byte of x, and the remaining 
bytes of y. For operands x = 0x89ABCDEF and y = 0x76543210, this would give 0x765432EF. 


Homework Problem 2.34 [Category 2]: 


Using only bit-level and logical operations, write C expressions that yield 1 for the described condition and 
0 otherwise. Your code should work on a machine with any word size. Assume x is an integer. 


A. Any bit of x equals 1. 
B. Any bit of x equals 0. 
C. Any bit in the least significant byte of x equals 1. 


D. Any bit in the least significant byte of x equals 0. 


Homework Problem 2.35 [Category 3]: 


Write a procedure int_shifts_are_arithmetic() that yields 1 when run a machine that uses arith- 
metic right shifts for int’s and 0 otherwise. Your code should work on a machine with any word size. Test 
your code on several machines. Write and test a procedure unsigned_shifts_are_arithmetic () 
that determines the form of shifts used for unsigned int’s. 


Homework Problem 2.36 [Category 2]: 


You are given the task of writing a procedure int_size_is_32() that yields 1 when run on a machine 
for which an int is 32 bits, and yields 0 otherwise. Here is a first attempt: 


1 /* The following code does not run properly on some machines */ 
2 int bad_int_size_is_32() 


3 { 

4 /* Set most significant bit (msb) of 32-bit machine */ 
5 int set_msb = 1 << 31; 

6 /* Shift past msb of 32-bit word */ 

7 int beyond_msb = 1 << 32; 

8 

9 /* set_msb is nonzero when word size >= 32 

10 beyond_msb is zero when word size <= 32 */ 

11 return set_msb && !beyond_msb; 
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When compiled and run on a 32-bit SUN SPARC, however, this procedure returns 0. The following compiler 
message gives us an indication of the problem: 


warning: left shift count >= width of type 


A. In what way does our code fail to comply with the C standard? 
B. Modify the code to run properly on any machine for which int’s are at least 32 bits. 


C. Modify the code to run properly on any machine for which int’s are at least 16 bits. 


Homework Problem 2.37 [Category 1]: 


You just started working for a company that is implementing a set of procedures to operate on a data structure 
where four signed bytes are packed into a 32-bit unsigned. Bytes within the word are numbered from 0 
(least significant) to 3 (most significant). You have been assigned the task of implementing a function for a 
machine using two’s complement arithmetic and arithmetic right shifts with the following prototype: 


/* Declaration of data type where 4 bytes are packed 
into an unsigned */ 
typedef unsigned packed_t; 


/* Extract byte from word. Return as signed integer */ 
int xbyte(packed_t word, int bytenum); 


That is, the function will extract the designated byte and sign extend it to be a 32-bit int. 


Your predecessor (who was fired for his incompetence) wrote the following code: 


/* Failed attempt at xbyte */ 
int xbyte(packed_t word, int bytenum) 
{ 
return 
(word >> (bytenum << 3)) & OxFF; 


A. What is wrong with this code? 


B. Give a correct implementation of the function that uses only left and right shifts, along with one 
subtraction. 


Homework Problem 2.38 [Category 1]: 


Fill in the following table showing the effects of complementing and incrementing several 5-bit vectors, in 
the style of Figure 2.20. Show both the bit vectors and the numeric values. 
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Homework Problem 2.39 [Category 2]: 


Show that first decrementing and then complementing is equivalent to complementing and then increment- 
ing. That is, for any signed value x, the C expressions —x, ~x+1, and ~ (x-1) yield identical results. What 
mathematical properties of two’s complement addition does your derivation rely on? 


Homework Problem 2.40 [Category 3]: 


Suppose we want to compute the complete 2w-bit representation of x - y, where both x and y are unsigned, 
on a machine for which data type unsignedis w bits. The low-order w bits of the product can be computed 
with the expression x*y, so we only require a procedure with prototype 


unsigned int unsigned_high_prod(unsigned x, unsigned y); 


that computes the high-order w bits of x - y for unsigned variables. 


We have access to a library function with prototype: 
int signed_high_prod(int x, int y); 


that computes the high-order w bits of x - y for the case where x and y are in two’s complement form. Write 
code calling this procedure to implement the function for unsigned arguments. Justify the correctness of 
your solution. 


[Hint:] Look at the relationship between the signed product x - y and the unsigned product 2’ - y’ in the 
derivation of Equation 2.18. 


Homework Problem 2.41 [Category 2]: 


Suppose we are given the task of generating code to multiply integer variable x by various different constant 
factors K. To be efficient we want to use only the operations +, —, and <<. For the following values of K, 
write C expressions to perform the multiplication using at most three operations per expression. 


A. kK =5: 
B. K =9: 
C-K =14: 


D. K = —56: 
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Homework Problem 2.42 [Category 2]: 


Write C expressions to generate the following bit patterns, where ak represents k repetitions of symbol a. 
Assume a w-bit data type. Your code may contain references to parameters j and k, representing the values 
of j and k, but not a parameter representing w. 


A. 12-k0k. 


B. 0W-k-I 1k, 


Homework Problem 2.43 [Category 2]: 


Suppose we number the bytes in a w-bit word from 0 (least significant) to w/8 — 1 (most significant). Write 
code for the following C function, that will return an unsigned value in which byte i of argument x has 
been replaced by byte b. 


unsigned replace_byte (unsigned x, int i, unsigned char b); 


Here are some examples showing how the function should work 


replace_byte(0x12345678, 2, OxAB) --> 0x12AB5678 
replace_byte(0x12345678, 0, OxAB) --> 0x123456AB 


Homework Problem 2.44 [Category 3]: 


Fill in code for the following C functions. Function sr1 performs a logical right shift using an arithmetic 
right shift (given by value xsra), followed by other operations not including right shifts or division. Func- 
tion sra performs an arithmetic right shift using a logical right shift (given by value xsr1), followed by 
other operations not including right shifts or division. You may assume that int’s are 32-bits long. The 
shift amount k can range from 0 to 31. 


unsigned srl(unsigned x, int k) 

{ 
/* Perform shift arithmetically */ 
unsigned xsra = (int) x >> k; 


LR eee FY 


int sra(int x, int k) 


/* Perform shift logically */ 
int xsrl = (unsigned) x >> k; 
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Homework Problem 2.45 [Category 2]: 


Assume we are running code on a 32-bit machine using two’s complement arithmetic for signed variables. 
The variables are declared and initialized as follows: 


int x = foo(); /* Arbitrary value */ 
bar (); /* Arbitrary value */ 


int y 


unsigned ux 
unsigned uy = y; 


Xi 


For each of the following C expressions, either (1) argue that it is true (i.e., evaluates to 1) for all values of 
x and y, or (2) give example values of x and y for which it is false (i.e., evaluates to 0.) 


A. (x >= 0) || ((2*x) < 0) 
B. (x & 7) != 7 || (x<<30 < 0) 


C. (x * x) >= 0 


D.x < 0 || -x <= 0 
E. x > 0 || -x >= 0 
F. x*y == ux*uy 

G. “x*y + uy*ux == -y 


Homework Problem 2.46 [Category 2]: 


Consider numbers having a binary representation consisting of an infinite string of the form 0.y yy yy yy *……, 
where y is a k-bit sequence. For example, the binary representation of 3 is 0.01010101 --- (y = 01), while 
the representation of + is 0.001100110011--- (y = 0011). 


A. Let Y = B2U,z(y), that is, the number having binary representation y. Give a formula in terms of Y 
and k for the value represented by the infinite string. [Hint: Consider the effect of shifting the binary 
point k positions to the right. ] 


B. What is the numeric value of the string for the following values of y? 


(a) 001 
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(b) 1001 
(c) 000111 


Homework Problem 2.47 [Category 1]: 


Fill in the return value for the following procedure that tests whether its first argument is greater than or 
equal to its second. Assume the function £2u returns an unsigned 32-bit number having the same bit 
representation as its floating-point argument. You can assume that neither argument is NaN. The two 
flavors of zero: +0 and —0 are considered equal. 


int float_ge(float x, float y) 
{ 


unsigned ux = f2u(x) 
unsigned uy = f2u(y) 


/* Get the sign bits */ 
unsigned sx = ux >> 31; 
unsigned sy = uy >> 31; 


/* Give an expression using only ux, uy, sx, and sy */ 
return /* ses */ ; 


Homework Problem 2.48 [Category 1]: 


Given a floating-point format with a k-bit exponent and an n-bit fraction, give formulas for the exponent 
E, significand M, the fraction f, and the value V for the following quantities. In addition, describe the bit 
representation. 


A. The number 5.0. 
B. The largest odd integer that can be represented exactly. 


C. The reciprocal of the smallest positive normalized value. 


Homework Problem 2.49 [Category 1]: 


Intel-compatible processors also support an “extended precision” floating-point format with an 80-bit word 
divided into a sign bit, k = 15 exponent bits, a single integer bit, and n = 63 fraction bits. The integer 
bit is an explicit copy of the implied bit in the IEEE floating-point representation. That is, it equals 1 for 
normalized values and 0 for denormalized values. Fill in the following table giving the approximate values 
of some “interesting” numbers in this format: 
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Description Extended Precision 


Homework Problem 2.50 [Category 1]: 


Consider a 16-bit floating-point representation based on the IEEE floating-point format, with one sign bit, 
seven exponent bits (k = 7), and eight fraction bits (n = 8). The exponent bias is 271 — 1 = 63. 


Fill in the table below for the following numbers, with the following instructions for each column: 


Hex: The four hexadecimal digits describing the encoded form. 


M: The value of the significand. This should be a number of the form æ or J where x is an integer, 


67 and = 


and y is an integral power of 2. Examples include: 0, 7, J55: 


E: The integer value of the exponent. 


V: The numeric value represented. Use the notation x or x x 27, where x and z are integers. 


As an example, to represent the number Z, we would have s = 0, M = 了 and E = 1. Our number would 
therefore have an exponent field of 0x40 (decimal value 63 + 1 = 64) and a significand field 0xCO (binary 
110000002), giving a hex representation 40C0. 


You need not fill in entries marked “—’”’. 


Terss Deroma | | | | | 
se ee ee 
[Number witk hex represenaton saro | — | | | | 


Homework Problem 2.51 [Category 1]: 


You have been assigned the task of writing a C function to compute a floating-point representation of 27. 
You realize that the best way to do this is to directly construct the IEEE single-precision representation of 
the result. When x is too small, your routine will return 0.0. When z is too large, it will return 十 co. Fill in 
the blank portions of the following code to compute the correct result. Assume the function u2f returns a 
floating-point value having an identical bit representation as its unsigned argument. 
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float fpwr2(int x) 


/* Result exponent and significand */ 
unsigned exp, sig; 
unsigned u; 


if (x < ) 
/* Too small. Return 0.0 */ 
exp = ; 
sig = ; 


else if (x < ) 
/* Denormalized result */ 
exp = 7 
sig = 7 
else if (x < ) 
/* Normalized result. */ 


exp = r 
sig = ; 
else 
/* Too big. Return +oo */ 
exp = 7 
sig = ; 


/* Pack exp and sig into 32 bits */ 
u = exp << 23 | sig; 

/* Return as float */ 

return u2f (u); 


Homework Problem 2.52 [Category 1]: 


Around 250 B.C., the Greek mathematician Archimedes proved that 223 <lr < 2, Had he had access 


to a computer and the standard library <math . h>, he would have been able to determine that the single- 
precision floating-point approximation of 7 has the hexadecimal representation 0x40490FDB. Of course, 
all of these are just approximations, since T is not rational. 


A. What is the fractional binary number denoted by this floating-point value? 
B. What is the fractional binary representation of 27 [Hint: See Problem 2.46]. 


C. At what bit position (relative to the binary point) do these two approximations to T diverge? 


Chapter 3 


Machine-Level Representation of C 
Programs 


When programming in a high-level language, such as C, we are shielded from the detailed, machine-level 
implementation of our program. In contrast, when writing programs in assembly code, a programmer must 
specify exactly how the program manages memory and the low-level instructions the program uses to carry 
out the computation. Most of the time, it is much more productive and reliable to work at the higher level 
of abstraction provided by a high-level language. The type checking provided by a compiler helps detect 
many program errors and makes sure we reference and manipulate data in consistent ways. With modern, 
optimizing compilers, the generated code is usually at least as efficient as what a skilled, assembly-language 
programmer would write by hand. Best of all, a program written in a high-level language can be compiled 
and executed on a number of different machines, whereas assembly code is highly machine specific. 


Even though optimizing compilers are available, being able to read and understand assembly code is an 
important skill for serious programmers. By invoking the compiler with appropriate flags, the compiler will 
generate a file showing its output in assembly code. Assembly code is very close to the actual machine code 
that computers execute. Its main feature is that it is in a more readable textual format, compared to the binary 
format of object code. By reading this assembly code, we can understand the optimization capabilities of 
the compiler and analyze the underlying inefficiencies in the code. As we will experience in Chapter 5, 
programmers seeking to maximize the performance of a critical section of code often try different variations 
of the source code, each time compiling and examining the generated assembly code to get a sense of how 
efficiently the program will run. Furthermore, there are times when the layer of abstraction provided by a 
high-level language hides information about the run-time behavior of a program that we need to understand. 
For example, when writing concurrent programs using a thread package, as covered in Chapter 11, it is 
important to know what type of storage is used to hold the different program variables. This information 
is visible at the assembly code level. The need for programmers to learn assembly code has shifted over 
the years from one of being able to write programs directly in assembly to one of being able to read and 
understand the code generated by optimizing compilers. 


In this chapter, we will learn the details of a particular assembly language and see how C programs get 
compiled into this form of machine code. Reading the assembly code generated by a compiler involves a 
different set of skills than writing assembly code by hand. We must understand the transformations typical 
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compilers make in converting the constructs of C into machine code. Relative to the computations expressed 
in the C code, optimizing compilers can rearrange execution order, eliminate unneeded computations, re- 
place slow operations such as multiplication by shifts and adds, and even change recursive computations 
into iterative ones. Understanding the relation between source code and the generated assembly can of- 
ten be a challenge—much like putting together a puzzle having a slightly different design than the picture 
on the box. It is a form of reverse engineering—trying to understand the process by which a system was 
created by studying the system and working backward. In this case, the system is a machine-generated, 
assembly-language program, rather than something designed by a human. This simplifies the task of re- 
verse engineering, because the generated code follows fairly regular patterns, and we can run experiments, 
having the compiler generate code for many different programs. In our presentation, we give many exam- 
ples and provide a number of exercises illustrating different aspects of assembly language and compilers. 
This is a subject matter where mastering the details is a prerequisite to understanding the deeper and more 
fundamental concepts. Spending time studying the examples and working through the exercises will be well 
worthwhile. 


We give a brief history of the Intel architecture. Intel processors have grown from rather primitive 16-bit 
processors in 1978 to the mainstream machines for today’s desktop computers. The architecture has grown 
correspondingly with new features added and the 16-bit architecture transformed to support 32-bit data and 
addresses. The result is a rather peculiar design with features that make sense only when viewed from a 
historical perspective. It is also laden with features providing backward compatibility that are not used by 
modern compilers and operating systems. We will focus on the subset of the features used by GCC and 
Linux. This allows us to avoid much of the complexity and arcane features of [A32. 


Our technical presentation starts a quick tour to show the relation between C, assembly code, and object 
code. We then proceed to the details of IA32, starting with the representation and manipulation of data 
and the implementation of control. We see how control constructs in C, such as if, while, and switch 
statements, are implemented. We then cover the implementation of procedures, including how the run-time 
stack supports the passing of data and control between procedures, as well as storage for local variables. 
Next, we consider how data structures such as arrays, structures, and unions are implemented at the machine 
level. With this background in machine-level programming, we can examine the problems of out of bounds 
memory references and the vulnerability of systems to buffer overflow attacks. We finish this part of the 
presentation with some tips on using the GDB debugger for examining the runtime behavior of a machine- 
level program. 


We then move into material that is marked with a “*” and is intended for the truly dedicated machine- 
language enthusiasts. We give a presentation of IA32 support for floating-point code. This is a particularly 
arcane feature of IA32, and so we advise that only people determined to work with floating-point code 
attempt to study this section. We give a brief presentation of GCC’s support for embedding assembly code 
within C programs. In some applications, the programmer must drop down to assembly code to access 
low-level features of the machine. Embedded assembly is the best way to do this. 


3.1 A Historical Perspective 


The Intel processor line has a long, evolutionary development. It started with one of the first single-chip, 16- 
bit microprocessors, where many compromises had to be made due to the limited capabilities of integrated 
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circuit technology at the time. Since then it has grown to take advantage of technology improvements as 
well as to satisfy the demands for higher performance and for supporting more advanced operating systems. 


The following list shows the successive models of Intel processors, and some of their key features. We use 
the number of transistors required to implement the processors as an indication of how they have evolved in 
complexity (‘K denotes 1,000, and ‘M’ denotes 1,000,000). 


8086: (1978, 29 K transistors). One of the first single-chip, 16-bit microprocessors. The 8088, a version 
of the 8086 with an 8-bit external bus, formed the heart of the original IBM personal computers. 
IBM contracted with then-tiny Microsoft to develop the MS-DOS operating system. The original 
models came with 32,768 bytes of memory and two floppy drives (no hard drive). Architecturally, the 
machines were limited to a 655,360-byte address space—addresses were only 20 bits long (1,048,576 
bytes addressable), and the operating system reserved 393,216 bytes for its own use. 


80286: (1982, 134 K transistors). Added more (and now obsolete) addressing modes. Formed the basis of 
the IBM PC-AT personal computer, the original platform for MS Windows. 


i386: (1985, 275 K transistors). Expanded the architecture to 32 bits. Added the flat addressing model used 
by Linux and recent versions of the Windows family of operating system. This was the first machine 
in the series that could support a Unix operating system. 


i486: (1989, 1.9 M transistors). Improved performance and integrated the floating-point unit onto the pro- 
cessor chip but did not change the instruction set. 


Pentium: (1993, 3.1 M transistors). Improved performance, but only added minor extensions to the in- 
struction set. 


PentiumPro: (1995, 6.5 M transistors). Introduced a radically new processor design, internally known as 
the P6 microarchitecture. Added a class of “conditional move” instructions to the instruction set. 


Pentium/MMX: (1997, 4.5 M transistors). Added new class of instructions to the Pentium processor for 
manipulating vectors of integers. Each datum can be 1, 2, or 4-bytes long. Each vector totals 64 bits. 


Pentium II: (1997, 7 M transistors). Merged the previously separate PentiumPro and Pentium/MM<X lines 
by implementing the MMX instructions within the P6 microarchitecture. 


Pentium III: (1999, 8.2 M transistors). Introduced yet another class of instructions for manipulating vec- 
tors of integer or floating-point data. Each datum can be 1, 2, or 4 bytes, packed into vectors of 128 
bits. Later versions of this chip went up to 24 M transistors, due to the incorporation of the level-2 
cache on chip. 


Pentium 4: (2001, 42 M transistors). Added 8-byte integer and floating-point formats to the vector instruc- 
tions, along with 144 new instructions for these formats. Intel shifted away from Roman numerals in 
their numbering convention. 


Each successive processor has been designed to be backward compatible—able to run code compiled for any 
earlier version. As we will see, there are many strange artifacts in the instruction set due to this evolutionary 
heritage. Intel now calls its instruction set JA32, for “Intel Architecture 32-bit.” The processor line is also 
referred to by the colloquial name “x86,” reflecting the processor naming conventions up through the i486. 
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Aside: Why not the i586? 

Intel discontinued their numeric naming convention, because they were not able to obtain trademark protection for 
their CPU numbers. The U. S. Trademark office does not allow numbers to be trademarked. Instead, they coined the 
name “Pentium” using the the Greek root word penta as an indication that this was their fifth generation machine. 
Since then, they have used variants of this name, even though the PentiumPro is a sixth generation machine (hence 
the internal name P6), and the Pentium 4 is a seventh generation machine. Each new generation involves a major 
change in the processor design. End Aside. 


Over the years, several companies have produced processors that are compatible with Intel processors, ca- 
pable of running the exact same machine-level programs. Chief among these is AMD. For years, AMD’s 
strategy was to run just behind Intel in technology, producing processors that were less expensive although 
somewhat lower in performance. More recently, AMD has produced some of the highest performing pro- 
cessors for [A32. They were the first to the break the 1-gigahertz clock speed barrier for a commercially 
available microprocessor. Although we will talk about Intel processors, our presentation holds just as well 
for the compatible processors produced by Intel’s rivals. 


Much of the complexity of IA32 is not of concern to those interested in programs for the Linux operating 
system as generated by the GCC compiler. The memory model provided in the original 8086 and its exten- 
sions in the 80286 are obsolete. Instead, Linux uses what is referred to as flat addressing, where the entire 
memory space is viewed by the programmer as a large array of bytes. 


As we can see in the list of developments, a number of formats and instructions have been added to IA32 
for manipulating vectors of small integers and floating-point numbers. These features were added to allow 
improved performance on multimedia applications, such as image processing, audio and video encoding 
and decoding, and three-dimensional computer graphics. Unfortunately, current versions of GCC will not 
generate any code that uses these new features. In fact, in its default invocations GCC assumes it is generating 
code for an i386. The compiler makes no attempt to exploit the many extensions added to what is now 
considered a very old architecture. 


3.2 Program Encodings 


Suppose we write a C program as two files p1 . c and p2 . c. We would then compile this code using a Unix 
command line: 


unix> gcc =02 -o p pl.c p2.c 


The command gcc indicates the GNU C compiler GCC. Since this is the default compiler on Linux, we 
could also invoke it as simply cc. The flag -02 instructs the compiler to apply level-two optimizations. In 
general, increasing the level of optimization makes the final program run faster, but at a risk of increased 
compilation time and difficulties running debugging tools on the code. Level-two optimization is a good 
compromise between optimized performance and ease of use. All code in this book was compiled with this 
optimization level. 


This command actually invokes a sequence of programs to turn the source code into executable code. First, 
the C preprocessor expands the source code to include any files specified with #include commands and 
to expand any macros. Second, the compiler generates assembly code versions of the two source files having 
names p1 . s and p2 . s. Next, the assembler converts the assembly code into binary object code files p1 . o 
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and p2.o. Finally, the linker merges these two object files along with code implementing standard Unix 
library functions (e.g., print £) and generates the final executable file. Linking is described in more detail 
in Chapter 7. 


3.2.1 Machine-Level Code 


The compiler does most of the work in the overall compilation sequence, transforming programs expressed 
in the relatively abstract execution model provided by C into the very elementary instructions that the pro- 
cessor executes. The assembly code-representation is very close to machine code. Its main feature is that it 
is in a more readable textual format, as compared to the binary format of object code. Being able to under- 
stand assembly code and how it relates to the original C code is a key step in understanding how computers 
execute programs. 


The assembly programmer’s view of the machine differs significantly from that of a C programmer. Parts 
of the processor state are visible that are normally hidden from the C programmer: 


e The program counter ( called Seip) indicates the address in memory of the next instruction to be 
executed. 


e The integer register file contains eight named locations storing 32-bit values. These registers can 
hold addresses (corresponding to C pointers) or integer data. Some registers are used to keep track 
of critical parts of the program state, while others are used to hold temporary data, such as the local 
variables of a procedure. 


e The condition code registers hold status information about the most recently executed arithmetic 
instruction. These are used to implement conditional changes in the control flow, such as is required 
to implement if or while statements. 


e The floating-point register file contains eight locations for storing floating-point data. 


Whereas C provides a model where objects of different data types can be declared and allocated in memory, 
assembly code views the memory as simply a large, byte-addressable array. Aggregate data types in C such 
as arrays and structures are represented in assembly code as contiguous collections of bytes. Even for scalar 
data types, assembly code makes no distinctions between signed or unsigned integers, between different 
types of pointers, or even between pointers and integers. 


The program memory contains the object code for the program, some information required by the operating 
system, a run-time stack for managing procedure calls and returns, and blocks of memory allocated by the 
user, (for example, by using the malloc library procedure). 


The program memory is addressed using virtual addresses. At any given time, only limited subranges 
of virtual addresses are considered valid. For example, although the 32-bit addresses of IA32 potentially 
span a 4-gigabyte range of address values, a typical program will only have access to a few megabytes. The 
operating system manages this virtual address space, translating virtual addresses into the physical addresses 
of values in the actual processor memory. 


A single machine instruction performs only a very elementary operation. For example, it might add two 
numbers stored in registers, transfer data between memory and a register, or conditionally branch to a new 
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instruction address. The compiler must generate sequences of such instructions to implement program 
constructs such as arithmetic expression evaluation, loops, or procedure calls and returns. 


3.2.2 Code Examples 
Suppose we write a C code file code . c containing the following procedure definition: 
int accum = 0; 


int sum(int x, int y) 
{ 
int t =x + y; 
accum += t; 
return t; 


To see the assembly code generated by the C compiler, we can use the “—S” option on the command line: 
unix> gcc -02 -S code.c 


This will cause the compiler to generate an assembly file code.s and go no further. (Normally it would 
then invoke the assembler to generate an object code file). The assembly-code file contains various declara- 
tions including the set of lines: 


sum: 
pushl %ebp 

movl %esp,%ebp 
movl 12 (%ebp) , seax 
addl 8(%ebp),%eax 
addl %eax,accum 
movl sebp, sesp 
popl %sebp 

ret 


Each indented line in the above code corresponds to a single machine instruction. For example, the pushl 
instruction indicates that the contents of register %ebp should be pushed onto the program stack. All 
information about local variable names or data types has been stripped away. We still see a reference to the 
global variable accum, since the compiler has not yet determined where in memory this variable will be 
stored. 


If we use the *—c’ command line option, GCC will both compile and assemble the code: 
unix> gcc -02 -c code.c 


This will generate an object code file code . o that is in binary format and hence cannot be viewed directly. 
Embedded within the 852 bytes of the file code. o is a 19 byte sequence having hexadecimal representation: 


55 89 e5 8b 45 Oc 03 45 08 01 05 00 00 00 00 89 ec 5d c3 
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This is the object code corresponding to the assembly instructions listed above. A key lesson to learn from 
this is that the program actually executed by the machine is simply a sequence of bytes encoding a series of 
instructions. The machine has very little information about the source code from which these instructions 
were generated. 


Aside: How do I find the byte representation of a program? 
First we used a disassembler (to be described shortly) to determine that the code for sum is 19 bytes long. Then we 
ran the GNU debugging tool GDB on file code. o and gave it the command: 


(gdb) x/19xb sum 


telling it to examine (abbreviated ‘x’) 19 hex-formatted (also abbreviated ‘x’) bytes (abbreviated ‘b’). You will find 
that GDB has many useful features for analyzing machine-level programs, as will be discussed in Section 3.12. End 
Aside. 


To inspect the contents of object code files, a class of programs known as disassemblers can be invaluable. 
These programs generate a format similar to assembly code from the object code. With Linux systems, the 
program OBJDUMP (for “object dump”) can serve this role given the ‘-d’ command line flag: 


unix> objdump -d code.o 
The result is (where we have added line numbers on the left and annotations on the right): 


Disassembly of function sum in file code.o 


1 00000000 <sum>: 


Offset Bytes Equivalent assembly language 
2 One 55 push Sebp 
3 I$ 89 e5 mov %esp, sebp 
4 3 8b 45 Oc mov Oxc (%ebp) , eax 
5 6: 03 45 08 add 0x8 (sebp) , seax 
6 9% 01 05 00 00 00 00 add %eax, 0x0 
7 f: 89 ec mov %ebp, sesp 
8 1i: 20. pop sebp 
9 12: c3 ret 
10 13% 90 nop 


On the left we see the 19 hexadecimal byte values listed in the byte sequence earlier, partitioned into groups 
of 1 to 5 bytes each. Each of these groups is a single instruction, with the assembly language equivalent 
shown on the right. Several features are worth noting: 


e [A32 instructions can range in length from 1 to 15 bytes. The instruction encoding is designed so that 
commonly used instructions and ones with fewer operands require a smaller number of bytes than do 
less common ones or ones with more operands. 


e The instruction format is designed in such a way that from a given starting position, there is a unique 
decoding of the bytes into machine instructions. For example, only the instruction pushl %ebp can 
start with byte value 55. 
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e The disassembler determines the assembly code based purely on the byte sequences in the object file. 
It does not require access to the source or assembly-code versions of the program. 


e The disassembler uses a slightly different naming convention for the instructions than does GAS. In 
our example, it has omitted the suffix ‘1° from many of the instructions. 


e Compared to the assembly code in code.s we also see an additional nop instruction at the end. 
This instruction will never be executed (it comes after the procedure return instruction), nor would it 
have any effect if it were (hence the name nop, short for “no operation” and commonly spoken as 
“no op”). The compiler inserted this instruction as a way to pad the space used to store the procedure. 


Generating the actual executable code requires running a linker on the set of object code files, one of which 
must contain a function main. Suppose in file main. c we had the function: 


1 int main() 

2 { 

3 return sum(1, 3); 
4 


} 
Then we could generate an executable program test as follows: 


unix> gcc -02 -o prog code.o main.c 


The file prog has grown to 11,667 bytes, since it contains not just the code for our two procedures but also 
information used to start and terminate the program as well as to interact with the operating system. We can 
also disassemble the file prog: 


unix> objdump -Q prog 
The disassembler will extract various code sequences, including the following: 


Disassembly of function sum in executable file prog 


1 080483b4 <sum>: 

2 80483b4: 55 push Sebp 

3 80483b5: 89 e5 mov Sesp, sebp 

4 80483b7: 8b 45 Oc mov Oxc (%Sebp) , seax 
5 80483ba: 03 45 08 add 0x8 (Sebp) , Sseax 
6 80483bd: 01 05 64 94 04 08 add Seax, 0x8049464 
7 80483c3: 89 ec mov Sebp, sesp 

8 80483c5: 5d pop %ebp 

9 80483c6: c3 ret 

10 80483c7: 90 nop 


Note that this code is almost identical to that generated by the disassembly of code . c. One main difference 
is that the addresses listed along the left are different—the linker has shifted the location of this code to a 
different range of addresses. A second difference is that the linker has finally determined the location for 
storing global variable accum. On line 5 of the disassembly for code .o the address of accum was still 
listed as 0. In the disassembly of prog, the address has been set to 0x8049444. This is shown in the 
assembly code rendition of the instruction. It can also be seen in the last four bytes of the instruction, listed 
from least-significant to most as 44 94 04 08. 
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3.2.3 A Note on Formatting 


The assembly code generated by GCC is somewhat difficult to read. It contains some information with which 
we need not be concerned. On the other hand, it does not provide any description of the program or how it 
works. For example, suppose file simple . c contains the code: 


1 int simple(int *xp, int y) 
2 4 

3 int t = *xp + y; 

4 *xp = t}; 

5 return t; 

6 


when GCC is run with the ‘—S’ flag it generates the following file for simple.s. 


.file "simple.c" 

-version "O01" 
gcc2_compiled.: 
.text 

.align 4 
-globl simple 

.type simple, @function 
simple: 

pushl %ebp 

movl sesp, sebp 

movl 8(%ebp), %eax 

movl (%eax) , sedx 

addl 12(%ebp), sedx 

movl %edx, (Seax) 

movl %edx, teax 

movl sebp, sesp 

popl %ebp 

ret 
“Lfel: 

.Size simple, .Lfel-simple 


-ident "GCC: (GNU) 2.95.3 20010315 (release) " 


The file contains more information than we really require. All of the lines beginning with *.’ are directives 
to guide the assembler and linker. We can generally ignore these. On the other hand, there are no explanatory 
remarks about what the instructions do or how they relate to the source code. 


To provide a clearer presentation of assembly code, we will show it in a form that includes line numbers and 
explanatory annotations. For our example, an annotated version would appear as follows: 


1 simple: 
2 pushl %ebp Save frame pointer 
3 movl sesp, sebp Create new frame pointer 


4 movl 8(%ebp), %eax Get xp 
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Intel Data Type Size (Byles) 
1 


char Byte 

short Word 

int Double Word 
unsigned Double Word 
long int Double Word 
unsigned long } Double Word 
char * Double Word 
float Single Precision 
double Double Precision 
long double Extended Precision 


oO 


w 
1 
1 
1 
1 
I 
S 
下 
七 


Figure 3.1: Sizes of standard data types 


5 movl (%eax) , Sedx Retrieve *xp 

6 addl 12 (%ebp) , tedx Add y to get t 

7 movl %edx, (Seax) Store t at *xp 

8 movl %edx, teax Set t as return value 
9 movl %sebp, esp Reset stack pointer 
10 popl sebp Reset frame pointer 
11 ret Return 


We typically show only the lines of code relevant to the point being discussed. Each line is numbered on the 
left for reference and annotated on the right by a brief description of the effect of the instruction and how it 
relates to the computations of the original C code. This is a stylized version of the way assembly-language 
programmers format their code. 


3.3 Data Formats 


Due to its origins as a 16-bit architecture that expanded into a 32-bit one, Intel uses the term “word” to refer 
to a 16-bit data type. Based on this, they refer to 32-bit quantities as “double words.” They refer to 64-bit 
quantities as “quad words.” Most instructions we will encounter operate on bytes or double words. 


Figure 3.1 shows the machine representations used for the primitive data types of C. Note that most of the 
common data types are stored as double words. This includes both regular and long int’s, whether or 
not they are signed. In addition, all pointers (shown here as char *) are stored as 4-byte double words. 
Bytes are commonly used when manipulating string data. Floating-point numbers come in three different 
forms: single-precision (4-byte) values, corresponding to C data type float; double-precision (8-byte) 
values, corresponding to C data type double; and extended-precision (10-byte) values. GCC uses the 
data type long double to refer to extended-precision floating-point values. It also stores them as 12- 
byte quantities to improve memory system performance, as will be discussed later. Although the ANSI C 
standard includes long double as a data type, they are implemented for most combinations of compiler 
and machine using the same 8-byte format as ordinary double. The support for extended precision is 
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31 15 87 0 

%eax Sax sah sal 

Secx SCX sch scl 

Sedx SAX sdh Sal 

Sebx Sax $bh Sbl 

Sesp ssp] | Stack Pointer 
Sebp sbp| | Frame Pointer 


Figure 3.2: Integer Registers. All eight registers can be accessed as either 16 bits (word) or 32 bits (double 
word). The two low-order bytes of the first four registers can be accessed independently. 


unique to the combination of GCC and IA32. 


As the table indicates, every operation in GAS has a single-character suffix denoting the size of the operand. 
For example, the mov (move data) instruction has 3 variants: movb (move byte), movw (move word), 
and mov1 (move double word). The suffix ‘1’ is used for double words, since on many machines 32-bit 
quantities are referred to as “long words,” a holdover from an era when 16-bit word sizes were standard. 
Note that GAS uses the suffix ‘1’ to denote both a 4-byte integer as well as an 8-byte double-precision 
floating-point number. This causes no ambiguity, since floating point involves an entirely different set of 
instructions and registers. 


3.4 Accessing Information 


An IA32 central processing unit (CPU) contains a set of eight registers storing 32-bit values. These registers 
are used to store integer data as well as pointers. Figure 3.2 diagrams the eight registers. Their names all 
begin with Ze, but otherwise they have peculiar names. With the original 8086, the registers were 16-bits 
and each had a specific purpose. The names were chosen to reflect these different purposes. With flat 
addressing, the need for specialized registers is greatly reduced. For the most part, the first 6 registers can 
be considered general-purpose registers with no restrictions placed on their use. We said “for the most part,” 
because some instructions use fixed registers as sources and/or destinations. In addition, within procedures 
there are different conventions for saving and restoring the first three registers (eax, Secx, and Sedx), 
than for the next three (Sebx, %edi, and esi). This will be discussed in Section 3.7. The final two 
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Imm Mem| Imm] Absolute 
(Ea) [ [Ea] Indirect 
Imm (Ep) [ [ Base + Displacement 


(Ey, Ei) [Reg|Ep| Indexed 
Imm (Ep, Ei) [ [ ; Indexed 
(, Ej, 8) [Reg|E;] - Scaled Indexed 
Imm (, Ej, 8) [ [E;] - Scaled Indexed 
(Ep, Ej, $) [Reg|Ep| i] Scaled Indexed 
Imm (Ep, Ei; 8) [ |- Scaled Indexed 


Figure 3.3: Operand Forms. Operands can denote immediate (constant) values, register values, or values 
from memory. The scaling factor s must be either 1, 2, 4, or 8. 


registers (Sebp and %esp) contain pointers to important places in the program stack. They should only be 
altered according to the set of standard conventions for stack management. 


As indicated in Figure 3.2, the low-order two bytes of the first four registers can be independently read or 
written by the byte operation instructions. This feature was provided in the 8086 to allow backward com- 
patibility to the 8008 and 8080—two 8-bit microprocessors that date back to 1974. When a byte instruction 
updates one of these single-byte “register elements,” the remaining three bytes of the register do not change. 
Similarly, the low-order 16 bits of each register can be read or written by word operation instructions. This 
feature stems from IA32’s evolutionary heritage as a 16-bit microprocessor. 


3.4.1 Operand Specifiers 


Most instructions have one or more operands, specifying the source values to reference in performing an 
operation and the destination location into which to place the result. IA32 supports a number of operand 
forms (Figure 3.3). Source values can be given as constants or read from registers or memory. Results can 
be stored in either registers or memory. Thus, the different operand possibilities can be classified into three 
types. The first type, immediate, is for constant values. With GAS, these are written with a ‘$° followed 
by an integer using standard C notation, such as, $-577 or $0x1F. Any value that fits in a 32-bit word 
can be used, although the assembler will use one or two-byte encodings when possible. The second type, 
register, denotes the contents of one of the registers, either one of the eight 32-bit registers (e.g., eax) fora 
double-word operation, or one of the eight single-byte register elements (e.g., Sal) for a byte operation. In 
our figure, we use the notation E, to denote an arbitrary register a, and indicate its value with the reference 
Reg|Ea], viewing the set of registers as an array Reg indexed by register identifiers. 


The third type of operand is a memory reference, in which we access some memory location according to a 
computed address, often called the effective address. As the table shows, there are many different addressing 
modes allowing different forms of memory references. The most general form is shown at the bottom of the 
table with syntax Imm (Ep, Ei;, $). Such a reference has four components: an immediate offset Imm, a base 
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movl SDID es Move Double Word 


D + ZeroExtend(S) Move Zero-Extended Byte 


pushl S$ Reg[sesp] + Reg[sesp] — 4; 

ian Mem|Reg|zesp]] + 

popl D D + Mem|Reg[%esp}]; 
A | 


Figure 3.4: Data Movement Instructions. 


register Ep, an index register E;, and a scale factor s, where s must be 1, 2, 4, or 8. The effective address is 
then computed as Imm + Reg[E,| + Reg|E;] : s. This general form is often seen when referencing elements 
of arrays. The other forms are simply special cases of this general form where some of the components 
are omitted. As we will see, the more complex addressing modes are useful when referencing array and 
structure elements. 


Practice Problem 3.1: 


Assume the following values are stored at the indicated memory addresses and registers: 


Fill in the following table showing the values for the indicated operands 


ex | 
xoa | 
sm | 
Geax) | 


eea | 
Geax sean | | 
[260 secx, tea | | 
E | | 
eax, tedx, 4) | | 
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3.4.2 Data Movement Instructions 


Among the most heavily used instructions are those that perform data movement. The generality of the 
operand notation allows a simple move instruction to perform what in many machines would require a 
number of instructions. Figure 3.4 lists the important data movement instructions. The most common is the 
mov 1 instruction for moving double words. The source operand designates a value that is immediate, stored 
in a register, or stored in memory. The destination operand designates a location that is either a register or 
a memory address. [A32 imposes the restriction that a move instruction cannot have both operands refer to 
memory locations. Copying a value from one memory location to another requires two instructions—the 
first to load the source value into a register, and the second to write this register value to the destination. 


The following are some examples of mov 1 instructions showing the five possible combinations of source 
and destination types. Recall that the source operand comes first and the destination second. 


1 movl $0x4050, %eax Immediate--Register 
2 movl sebp, sesp Register--Register 
3 movl (%edi, %ecx) , eax Memory--Register 

4 movl S-17, (%esp) Immediate--Memory 

5 movl %eax,-12 (%ebp) Register--Memory 


The movb instruction is similar, except that it moves just a single byte. When one of the operands is a 
register, it must be one of the eight single-byte register elements illustrated in Figure 3.2. Similarly, the 
movw instruction moves two bytes. When one of its operands is a register, it must be one of the eight 
two-byte register elements shown in Figure 3.2. 


Both the movsb1 and the movzb1 instruction serve to copy a byte and to set the remaining bits in the 
destination. The movsbl instruction takes a single-byte source operand, performs a sign extension to 32 
bits (i.e., it sets the high-order 24 bits to the most significant bit of the source byte), and copies this to a 
double-word destination. Similarly, the movzb1 instruction takes a single-byte source operand, expands it 
to 32 bits by adding 24 leading zeros, and copies this to a double-word destination. 


Aside: Comparing byte movement instructions. 
Observe that the three byte movement instructions movb, movsb1, and movzb1 differ from each other in subtle 


ways. Here is an example: 


Assume initially that %@dh = 8D, %eax = 98765432 


a movb %dh, %al Seax = 9876548D 
2 movsbl %dh, %eax $eax = FFFFFF8D 
3 movzbl %Sdh, %eax geax = 0000008D 


In these examples, all set the low-order byte of register eax to the second byte of $edx. The movb instruction 
does not change the other three bytes. The movsb1 instruction sets the other three bytes to either all ones or all 
zeros depending on the high-order bit of the source byte. The movzb1 instruction sets the other three bytes to all 
zeros in any case. End Aside. 


The final two data movement operations are used to push data onto and pop data from the program stack. As 
we will see, the stack plays a vital role in the handling of procedure calls. Both the push1 and the pop1 
instructions take a single operand—the data source for pushing and the data destination for popping. The 
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code/asm/exchange.c 1 movl 8 (%ebp),%eax Get xp 
2 movl 12 (%ebp) , sedx Get y 

1 int exchange (int “xp, int y) 3 movl (%eax),%ecx Get x at *xp 
2 { 4 movl %edx, (%eax) Store y at *xp 
3 int x = *xp; 5 movl %ecx,%eax Set x as return value 
4 
5 *xp = Yi 
6 return x; 
7 } 

code/asm/exchange.c 

(a) C code (b) Assembly code 


Figure 3.5: C and Assembly Code for Exchange Routine Body. The stack set-up and completion portions 
have been omitted. 


program stack is stored in some region of memory. The stack grows downward such that the top element 
of the stack has the lowest address of all stack elements. The stack pointer esp holds the address of this 
lowest stack element. Pushing a double-word value onto the stack therefore involves first decrementing the 
stack pointer by 4 and then writing the value at the new top of stack address. Therefore, the instruction 
pushl %ebp has equivalent behavior to the following pair of instructions: 


subl $4,%esp 
movl %sebp, (Sesp) 


except that the push 1 instruction is encoded in the object code as a single byte, whereas the pair of instruc- 
tion shown above requires a total of 6 bytes. Popping a double word involves reading from the top of stack 
location and then incrementing the stack pointer by 4. Therefore the instruction popl %eax is equivalent 
to the following pair of instructions: 


movl (%esp),%eax 
addl $4,%esp 
3.4.3 Data Movement Example 


New to C? 
Function exchange (Figure 3.5) provides a good illustration of the use of pointers in C. Argument xp is a pointer 
to an integer, while y is an integer itself. The statement 


int x = *xp; 
indicates that we should read the value stored in the location designated by xp and store it as a local variable named 
x. This read operation is known as pointer dereferencing. The C operator * performs pointer dereferencing. 


The statement 


*xp = y; 
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does the reverse—it writes the value of parameter y at the location designated by xp. This also a form of pointer 
dereferencing (and hence the operator *), but it indicates a write operation since it is on the left hand side of the 
assignment statement. 


Here is an example of exchange in action: 


int a = 4; 
int b = exchange (&a, 3); 
printf("a = %d, b = Sd\n", a, b); 


This code will print 


The C operator (called the “address of” operator) & creates a pointer, in this case to the location holding local 
variable a. Function exchange then overwrote the value stored in a with 3 but returned 4 as the function value. 
Observe how by passing a pointer to exchange, it could modify data held at some remote location. End 


As an example of code that uses data movement instructions, consider the data exchange routine shown in 
Figure 3.5, both as C code and as assembly code generated by GCC. We omit the portion of the assembly 
code that allocates space on the run-time stack on procedure entry and deallocates it prior to return. The 
details of this set-up and completion code will be covered when we discuss procedure linkage. The code we 
are left with is called the “body.” 


When the body of the procedure starts execution, procedure parameters xp and y are stored at offsets 8 and 
12 relative to the address in register Sebp. Instructions 1 and 2 then move these parameters into registers 
%eax and %edx. Instruction 3 dereferences xp and stores the value in register %ecx, corresponding to 
program value x. Instruction 4 stores y at xp. Instruction 5 moves x to register Seax. By convention, 
any function returning an integer or pointer value does so by placing the result in register Se ax, and so this 
instruction implements line 6 of the C code. This example illustrates how the mov 1 instruction can be used 
to read from memory to a register (instructions 1 to 3), to write from a register to memory (instruction 4), 
and to copy from one register to another (instruction 5). 


Two features about this assembly code are worth noting. First, we see that what we call “pointers” in C 
are simply addresses. Dereferencing a pointer involves putting that pointer in a register, and then using this 
register in an indirect memory reference. Second, local variables such as x are often kept in registers rather 
than stored in memory locations. Register access is much faster than memory access. 


Practice Problem 3.2: 


You are given the following information. A function with prototype 
void decodel(int *xp, int *yp, int *zp); 
is compiled into assembly code. The body of the code is as follows: 


in movl 8 (%ebp 


) ， 
2 movl 12 (%ebp) ,%ebx 
3 movl 16(%ebp),%esi 
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Load Effective Address 


Increment 

Decrement 

Negate 

Complement 

Add 

Subtract 

Multiply 
Exclusive-Or 

Or 

And 

Left Shift 

Left Shift (same as sa11) 
Arithmetic Right Shift 
Logical Right Shift 
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D 
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Figure 3.6: Integer Arithmetic Operations. The Load Effective Address leal is commonly used to 
perform simple arithmetic. The remaining ones are more standard unary or binary operations. Note the 
nonintuitive ordering of the operands with GAS. 


movl (%edi),%eax 
movl (%ebx) , Sedx 
movl (%esi),%eCx 


r 
movl %eax, (Sebx) 
movl %edx, (%esi) 


O ONAN HD oH BS 


movl %ecx, (%edi) 


Parameters xp, yp, and zp are stored at memory locations with offsets 8, 12, and 16, respectively, 
relative to the address in register Sebp. 

Write C code for decode1 that will have an effect equivalent to the assembly code above. You can 
test your answer by compiling your code with the -S switch. Your compiler may generate code that 
differs in the usage of registers or the ordering of memory references, but it should still be functionally 
equivalent. 


3.5 Arithmetic and Logical Operations 


Figure 3.6 lists some of the double-word integer operations, divided into four groups. Binary operations 
have two operands, while unary operations have one operand. These operands are specified using the same 
notation as described in Section 3.4. With the exception of 1ea1, each of these instructions has a counterpart 
that operates on words (16 bits) and on bytes. The suffix ‘1’ is replaced by ‘w’ for word operations and ‘p’ 
for the byte operations. For example, add1 becomes addw or addb. 
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3.5.1 Load Effective Address 


The Load Effective Address 1eal instruction is actually a variant of the mov 1 instruction. Its first operand 
appears to be a memory reference, but instead of reading from the designated location, the instruction copies 
the effective address to the destination. We indicate this computation in Figure 3.6 using the C address 
operator &9. This instruction can be used to generate pointers for later memory references. In addition, it 
can be used to compactly describe common arithmetic operations. For example, if register %edx contains 
value x, then the instruction leal 7 (Sedx, Sedx, 4), %eax will set register eax to 54 + 7. The 
destination operand must be a register. 


Practice Problem 3.3: 


Suppose register eax holds value x and %ecx holds value y. Fill in the table below with formu- 
las indicating the value that will be stored in register %edx for each of the following assembly code 
instructions. 


leal 6(%eax), %edx 
leal (%eax, Secx), 


leal (%eax, Secx,4), 
leal 7(%eax, teax, 8), 
leal OxA(,Secx,4), 


leal 9(%eax,%ecx,2), Se | 


3.5.2 Unary and Binary Operations 


Operations in the second group are unary operations, with the single operand serving as both source and 
destination. This operand can be either a register or a memory location. For example, the instruction incl 
(%esp) causes the element on the top of the stack to be incremented. This syntax is reminiscent of the C 
increment (++) and decrement operators (——). 


The third group consists of binary operations, where the second operand is used as both a source and a 
destination. This syntax is reminiscent of the C assignment operators such as +=. Observe, however, 
that the source operand is given first and the destination second. This looks peculiar for noncommutative 
operations. For example, the instruction subl %eax, Sedx decrements register Sedx by the value in 
%eax. The first operand can be either an immediate value, a register, or a memory location. The second can 
be either a register or a memory location. As with the mov1 instruction, however, the two operands cannot 
both be memory locations. 


Practice Problem 3.4: 


Assume the following values are stored at the indicated memory addresses and registers: 


0x3 
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Fill in the following table showing the effects of the following instructions, both in terms of the register 
or memory location that will be updated and the resulting value. 


addl %ecx, (Seax) 
subl %edx, 4 (%eax) 


imull $16, (%eax,%edx,4) | | | 
incl 8 (eax) ee oe 
oecl ecx | | | 
[subl tedx,teax | | | 


3.5.3 Shift Operations 


The final group consists of shift operations, where the shift amount is given first, and the value to shift 
is given second. Both arithmetic and logical right shifts are possible. The shift amount is encoded as a 
single byte, since only shifts amounts between 0 and 31 are allowed. The shift amount is given either as an 
immediate or in the single-byte register element %c1. As Figure 3.6 indicates, there are two names for the 
left shift instruction: sall and sh11. Both have the same effect, filling from the right with Os. The right 
shift instructions differ in that sar1 performs an arithmetic shift (fill with copies of the sign bit), whereas 
shr1 performs a logical shift (fill with Os). 


Practice Problem 3.5: 


Suppose we want to generate assembly code for the following C function: 


int shift_left2_rightn(int x, int n) 
{ 

x <<= 2; 

x >>= n; 

return x; 


The following is a portion of the assembly code that performs the actual shifts and leaves the final value 
in register $eax. Two key instructions have been omitted. Parameters x and n are stored at memory 
locations with offsets 8 and 12, respectively, relative to the address in register %ebp. 


1 movl 12 (%ebp),%ecx Get x 
2 movl 8(%ebp), seax Get n 
3 x <<= 2 
4 x >>=n 


Fill in the missing instructions, following the annotations on the right. The right shift should be per- 
formed arithmetically. 
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code/asm/arith.c 1 movl 12(%ebp), Seax Get y 
2 movl 16(%ebp), sedx Get z 

1 int arith(int x, 3 addl 8(%ebp), eax Compute £1 = xty 
2 int y, 4 leal (%edx,%edx,2),%edx Compute zx3 
3 int z) 5 sall $4, %edx Compute t2 = z*48 
4 { 6 andl $65535,%eax Compute t3 = t1&0xFFFF 
5 int tl = xty; 7 imull %eax, %edx Compute t4 = t2*t3 
6 int t2 = 2*48; 8 movl %edx, teax Set t4 as return val 
7 int t3 = t1 & OxFFFF; 
8 int t4 = t2 * t3; 
9 
10 return t4; 
1 4 

code/asm/arith.c 

(a) C code (b) Assembly code 


Figure 3.7: C and Assembly Code for Arithmetic Routine Body. The stack set-up and completion portions 
have been omitted. 


3.5.4 Discussion 


With the exception of the right shift operations, none of the instructions distinguish between signed and 
unsigned operands. Two’s complement arithmetic has the same bit-level behavior as unsigned arithmetic 
for all of the instructions listed. 


Figure 3.7 shows an example of a function that performs arithmetic operations and its translation into as- 
sembly. As before, we have omitted the stack set-up and completion portions. Function arguments x, y, 
and z are stored in memory at offsets 8, 12, and 16 relative to the address in register ebp, respectively. 


Instruction 3 implements the expression x+y, getting one operand y from register eax (which was fetched 
by instruction 1) and the other directly from memory. Instructions 4 and 5 perform the computation z* 48, 
first using the leal instruction with a scaled-indexed addressing mode operand to compute (z + 2z) = 3z, 
and then shifting this value left 4 bits to compute 24.3z = 48z. The C compiler often generates combinations 
of add and shift instructions to perform multiplications by constant factors, as was discussed in Section 2.3.6 
(page 63). Instruction 6 performs the AND operation and instruction 7 performs the final multiplication. 
Then instruction 8 moves the return value into register eax. 


In the assembly code of Figure 3.7, the sequence of values in register eax correspond to program values 
y, t1, t3, and t 4 (as the return value). In general, compilers generate code that uses individual registers 
for multiple program values and that move program values among the registers. 


Practice Problem 3.6: 


In the compilation of the following loop: 


we find the following assembly code line: 
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Et 


imull S | Reg[%edx]: Signed Full Multiply 
mull 5 | Reg[%edx]: Unsigned Full Multiply 


idivl 3 [sedx] Signed Divide 
[seax] : 
| ; Unsigned Divide 


Figure 3.8: Special Arithmetic Operations. These operations provide full 64-bit multiplication and divi- 
sion, for both signed and unsigned numbers. The pair of registers $edx and %eax are viewed as forming a 
single 64-bit quad word. 


xorl %edx,%edx 


Explain why this instruction would be there, even though there are no EXCLUSIVE-OR operators in our 
C code. What operation in the C program does this instruction implement? 


3.5.5 Special Arithmetic Operations 


Figure 3.8 describes instructions that support generating the full 64-bit product of two 32-bit numbers, as 
well as integer division. 


The imull instruction listed in Figure 3.6 is known as the “two-operand” multiply instruction. It gen- 
erates a 32-bit product from two 32-bit operands, implementing the operations *35 and *5 described in 
Sections 2.3.4 and 2.3.5 (pages 61 and 62). Recall that when truncating the product to 32 bits, both un- 
signed multiply and two’s complement multiply have the same bit-level behavior. IA32 also provides two 
different “one-operand” multiply instructions to compute the full 64-bit product of two 32-bit values—one 
for unsigned (mu11), and one for two’s complement (imu11) multiplication. For both of these, one argu- 
ment must be in register eax, and the other is given as the instruction source operand. The product is then 
stored in registers Sedx (high-order 32 bits) and seax (low-order 32 bits). Note that although the name 
imu11 is used for two distinct multiplication operations, the assembler can tell which one is intended by 
counting the number of operands. 


As an example, suppose we have signed numbers x and y stored at positions 8 and 12 relative to sebp, and 
we want to store their full 64-bit product as 8 bytes on top of the stack. The code would proceed as follows: 


x at %ebp+8, y at Sebp+12 


al movl 8(%ebp), %eax Put x in %eax 

2 imull 12 (%ebp) Multiply by y 

3 pushl %edx Push high-order 32 bits 
4 pushl %eax Push low-order 32 bits 


Observe that the order in which we push the two registers is correct for a little-endian machine in which the 
stack grows toward lower addresses, i.e., the low-order bytes of the product will have lower addresses than 
the high-order bytes. 
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Our earlier table of arithmetic operations (Figure 3.6) does not list any division or modulus operations. These 
operations are provided by the single-operand divide instructions similar to the single-operand multiply 
instructions. The signed division instruction idiv1 takes as dividend the 64-bit quantity in registers sedx 
(high-order 32 bits) and eax (low-order 32 bits). The divisor is given as the instruction operand. The 
instructions store the quotient in register eax and the remainder in register $edx. The cltd! instruction 
can be used to form the 64-bit dividend from a 32-bit value stored in register Seax. This instruction sign 
extends Seax into tedx. 


As an example, suppose we have signed numbers x and y stored in positions 8 and 12 relative to Sebp, and 
we want to store values x/y and x%y on the stack. The code would proceed as follows: 


x at %ebp+8, y at Sebp+12 


1 movl 8(%ebp),%eax Put x in %eax 

2 cltd Sign extend into %edx 
3 idivl 12 (%ebp) Divide by y 

4 pushl %eax Push x / y 

5 pushl %edx Push x % y 


The div1 instruction performs unsigned division. Typically register %edx is set to 0 beforehand. 


3.6 Control 


Up to this point, we have considered ways to access and operate on data. Another important part of program 
execution is to control the sequence of operations that are performed. The default for statements in C as 
well as for assembly code is to have control flow sequentially, with statements or instructions executed in 
the order they appear in the program. Some constructs in C, such as conditionals, loops, and switches, allow 
the control to flow in nonsequential order, with the exact sequence depending on the values of program data. 


Assembly code provides lower-level mechanisms for implementing nonsequential control flow. The basic 
operation is to jump to a different part of the program, possibly contingent on the result of some test. The 
compiler must generate instruction sequences that build upon these low-level mechanisms to implement the 
control constructs of C. 


In our presentation, we first cover the machine-level mechanisms and then show how the different control 
constructs of C are implemented with them. 


3.6.1 Condition Codes 


In addition to the integer registers, the CPU maintains a set of single-bit condition code registers describing 
attributes of the most recent arithmetic or logical operation. These registers can then be tested to perform 
conditional branches. The most useful condition codes are: 


CF: Carry Flag. The most recent operation generated a carry out of the most significant bit. Used to detect 
overflow for unsigned operations. 


'This instruction is called cdq in the Intel documentation, one of the few cases where the GAS name for an instruction bears no 
relation to the Intel name. 
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ZF: Zero Flag. The most recent operation yielded zero. 
SF: Sign Flag. The most recent operation yielded a negative value. 


OF: Overflow Flag. The most recent operation caused a two’s complement overflow—either negative or 
positive. 


For example, suppose we used the add1 instruction to perform the equivalent of the C expression t=atb, 
where variables a, b, and t are of type int. Then the condition codes would be set according to the 
following C expressions: 


CF: (unsigned t) < (unsigned a) Unsigned overflow 
ZF: (t == 0) Zero 

SF: (t < 0) Negative 

OF: (a < 0 == b < 0) && (t < 0 != a < 0) Signed overflow 


The leal instruction does not alter any condition codes, since it is intended to be used in address compu- 
tations. Otherwise, all of the instructions listed in Figure 3.6 cause the condition codes to be set. For the 
logical operations, such as xor 1, the carry and overflow flags are set to 0. For the shift operations, the carry 
flag is set to the last bit shifted out, while the overflow flag is set to 0. 


In addition to the operations of Figure 3.6, two operations (having 8, 16, and 32-bit forms) set conditions 
codes without altering any other registers: 


cmpb S2, 91 | 91 - S2 | Compare bytes 
testb So, S1 | S1 & So | Test byte 


cmpw S2, 91 | 91 - S2 | Compare words 
testw Sə, 91 | S1 & S2 | Test word 


cmp 1 S2, S1 | 91 - S2 | Compare double words 
testl Sə, Sı | S1 & Sə | Test double word 


The cmpb, cmpw, and cmp1 instructions set the condition codes according to the difference of their two 
operands. With GAS format, the operands are listed in reverse order, making the code difficult to read. These 
instructions set the zero flag if the two operands are equal. The other flags can be used to determine ordering 
relations between the two operands. 


The testb, testw, and test1 instructions set the zero and negative flags based on the AND of their 
two operands. Typically, the same operand is repeated (e.g., test 1 teax, eax to see whether Seax is 
negative, zero, or positive), or one of the operands is a mask indicating which bits should be tested. 


3.6.2 Accessing the Condition Codes 


Rather than reading the condition codes directly, the two most common methods of accessing them are to 
set an integer register or to perform a conditional branch based on some combination of condition codes. 


The different set instructions described in Figure 3.9 set a single byte to 0 or to 1 depending on some 
combination of the conditions codes. The destination operand is either one of the eight single-byte register 
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sete D | setz D + ZF Equal / Zero 
sets D + SF Negative 


setnle | D + ~ (SF * OF) & “ZF | Greater (Signed >) 


setnl D + -~ (SF ^ OF) Greater or Equal (Signed >=) 
setnge | D + SF ^ OF Less (Signed <) 

setng D + (SF ^ OF) | ZF Less or Equal (Signed <=) 
setnbe | D+ ~“CF&”ZF Above (Unsigned >) 

setnb D + CRF Above or Equal (Unsigned >=) 
setnae | D + CF Below (Unsigned <) 

setna D + CF& ZF Below or Equal (Unsigned <=) 


Figure 3.9: The set Instructions. Each instruction sets a single byte to 0 or 1 based on some combination 
of the condition codes. Some instructions have “synonyms,” i.e., alternate names for the same machine 
instruction. 


elements (Figure 3.2) or a memory location where the single byte is to be stored. To generate a 32-bit result, 
we must also clear the high-order 24 bits. A typical instruction sequence for a C predicate such as a<b is 
therefore as follows 


Note: a is in %edx, b is in teax 


1 cmpl %eax, Sedx Compare a:b 
2 setl Sal Set low order byte of %eax to 0 or 1 
3 movzbl tal, teax Set remaining bytes of %eax to 0 


using the movzb1 instruction to clear the high-order three bytes. 


For some of the underlying machine instructions, there are multiple possible names, which we list as “syn- 
onyms.” For example both “setg” (for “SET-Greater”) and “setnle” (for “SET-Not-Less-or-Equal”) 
refer to the same machine instruction. Compilers and disassemblers make arbitrary choices of which names 
to use. 


Although all arithmetic operations set the condition codes, the descriptions of the different set commands 
apply to the case where a comparison instruction has been executed, setting the condition codes according to 
the computation t=a-—b. For example, consider the sete, or “Set when equal” instruction. When a = b, 
we will have t = 0, and hence the zero flag indicates equality. 


Similarly, consider testing a signed comparison with the set1, or “Set when less,” instruction. When a 
and b are in two’s complement form, then for a < b we will have a — b < 0 if the true difference were 
computed. When there is no overflow, this would be indicated by having the sign flag set. When there is 
positive overflow, because a — b is a large positive number, however, we will have t < 0. When there 
is negative overflow, because a — b is a small negative number, we will have t > 0. In either case, the 
sign flag will indicate the opposite of the sign of the true difference. Hence, the EXCLUSIVE-OR of the 
overflow and sign bits provides a test for whether a < b. The other signed comparison tests are based on 
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other combinations of SF ^ OF and ZF. 


For the testing of unsigned comparisons, the carry flag will be set by the cmp1 instruction when the integer 
difference a — b of the unsigned arguments a and b would be negative, that is, when (unsigned) a < 
(unsigned) b. Thus, these tests use combinations of the carry and zero flags. 


Practice Problem 3.7: 


In the following C code, we have replaced some of the comparison operators with “__” and omitted the 
data types in the casts. 


1 char ctest(int a, int b, int c) 

2 { 

3 char tl a b; 
4 char t2 = b ( ) a; 
5 char t3 = ( joie a ) a; 
6 char t4 = ( )a__ ( ) C}; 
7 char t5 = oa b; 
8 char t6 = a 0; 
9 return tl + t2 + t3 + t4 + t5 + t6; 
10 } 


For the original C code, GCC generates the following assembly code 


1 movl 8(%ebp),%ecx Get a 

2 movl 12 (%ebp),%esi Get b 

3 cmpl %esi,%ecx Compare a:b 
4 setl Sal Compute t1 
5 cmpl %ecx,%esi Compare b:a 
6 setb -1 (%ebp) Compute t2 
7 cmpw %cx,16(%ebp) Compare c:a 
8 setge -2 (%ebp) Compute t3 
9 movb %cl,%dl 

10 cmpb 16(%ebp),%dl Compare a:c 
11 setne %bl Compute t4 
12 cmpl %esi,16(%ebp) Compare c:b 
13 setg -3 (%ebp) Compute t5 
14 testl %ecx, tecx Test a 

15 setg sdl Compute t4 
16 addb -1(%ebp),%al Add t2 to tł 
17 addb -2(%ebp),%al Add t3 to t1 
18 addb %bl1,%al Add t4 to t1 
19 addb -3(%ebp),%al Add t5 to t1 
20 addb %d1,%al Add t6 to tl 
21 movsbl %al,%eax Convert sum from char to int 


Based on this assembly code, fill in the missing parts (the comparisons and the casts) in the C code. 
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jmp Label 1 Direct Jump 
je Label JZ ZF Equal / Zero 
js Label SF Negative 


“(SF * OF) & “ZF | Greater (Signed >) 
Greater or Equal (Signed >=) 
Less (Signed <) 
Less or Equal (Signed <=) 
Above (Unsigned >) 
Above or Equal (Unsigned >=) 
Below (Unsigned <) 
Below or Equal (Unsigned <=) 


Figure 3.10: The jump Instructions. These instructions jump to a labeled destination when the jump 
condition holds. Some instructions have “synonyms,” alternate names for the same machine instruction. 


3.6.3 Jump Instructions and their Encodings 


Under normal execution, instructions follow each other in the order they are listed. A jump instruction can 
cause the execution to switch to a completely new position in the program. These jump destinations are 
generally indicated by a label. Consider the following assembly code sequence: 


al xorl %teax, Seax Set eax to 0 

2 jmp .L1 Goto .L1 

3 movl (%eax) , Sedx Null pointer dereference 
4 Ll 

5 popl %tedx 


The instruction jmp .LI will cause the program to skip over the mov 1 instruction and instead resume exe- 
cution with the pop] instruction. In generating the object code file, the assembler determines the addresses 
of all labeled instructions and encodes the jump targets (the addresses of the destination instructions) as part 
of the jump instructions. 


The jmp instruction jumps unconditionally. It can be either a direct jump, where the jump target is encoded 
as part of the instruction, or an indirect jump, where the jump target is read from a register or a memory 
location. Direct jumps are written in assembly by giving a label as the jump target, e.g., the label “. L1” in 
the code above. Indirect jumps are written using ‘*’ followed by an operand specifier using the same syntax 
as used for the mov 1 instruction. As examples, the instruction 


jmp *%Seax 


uses the value in register eax as the jump target, while 
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jmp * (%eax) 


reads the jump target from memory, using the value in eax as the read address. 


The other jump instructions either jump or continue executing at the next instruction in the code sequence 
depending on some combination of the condition codes. Note that the names of these instructions and the 
conditions under which they jump match those of the set instructions. As with the set instructions, some 
of the underlying machine instructions have multiple names. Conditional jumps can only be direct. 


Although we will not concern ourselves with the detailed format of object code, understanding how the 
targets of jump instructions are encoded will become important when we study linking in Chapter 7. In 
addition, it helps when interpreting the output of a disassembler. In assembly code, jump targets are written 
using symbolic labels. The assembler, and later the linker, generate the proper encodings of the jump targets. 
There are several different encodings for jumps, but some of the most commonly used ones are PC-relative. 
That is, they encode the difference between the address of the target instruction and the address of the 
instruction immediately following the jump. These offsets can be encoded using one, two, or four bytes. A 
second encoding method is to give an “absolute” address, using four bytes to directly specify the target. The 
assembler and linker select the appropriate encodings of the jump destinations. 

As an example, the following fragment of assembly code was generated by compiling a file silly.c. 


It contains two jumps: the jle instruction on line 1 jumps forward to a higher address, while the jg 
instruction on line 8 jumps back to a lower one. 


1 jle .L4 If <, goto dest2 

2 -p2align 4,,7 Aligns next instruction to multiple of 8 
3 «oe dest1: 

4 movl %edx, teax 

5 sarl $1,%eax 

6 subl %Seax, tedx 

7 testl %edx, tedx 

8 jg .L5 If >, goto destl 

9 .L4: dest2: 

10 movl %edx, teax 


Note that line 2 is a directive to the assembler that causes the address of the following instruction to begin on 
a multiple of 16, but leaving a maximum of 7 wasted bytes. This directive is intended to allow the processor 
to make optimal use of the instruction cache memory. 


The disassembled version of the “ . o” format generated by the assembler is as follows: 


1 8: Je 11 jle lb <silly+0xlb> Target = dest2 
2 a: 8d b6 00 00 00 00 lea 0x0 (%Sesi),%esi Added nops 

3 10's 89 dod mov Sedx, eax dest1: 

4 12: cl £8 O1 sar $0x1, eax 

5 15: 29 c2 sub Seax, $edx 

6 17: 85 d2 test Sedx, Sedx 

7 19; LE. f5 Jg 10 <silly+0x10> Target = desti 
8 Ilb: 89 dod mov Sedx, eax dest2: 


The “lea 0x0 (%esi) ,%esi” instruction in line 2 has no real effect. It serves as a 6-byte nop so that 
the next instruction (line 3) has a starting address that is a multiple of 16. 
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In the annotations generated by the disassembler on the right, the jump targets are indicated explicitly as 
0x1lb for instruction 1 and 0x10 for instruction 7. Looking at the byte encodings of the instructions, 
however, we see that the target of jump instruction | is encoded (in the second byte) as 0x11 (decimal 17). 
Adding this to Oxa (decimal 10), the address of the following instruction, we get jump target address 0x1b 
(decimal 27), the address of instruction 8. 


Similarly, the target of jump instruction 7 is encoded as 0xf5 (decimal —11) using a single-byte, two’s 
complement representation. Adding this to 0x1b (decimal 27), the address of instruction 8, we get 0x10 
(decimal 16), the address of instruction 3. 


The following shows the disassembled version of the program after linking: 


1 80483c8: 7e 11 jle 80483db <silly+0xlb> 
2 80483ca: 8d b6 00 00 00 00 lea 0x0 (%esi),%esi 

3 80483d0: 89 do mov %edx, %eax 

4 8048342; cl £8 01 sar SOx1, eax 

5 80483d5: 29 c2 sub Seax, %edx 

6 80483d7: 85 d2 test Sedx, sedx 

7 8048309: 7f f5 jg 80483d0 <silly+0x10> 
8 80483db: 89 dod mov Sedx, eax 


The instructions have been relocated to different addresses, but the encodings of the jump targets in lines 
1 and 7 remain unchanged. By using a PC-relative encoding of the jump targets, the instructions can be 
compactly encoded (requiring just two bytes), and the object code can be shifted to different positions in 
memory without alteration. 


Practice Problem 3.8: 


In the following excerpts from a disassembled binary, some of the information has been replaced by X’s. 
Determine the following information about these instructions. 


A. What is the target of the jbe instruction below? 


8048dl1c: 76 da jbe XXXXXXX 
8048dle: eb 24 jmp 8048d44 


B. What is the address of the mov instruction? 


XXXXXXX: eb 54 jmp 8048d44 
XXXXXXX: c7 45 £8 10 00 mov $0x10, Oxfffffff8 (Sebp) 


C. In the following, the jump target is encoded in PC-relative form as a 4-byte, two’s complement 
number. The bytes are listed from least significant to most, reflecting the little endian byte ordering 
of IA32. What is the address of the jump target? 


8048902: e9 cb 00 00 00 jmp XXXXXXX 
8048907: 90 nop 


D. Explain the relation between the annotation on the right and the byte coding on the left. Both lines 
are part of the encoding of the jmp instruction. 


80483f0: ff 25 e0 a2 04 jmp *0x804a2e0 
80483£5: 08 
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To implement the control constructs of C, the compiler must use the different types of jump instructions we 
have just seen. We will go through the most common constructs, starting from simple conditional branches, 
and then considering loops and switch statements. 


3.6.4 Translating Conditional Branches 


Conditional statements in C are implemented using combinations of conditional and unconditional jumps. 
For example, Figure 3.11 shows the C code for a function that computes the absolute value of the difference 
of two numbers (a). GCC generates the assembly code shown as (c). We have created a version in C, 
called gotodiff (b), that more closely follows the control flow of this assembly code. It uses the goto 
statement in C, which is similar to the unconditional jump of assembly code. The statement goto less 
on line 6 causes a jump to the label less on line 8, skipping the statement on line 7. Note that using goto 
statements is generally considered a bad programming style, since their use can make code very difficult to 
read and debug. We use them in our presentation as a way to construct C programs that describe the control 
flow of assembly-code programs. We call such C programs “goto code.” 


The assembly code implementation first compares the two operands (line 3), setting the condition codes. If 
the comparison result indicates that x is less than y, it then jumps to a block of code that computes x-y 
(line 9). Otherwise it continues with the execution of code that computes y-x (lines 5 and 6). In both cases 
the computed result is stored in register eax, and ends up at line 10, at which point it executes the stack 
completion code (not shown). 


The general form of an if-else statement in C is given by the if-else statement following template: 


if (test-expr) 
then-statement 

else 
else-statement 


where test-expr is an integer expression that evaluates either to O (interpreted as meaning “false”) or to a 
nonzero value (interpreted as meaning “true”). Only one of the two branch statements (then-statement or 
else-statement) is executed. 


For this general form, the assembly implementation typically follows the form shown below, where we use 
C syntax to describe the control flow: 


t = test-expr; 
if (t) 
goto true; 

else-statement 

goto done; 
true: 

then-statement 
done: 
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code/asm/abs.c a codelasmabs.c 

1 int absdiff(int x, int y) 1 int gotodiff(int x, int y) 
2 { 2 { 
3 if (x < y) 3 int rval; 
4 return y = xX; 4 
5 else 5 if (x < y) 
6 return x - y; 6 goto less; 
7 3 7 rval = x - y; 

8 goto done; 

code/asm/abs.c 9 less: 

10 rval = y - x; 

11 done: 

12 return rval; 

13} 

code/asm/abs.c 
(a) Original C code. (b) Equivalent goto version of (a). 

1 movl 8(%ebp) , sedx Get x 
2 movl 12(%ebp), seax Get y 
3 cmpl %eax, Sedx Compare x:y 
4 jL 43 If <, goto less: 
5 subl %eax, Sedx Compute y-x 
6 movl %edx,%eax Set as return value 
7 jmp .L5 Goto done: 
8 .L3: less: 
9 subl %Sedx, teax Compute x-y as return value 
10. ‘Los done: Begin completion code 


(c) Generated assembly code. 


Figure 3.11: Compilation of Conditional Statements C procedure absdi ff (a) contains an if-else state- 
ment. The generated assembly code is shown (c), along with a C procedure gotodiff (b) that mimics 
the control flow of the assembly code. The stack set-up and completion portions of the assembly code have 
been omitted 
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That is, the compiler generates separate blocks of code for then-statement and else-statement. It inserts 
conditional and unconditional branches to make sure the correct block is executed. 


Practice Problem 3.9: 
When given the following C code: 


code/asm/simple-if.c 


1 void cond(int a, int *p) 
2 { 

3 if (p && a > 0) 

4 *p += a; 

5 


code/asm/simple-if.c 


GCC generates the following assembly code. 


1 movl 8(%ebp) , sedx 
2 movl 12 (%ebp), %eax 
3 testl Seax, Seax 

4 je .L3 

5 testl %edx, tedx 

6 jle .L3 

7 addl %edx, (Seax) 

8 wis 


A. Write a goto version in C that performs the same computation and mimics the control flow of the 
assembly code, in the style shown in Figure 3.11(b). You might find it helpful to first annotate the 
assembly code as we have done in our examples. 


B. Explain why the assembly code contains two conditional branches, even though the C code has 
only one if statement. 


3.6.5 Loops 


C provides several looping constructs, namely while, for, and do-while. No corresponding instructions 
exist in assembly. Instead, combinations of conditional tests and jumps are used to implement the effect of 
loops. Interestingly, most compilers generate loop code based on the do-while form of a loop, even 
though this form is relatively uncommon in actual programs. Other loops are transformed into do-while 
form and then compiled into machine code. We will study the translation of loops as a progression, starting 
with do-while and then working toward ones with more complex implementations. 


Do-While Loops 


The general form of a do-while statement is as follows: 
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do 
body-statement 
while (test-expr) ; 


The effect of the loop is to repeatedly execute body-statement, evaluate test-expr and continue the loop if 
the evaluation result is nonzero. Observe that body-statement is executed at least once. 


Typically, the implementation of do-while has the following general form: 


loop: 
body-statement 
t = test-expr; 
if (t) 
goto loop; 


As an example, Figure 3.12 shows an implementation of a routine to compute the nth element in the Fi- 
bonacci sequence using a do-while loop. This sequence is defined by the recurrence: 


Fy = 1 
Fy = 1 
Fn = Fn- + Fn-3, n23 


For example, the first ten elements of the sequence are 1, 1, 2, 3, 5, 8, 13, 21, 34, and 55. To implement this 
using a do-while loop, we have started the sequence with values Fo = 0 and Fi = 1, rather than with F; 
and Fy. 


The assembly code implementing the loop is also shown, along with a table showing the correspondence 
between registers and program values. In this example, body-statement consists of lines 8 through 11, 
assigning values to t, val, and nval, along with the incrementing of i. These are implemented by lines 
2 through 5 of the assembly code. The expression i < n comprises test-expr. This is implemented by line 
6 and by the test condition of the jump instruction on line 7. Once the loop exits, val is copy to register 
%eax as the return value (line 8). 


Creating a table of register usage, such as we have shown in Figure 3.12(b) is a very helpful step in analyzing 
an assembly language program, especially when loops are present. 


Practice Problem 3.10: 
For the following C code: 


1 int dw_loop(int x, int y, int n) 
2 { 

3 do { 
4 

5 

6 
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code/asm/fib.c 
1 int fib_dw(int n) 
2 { 
3 int i = 0; 
4 int val = 0; 
5 int nval = 1; 
6 
7 do { 
8 int t = val + nval; 
9 val = nval; 
10 nval = t; 
11 i++; 
12 } while (i < n); 
13 
14 return val; 
15 } 
code/asm/fib.c 
(a) C code. 
z z = 2 leal (%edx, Sebx) , seax Compute t = val + nval 

- 3 movl %edx, ebx copy nval to val 

i 4 movl %eax, tedx Copy t to nval 

1 5 incl %ecx Increment i 

val 6 z o i 

aval 6 cmpl %esi,%ecx Compare i:n 

7 jl .L6 If less, goto loop 
t = 8 movl %ebx, teax Set val as return value 


(b) Corresponding assembly language code. 


Figure 3.12: C and Assembly Code for Do-While Version of Fibonacci Program. Only the code inside 
the loop is shown. 
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} while ((n > 0) & (y < n)); /* Note use of bitwise ’&’ */ 
return x; 


wo © N 


GCC generates the following assembly code: 


Initially x, y, and n are at offsets 8, 12, and 16 from %ebp 
1 movl 8(%ebp),%esi 
2 movl 12 (%ebp) ,%ebx 
3 movl 16(%ebp), %ecx 
4 -p2align 4,,7 Inserted to optimize cache performance 
5 .L6: 

6 imull %ecx, Sebx 

7 addl %ecx, Sesi 

8 decl %ecx 

9 testl %ecx,%ecx 

10 setg %al 


11 cmpl %ecx,%ebx 
12 setl %dl 
13 andl %edx, teax 


14 testb $1,%al 
15 jne .L6 


A. Make a table of register usage, similar to the one shown in Figure 3.12(b). 


B. Identify test-expr and body-statement in the C code, and the corresponding lines in the assembly 
code. 


C. Add annotations to the assembly code describing the operation of the program, similar to those 
shown in Figure 3.12(b). 


While Loops 
The general form of a while statement is as follows: 


while (test-expr) 
body-statement 


It differs from do-while in that test-expr is evaluated and the loop is potentially terminated before the first 
execution of body-statement. A direct translation into a form using goto’s would be: 


3.6. CONTROL 123 


loop: 
t = test-expr; 
if (!t) 


goto done; 
body-statement 
goto loop; 
done: 


This translation requires two control statements within the inner loop—the part of the code that is executed 
the most. Instead, most C compilers transform the code into a do-while loop by using a conditional branch 
to skip the first execution of the body if needed: 


if (!test-expr) 
goto done; 
do 
body-statement 
while (test-expr) ; 
done: 


This, in turn, can be transformed into goto code as: 


t = test-expr; 
if (1t) 
goto done; 
loop: 
body-statement 
t = test-expr; 
if (t) 
goto loop; 
done: 


As an example, Figure 3.13 shows an implementation of the Fibonacci sequence function using a while 
loop (a). Observe that this time we have started the recursion with elements Fi (val) and Fs (nval). 
The adjacent C function fib_w_goto (b) shows how this code has been translated into assembly. The 
assembly code in (c) closely follows the C code shown in fib_w_goto. The compiler has performed 
several interesting optimizations, as can be seen in the goto code (b). First, rather than using variable i as a 
loop variable and comparing it to n on each iteration, the compiler has introduced a new loop variable that 
we call “nmi”, since relative to the original code, its value equals n — 2. This allows the compiler to use 
only three registers for loop variables, compared to four otherwise. Second, it has optimized the initial test 
condition (i < n) into (val < n), since the initial values of both i and val are 1. By this means, 
the compiler has totally eliminated variable i. Often the compiler can make use of the initial values of 
the variables to optimize the initial test. This can make deciphering the assembly code tricky. Third, for 
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1 int fib_w(int n) 

2 f 

3 int i= 1; 

4 int val = 1; 

5 int nval = 1; 

6 

了 while (i < n) { 
8 int t = 

9 val = nval; 
10 nval = t; 
11 i++; 

12 } 

13 

14 return val; 

15 } 


(a) C code. 


Register Usage 
Ta 


nmi n-1 
val 1 
nval 1 


code/asm/fib.c 


valtnval; 
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code/asm/fib.c 


int fib_w_goto(int n) 


{ 
int 
int 
int 
Éf 
nmi 


t = 
val 


if 


1 

2 

3 

4 

5 

6 

7 

8 

9 

0 

1 loop: 
2 

3 

4 

5 

6 

7 

8 

9 done: 
0 
1 


nval = 
nmi--; 
(nmi) 


val = 1 
nval = 
nmi, 


(val >= n) 


goto done; 
= n-1; 


val+nval; 
= nval; 
t; 


goto loop; 


return val; 


code/asm/fib.c 


(b) Equivalent goto version of (a). 


8 (Sebp) , %eax 
$1, Sebx 
$1,%ecx 
Seax, sebx 


.L9 


-1 (Seax) , sedx 


(Secx, sebx) , seax 


code/asm/fib.c 
1 movl 
2 movl 
3 movl 
4 cmpl 
5 jge 
6 leal 
7 LO? 
8 leal 
9 movl 
10 movl 
11 decl 
12 jnz 
13> shos 


(c) Corresponding assembly language code. 


Secx, %ebx 
Seax, %ecx 
%edx 


.L10 


Get n 
Set val to 1 
Set nval to 1 
Compare vali:n 
If >= goto done: 
nmi = n-1 
loop: 

Compute t = nvaltval 

Set val to nval 

Set nval to t 

Decrement nmi 

if != 0, goto loop: 
done: 


Figure 3.13: C and Assembly Code for While Version of Fibonacci. The compiler has performed a 
number of optimizations, including replacing the value denoted by variable i with one we call nmi. 
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successive executions of the loop we are assured that 7 < n, and so the compiler can assume that nmi is 


nonnegative. As a result, it can test the loop condition as nmi 


one instruction in the assembly code. 


Practice Problem 3.11: 
For the following C code: 


1 int loop_while(int a, int b) 
2 { 

3 int i = 0; 

4 int result = a; 

5 while (i < 256) { 

6 result += a; 

7 
8 
9 


a -= b; 
i += b; 
} 
10 return result; 
11. } 


GCC generates the following assembly code: 


Initially a and b are at offsets 8 and 12 from tebp 


movl 8(%ebp), %eax 
movl 12 (%ebp) , sebx 
xorl %ecx, Secx 
movl %eax, tedx 
-p2align 4,,7 
-L$ 
addl %eax, tedx 
subl %Sebx, teax 
addl %ebx, tecx 
empl $255, %ecx 
jle .L5 


wo OAT Dn oO FPF WN FB 


e H 
e o 


w > 


0 rather than nmi >= 


code. What optimizations has the C compiler performed on the initial test? 


0. This saves 


Make a table of register usage within the loop body, similar to the one shown in Figure 3.13(c). 


Identify test-expr and body-statement in the C code, and the corresponding lines in the assembly 


C. Add annotations to the assembly code describing the operation of the program, similar to those 


shown in Figure 3.13(c). 


D. Write a goto version (in C) of the function that has similar structure to the assembly code, as was 


done in Figure 3.13(b). 
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For Loops 
The general form of a for loop is as follows: 


for (init-expr; test-expr; update-expr) 
body-statement 


The C language standard states that the behavior of such a loop is identical to the following code using a 
while loop: 


init-expr; 

while (test-expr) { 
body-statement 
update-expr; 


} 


That is, the program first evaluates the initialization expression inif-expr. It then enters a loop where it 
first evaluates the test condition test-expr, exiting if the test fails, then executes the body of the loop body- 
statement, and finally evaluates the update expression update-expr. 


The compiled form of this code then is based on the transformation from while to do-while described 
previously, first giving a do-while form: 


init-expr; 
if ('!test-expr) 
goto done; 
do { 
body-statement 
update-expr; 
} while (test-expr) ; 
done: 


This, in turn, can be transformed into goto code as: 
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init-expr; 
t = test-expr; 
if (!t) 

goto done; 


loop: 


body-statement 
update-expr; 
t = test-expr; 
if (t) 

goto loop; 


done: 
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As an example, the following code shows an implementation of the Fibonacci function using a for loop: 


ant 1; 

int val = 1; 

int nval = 1; 

for (i = 1; i <n; 
int t = valt+nval; 
val = nval; 


return val; 


code/asm/fib.c 


code/asm/fib.c 


The transformation of this code into the while loop form gives code identical to that for the function f ib_w 


shown in Figure 3.13. In fact, GCC generates identical assembly code for the two functions. 


Practice Problem 3.12: 


The following assembly code: 


Initially x, y, and n are offsets 8, 
movl 8(%ebp), sebx 
movl 16(%ebp) , sedx 
xorl %teax, seax 


decl %edx 
js .L4 


nN oO FF WY FP 


movl %ebx, tecx 


12, and 16 from %ebp 
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7 imull 12 (%ebp),%ecx 

8 -p2align 4,,7 Inserted to optimize cache performance 
9 .L6: 

10 addl %ecx, eax 

11 subl %Sebx, tedx 

12 jns .L6 

13 .L4: 


was generated by compiling C code that had the following overall form 


1 int loop(int x, int y, int n) 

2 { 

3 int result = 0; 

4 int i; 

5 for (i = ais eT ee ~— A 
6 result += R 

7 } 

8 return result; 

9 } 


Your task is to fill in the missing parts of the C code to get a program equivalent to the generated assembly 
code. Recall that the result of the function is returned in register eax. To solve this problem, you may 
need to do a little bit of guessing about register usage and then see whether that guess makes sense. 


A. Which registers hold program values result and i? 
. What is the initial value of i? 
. What is the test condition on i? 


. How does i get updated? 


moan 


. The C expression describing how to increment result in the loop body does not change value 
from one iteration of the loop to the next. The compiler detected this and moved its computation 
to before the loop. What is the expression? 


F. Fill in all the missing parts of the C code. 


3.6.6 Switch Statements 


Switch statements provide a multi-way branching capability based on the value of an integer index. They 
are particularly useful when dealing with tests where there can be a large number of possible outcomes. 
Not only do they make the C code more readable, they also allow an efficient implementation using a data 
structure called a jump table. A jump table is an array where entry z is the address of a code segment 
implementing the action the program should take when the switch index equals 7. The code performs an 
array reference into the jump table using the switch index to determine the target for a jump instruction. The 
advantage of using a jump table over a long sequence of if-else statements is that the time taken to perform 
the switch is independent of the number of switch cases. GCC selects the method of translating a switch 
statement based on the number of cases and the sparsity of the case values. Jump tables are used when there 
are a number of cases (e.g., four or more) and they span a small range of values. 
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code/asm/switch.c ~ Cod e/asm/switch.c 
1 int switch_eg(int x) 1 /* Next line is not legal C */ 
2 { 2 code *jt[7] = { 
3 int result = x; 3 loc A; loc_def, loc_B, loc_C, 
4 4 loc_D, loc_def, loc_D 
5 switch (x) { 5 }; 
6 6 
7 case 100: 7 int switch_eg_impl (int x) 
8 result *= 13; 8 { 
9 break; 9 unsigned xi = x - 100; 
0 0 int result = x; 
1 case 102: 1 
2 result += 10; 2 if (xi > 6) 
3 /* Fall through */ 3 goto loc_def; 
4 4 
5 case 103: 5 /* Next goto is not legal C */ 
6 result += 11; 6 goto jt[xi]; 
7 break; 7 
8 8 loc_A: /* Case 100 */ 
9 case 104: 9 result *= 13; 
20 case 106: 20 goto done; 
21 result *= result; 21 
22 break; 22 loc_B: /* Case 102 */ 
23 23 result += 10; 
24 default: 24 /* Fall through */ 
25 result = 0; 25 
26 } 26 loc_C: /* Case 103 */ 
27 27 result += 11; 
28 return result; 28 goto done; 
29 } 29 
30 loc_D: /* Cases 104, 106 */ 
code/asm/switch.c 31 result *= result; 
32 goto done; 
33 
34 loc_def: /* Default case*/ 
35 result = 0; 
36 
37 done: 
38 return result; 
39 } 
code/asm/switch.c 
(a) Switch statement. (b) Translation into extended C. 


Figure 3.14: Switch Statement Example with Translation into Extended C. The translation shows the 
structure of jump table jt and how it is accessed. Such tables and accesses are not actually allowed in C. 
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Set up the jump table access 


1 leal -100 (%edx) , teax Compute xi = x-100 
2 cmpl $6, %eax Compare xi:6 
3 ja .L9 if >, goto done 
4 jmp *.L10(, %eax, 4) Goto jt[xi] 
Case 100 
5 .L4: loc_A: 
6 leal (%edx, tedx,2),%teax Compute 3*x 
7 leal (%edx, eax, 4), tedx Compute x+4*3*x 
8 jmp .L3 Goto done 
Case 102 
9 Ds loc_B: 
0 addl $10, %edx result += 10, Fall through 
Case 103 
1 .L6: loc_C: 
2 addl $11, %edx result += 11 
3 jmp .L3 Goto done 
Cases 104, 106 
4 .L8: loc_D: 
5 imull %edx, Sedx result *= result 
6 jmp .L3 Goto done 
Default case 
T L93 loc_def: 
8 xorl tedx, sedx result = 0 
Return result 
9 .L3: done: 
20 movl %edx, teax Set result as return value 


Figure 3.15: Assembly Code for Switch Statement Example in Figure 3.14. 
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Figure 3.14(a) shows an example of a C switch statement. This example has a number of interesting 
features, including case labels that do not span a contiguous range (there are no labels for cases 101 and 
105), cases with multiple labels (cases 104 and 106), and cases that “fall through” to other cases (case 102), 
because the code for the case does not end with a break statement. 


Figure 3.15 shows the assembly code generated when compiling switch_eg. The behavior of this code 
is shown using an extended form of C as the procedure switch eg_impl in Figure 3.14(b). We say 
“extended” because C does not provide the necessary constructs to support this style of jump table, and 
hence our code is not legal C. The array jt contains 7 entries, each of which is the address of a block of 
code. We extend C with a data type code for this purpose. 


Lines 1 to 4 set up the jump table access. To make sure that values of x that are either less than 100 or greater 
than 106 cause the computation specified by the default case, the code generates an unsigned value xi 
equal to x-100. For values of x between 100 and 106, xi will have values 0 through 6. All other values 
will be greater than 6, since negative values of x-100 will wrap around to be very large unsigned numbers. 
The code therefore uses the ja (unsigned greater) instruction to jump to code for the default case when xi 
is greater than 6. Using jt to indicate the jump table, the code then performs a jump to the address at entry 
xi in this table. Note that this form of goto is not legal C. Instruction 4 implements the jump to an entry 
in the jump table. Since it is an indirect jump, the target is read from memory. The effective address of the 
read is determined by adding the base address specified by label . L10 to the scaled (by 4 since each jump 
table entry is 4 bytes) value of variable xi (in register Seax). 


In the assembly code, the jump table is indicated by the following declarations, to which we have added 
comments: 


1 .section .rodata 

2 -align 4 Align address to multiple of 4 
3 a BLO; 

4 .long .L4 Case 100: loc_A 

5 -long .L9 Case 101: loc_def 

6 .long .L5 Case 102: loc_B 

7 -long .L6 Case 103: loc_c 

8 -long .L8 Case 104: loc_D 

9 -long .L9 Case 105: loc_def 

10 -long .L8 Case 106: loc_D 


These declarations state that within the segment of the object code file called “. rodata” (for “Read-Only 
Data”), there should be a sequence of seven “long” (4-byte) words, where the value of each word is given by 
the instruction address associated with the indicated assembly code labels (e.g., . L4). Label . L10 marks 
the start of this allocation. The address associated with this label serves as the base for the indirect jump 
(instruction 4). 


The code blocks starting with labels Loc_A through loc_D and loc_def in switch_eg_imp1 (Figure 
3.14(b)) implement the five different branches of the switch statement. Observe that the block of code 
labeled loc_def will be executed either when x is outside the range 100 to 106 (by the initial range 
checking) or when it equals either 101 or 105 (based on the jump table). Note how the code for the block 
labeled 1oc_B falls through to the block labeled loc_C. 
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Practice Problem 3.13: 


In the following C function, we have omitted the body of the switch statement. In the C code, the case 
labels did not span a contiguous range, and some cases had multiple labels. 


int switch2(int x) { 
int result = 0; 
switch (x) { 
/* Body of switch statement omitted */ 


} 


return result; 


In compiling the function, GCC generates the following assembly code for the initial part of the procedure 
and for the jump table. Variable x is initially at offset 8 relative to register Sebp. 


Setting up jump table access Jump table for switch2 
movl 8(%ebp), seax Retrieve x LILTS 


Î 

addl $2,%eax 2 .long .L4 

cmpl $6, %eax 3 .long .L10 

ja .L10 4 Long: s LO 
5 
6 
7 
8 


oO AeA WN e 


jmp *.L11(,%eax, 4) -long .L6 
-long .L8 
-long .L8 
-long .L9 
From this determine: 


A. What were the values of the case labels in the switch statement body? 


B. What cases had multiple labels in the C code? 


3.7 Procedures 


A procedure call involves passing both data (in the form of procedure parameters and return values) and 
control from one part of the code to another. In addition, it must allocate space for the local variables of 
the procedure on entry and deallocate them on exit. Most machines, including IA32, provide only simple 
instructions for transferring control to and from procedures. The passing of data and the allocation and 
deallocation of local variables is handled by manipulating the program stack. 


3.7.1 Stack Frame Structure 


IA32 programs make use of the program stack to support procedure calls. The stack is used to pass procedure 
arguments, to store return information, to save registers for later restoration, and for local storage. The 
portion of the stack allocated for a single procedure call is called a stack frame. Figure 3.16 diagrams the 
general structure of a stack frame. The topmost stack frame is delimited by two pointers, with register Sebp 
serving as the frame pointer, and register esp serving as the stack pointer. The stack pointer can move 
while the procedure is executing, and hence most information is accessed relative to the frame pointer. 
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Figure 3.16: Stack Frame Structure. The stack is used for passing arguments, for storing return informa- 
tion, for saving registers, and for local storage. 
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Suppose procedure P (the caller) calls procedure Q (the callee). The arguments to Q are contained within 
the stack frame for P. In addition, when P calls Q, the return address within P where the program should 
resume execution when it returns from Q is pushed on the stack, forming the end of P’s stack frame. The 
stack frame for Q starts with the saved value of the frame pointer (i.e., $ebp). followed by copies of any 
other saved register values. 


Procedure Q also uses the stack for any local variables that cannot be stored in registers. This can occur for 
the following reasons: 


e There are not enough registers to hold all of the local data. 


e Some of the local variables are arrays or structures and hence must be accessed by array or structure 
references. 


e The address operator & is applied to one of the local variables, and hence we must be able to generate 
an address for it. 


Finally, Q will use the stack frame for storing arguments to any procedures it calls. 


As described earlier, the stack grows toward lower addresses and the stack pointer Sesp points to the top 
element of the stack. Data can be stored on and retrieved from the stack using the push1 and pop 1 instruc- 
tions. Space for data with no specified initial value can be allocated on the stack by simply decrementing 
the stack pointer by an appropriate amount. Similarly, space can be deallocated by incrementing the stack 
pointer. 


3.7.2 Transferring Control 


The instructions supporting procedure calls and returns are as follows: 


call Label Procedure Call 


call * Operand | Procedure Call 
leave Prepare stack for return 
ret Return from call 


The cal 1 instruction has a target indicating the address of the instruction where the called procedure starts. 
Like jumps, a call can either be direct or indirect. In assembly code, the target of a direct call is given as a 
label, while the target of an indirect call is given by a * followed by an operand specifier having the same 
syntax as is used for the operands of the mov 1 instruction (Figure 3.3). 


The effect of a call instruction is to push a return address on the stack and jump to the start of the 
called procedure. The return address is the address of the instruction immediately following the call in 
the program, so that execution will resume at this location when the called procedure returns. The ret 
instruction pops an address off the stack and jumps to this location. The proper use of this instruction is to 
have prepared the stack so that the stack pointer points to the place where the preceding call instruction 
stored its return address. The leave instruction can be used to prepare the stack for returning. It is 
equivalent to the following code sequence: 
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al movl %ebp, %Sesp Set stack pointer to beginning of frame 
2 popl %ebp Restore saved %ebp and set stack ptr to end of caller’s frame 


Alternatively, this preparation can be performed by an explicit sequence of move and pop operations. 


Register %eax is used for returning the value of any function that returns an integer or pointer. 


Practice Problem 3.14: 


The following code fragment occurs often in the compiled version of library routines: 


1 call next 
2 next: 
3 popl %eax 


A. To what value does register eax get set? 
B. Explain why there is no matching ret instruction to this call. 


C. What useful purpose does this code fragment serve? 


3.7.3 Register Usage Conventions 


The set of program registers acts as a single resource shared by all of the procedures. Although only one 
procedure can be active at a given time, we must make sure that when one procedure (the caller) calls 
another (the callee), the callee does not overwrite some register value that the caller planned to use later. 
For this reason, [A32 adopts a uniform set of conventions for register usage that must be respected by all 
procedures, including those in program libraries. 


By convention, registers eax, Sedx, and %ecx are classified as caller save registers. When procedure 
Q is called by P, it can overwrite these registers without destroying any data required by P. On the other 
hand, registers Sebx, esi, and %edi are classified as callee save registers. This means that Q must save 
the values of any of these registers on the stack before overwriting them, and restore them before returning, 
because P (or some higher level procedure) may need these values for its future computations. In addition, 
registers Sebp and esp must be maintained according to the conventions described here. 


Aside: Why the names “‘callee save” and “‘caller save?” 
Consider the following scenario: 


int P() 

{ 
int x = £(); /* Some computation */ 
Q(); 


return x; 


Procedure P wants the value it has computed for x to remain valid across the call to Q. If x is ina caller save register, 
then P (the caller) must save the value before calling P and restore it after Q returns. If x is in a callee save register, 
and Q (the callee) wants to use this register, then Q must save the value before using the register and restore it before 
returning. In either case, saving involves pushing the register value onto the stack, while restoring involves popping 
from the stack back to the register. End Aside. 
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As an example, consider the following code: 


int P(int x) 

{ 
int y = x*x; 
int z = Q(y); 


return y + Z; 


YN UO BF WYN FB 


Procedure P computes y before calling Q, but it must also ensure that the value of y is available after Q 
returns. It can do this by one of two means: 


e Store the value of y in its own stack frame before calling Q. When Q returns, it can then retrieve the 
value of y from the stack. 


e Store the value of y in a callee save register. If Q, or any procedure called by Q, wants to use this 
register, it must save the register value in its stack frame and restore the value before it returns. Thus, 
when Q returns to P, the value of y will be in the callee save register, either because the register was 
never altered or because it was saved and restored. 


Most commonly, GCC uses the latter convention, since it tends to reduce the total number of stack writes 
and reads. 


Practice Problem 3.15: 


The following code sequence occurs right near the beginning of the assembly code generated by GCC 
for a C procedure: 


pushl %Sedi 

pushl %Sesi 

pushl %ebx 

movl 24 (%ebp), seax 
imull 16 (%ebp), %eax 
movl 24 (%ebp) , sebx 
leal 0(,%eax,4),%eCcx 
addl 8(%ebp), %ecx 
movl %ebx, tedx 


oO OAD oO FPF WY PB 


We see that just three registers (sedi, tesi, and %ebx) are saved on the stack. The program then 
modifies these and three other registers (Seax, Secx, and %edx). At the end of the procedure, the 
values of registers sedi, esi, and %ebx are restored using pop1 instructions, while the other three 
are left in their modified states. 


Explain this apparently inconsistency in the saving and restoring of register states. 
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code/asm/swapadd.c 
1 int swap_add(int *xp, int *yp) 
2 { 
3 int x = *xp; 
4 int y = *yp; 
5 
6 *xp = y; 
7 *yp = x; 
8 return x +t y; 
9 } 
0 
1 int caller () 
2 { 
3 int argl = 534; 
4 int arg2 = 1057; 
5 int sum = swap_add(&argl, &arg2); 
6 int diff = argl - arg2; 
7 
8 return sum * diff; 
9 } 
code/asm/swapadd.c 


Figure 3.17: Example of Procedure Definition and Call. 


3.7.4 Procedure Example 


As an example, consider the C procedures defined in Figure 3.17. Figure 3.18 shows the stack frames for 
the two procedures. Observe that swap_add retrieves its arguments from the stack frame for caller. 
These locations are accessed relative to the frame pointer in register Sebp. The numbers along the left of 
the frames indicate the address offsets relative to the frame pointer. 

The stack frame for caller includes storage for local variables arg1 and arg2, at positions —8 and 
—4 relative to the frame pointer. These variables must be stored on the stack, since we must generate 
addresses for them. The following assembly code from the compiled version of caller shows how it calls 
swap_add. 


Calling code in caller 


al leal -4(%ebp) , eax Compute &arg2 

2 pushl %eax Push &arg2 

3 leal -8(%ebp), %eax Compute &argi 

4 pushl %eax Push &arg1 

5 call swap_add Call the swap_add function 


Observe that this code computes the addresses of local variables arg2 and arg1 (using the leal instruc- 
tion) and pushes them on the stack. It then calls swap_add. 


The compiled code for swap_add has three parts: the “setup,” where the stack frame is initialized; the 
“body,” where the actual computation of the procedure is performed; and the “finish,” where the stack state 
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Stack Frame for Stack Frame for 
caller caller 


ebp 0 Saved %ebp 
arg2 yp (= &arg2) 
- argl xp (= é&argl) 
-12 &arg2 Return Address 
zesp —P_ 16 gargl 


Stack Frame for 
swap_add 


Figure 3.18: Stack Frames for caller and swap_add. Procedure swap_add retrieves its arguments 
from the stack frame for caller. 


is restored and the procedure returns. 


The following is the setup code for swap_add. Recall that the call instruction will already push the 
return address on the stack. 


Setup code in swap_add 


1 swap_add: 

2 pushl %ebp Save old %ebp 

3 movl sesp, sebp Set %ebp as frame pointer 
4 pushl %ebx Save %ebx 


Procedure swap_add requires register %ebx for temporary storage. Since this is a callee save register, it 
pushes the old value on the stack as part of the stack frame setup. 


The following is the body code for swap_add: 


Body code in swap_add 


ol movl 8(%ebp) , sedx Get xp 

2 movl 12(%ebp), %ecx Get yp 

3 movl (%edx) , tebx Get x 

4 movl (%ecx), %eax Get y 

5 movl %eax, (%edx) Store y at *xp 

6 movl %ebx, (%ecx) Store x at *yp 

7 addl %ebx, teax Set return value = xty 


This code retrieves its arguments from the stack frame for caller. Since the frame pointer has shifted, the 
locations of these arguments has shifted from positions —12 and —16 relative to the old value of $ebp to 
positions +12 and +8 relative to new value of %ebp. Observe that the sum of variables x and y is stored in 
register eax to be passed as the returned value. 


The following is the finishing code for swap_add: 


Finishing code in swap_add 


1 popl %tebx Restore %ebx 
2 movl %ebp, esp Restore %esp 
3 popl %ebp Restore %ebp 
4 ret Return to caller 
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This code simply restores the values of the three registers Sebx, %esp, and %ebp, and then executes 
the ret instruction. Note that instructions F2 and F3 could be replaced by a single leave instruction. 
Different versions of GCC seem to have different preferences in this regard. 


The following code in caller comes immediately after the instruction calling swap_add: 


Al movl %eax,%edx Resume here 


Upon return from swap_add, procedure caller will resume execution with this instruction. Observe 
that this instruction copies the return value from %eax to a different register. 


Practice Problem 3.16: 


Given the following C function: 


1 int proc (void) 

2 { 

3 int x,y; 

4 scanf("%x Sx", &y, &X); 
5 return x-y; 

6 


1 proc: 
2 pushl %ebp 
3 movl %esp, %ebp 
4 subl $24,%esp 
5 addl $-4,%esp 
6 leal -4 (%ebp),%eax 
7 pushl %eax 
8 leal -8(%ebp), %eax 
9 pushl %eax 
10 pushl $.LCO Pointer to string "$x x" 
11 call scanf 
Diagram stack frame at this point 
12 movl -8 (%ebp) ,%eax 
13 movl -4 (%ebp) , sedx 


14 subl %Seax, Sedx 
15 movl %edx,%eax 


16 movl %sebp, %esp 
17 popl %ebp 
18 ret 


Assume that procedure proc starts executing with the following register values: 


sesp 0x800040 
sebp 0x800060 
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code/asm/fib.c 
1 int fib_rec(int n) 
2d 
3 int prev_val, val; 
4 
5 if (n <= 2) 
6 return 1; 
7 prev_val = fib_rec(n-2); 
8 val = fib_rec(n-1); 
9 return prev_val + val; 
10 } 
code/asm/fib.c 


Figure 3.19: C Code for Recursive Fibonacci Program. 


Suppose proc calls scanf (line 12), and that scanf reads values 0x46 and 0x53 from the standard 
input. Assume that the string "Sx %x" is stored at memory location 0x300070. 


A. What value does Sebp get set to on line 3? 

B. At what addresses are local variables x and y stored? 
C. What is the value of esp at line 11? 
D 


. Draw a diagram of the stack frame for proc right after scanf returns. Include as much informa- 
tion as you can about the addresses and the contents of the stack frame elements. 


m 


Indicate the regions of the stack frame that are not used by proc (these wasted areas are allocated 
to improve the cache performance). 


3.7.5 Recursive Procedures 


The stack and linkage conventions described in the previous section allow procedures to call themselves 
recursively. Since each call has its own private space on the stack, the local variables of the multiple 
outstanding calls do not interfere with one another. Furthermore, the stack discipline naturally provides the 
proper policy for allocating local storage when the procedure is called and deallocating it when it returns. 


Figure 3.19 shows the C code for a recursive Fibonacci function. (Note that this code is very inefficient—we 
intend it to be an illustrative example, not a clever algorithm). The complete assembly code is shown as 
well in Figure 3.20. 


Although there is a lot of code, it is worth studying closely. The set-up code (lines 2 to 6) creates a stack 
frame containing the old version of %ebp, 16 unused bytes,” and saved values for the callee save registers 
%esi and %ebx, as diagrammed on the left side of Figure 3.21. It then uses register Sebx to hold the 
procedure parameter n (line 7). In the event of a terminal condition, the code jumps to line 22, where the 
return value is set to 1. 


“It is unclear why the C compiler allocates so much unused storage on the stack for this function. 


3.7. PROCEDURES 


1 fib_rec: 

Setup code 
pushl %ebp 
movl sesp, sebp 
subl $16, %esp 
pushl %Sesi 
pushl %ebx 


Nn OU fF WN 


Body code 

movl 8(%ebp) , sebx 
cmpl $2, %ebx 

jle .L24 

addl $-12,%esp 
leal -2(%ebx) ,%teax 
pushl %Seax 

call fib_rec 

movl %eax, esi 
addl $-12,%esp 
leal -1(%ebx) , Seax 
pushl %eax 

call fib_rec 

addl %esi, %eax 

jmp .L25 


OO WAI Do FPF WN FP CO WO oo AI 


N 


Terminal condition 
21 .L24: 
22 movl $1,%eax 


Finishing code 
23.25: 
24 leal -24(%Sebp),%esp 
25 popl %ebx 
26 popl %esi 
27 movl %ebp, %esp 
28 popl %ebp 
29 ret 
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Save old %Sebp 

Set sebp as frame pointer 
Allocate 16 bytes on stack 
Save %esi (offset -20) 
Save tebx (offset -24) 


Get n 

Compare n:2 

if <=, goto terminate 
Allocate 12 bytes on stack 
Compute n-2 

Push as argument 

Call fib_rec(n-2) 

Store result in %esi 
Allocate 12 bytes to stack 
Compute n-1 

Push as argument 

Call fib_rec(n-1) 

Compute valt+nval 


Go to done 


terminate: 


Return value 1 


done: 


Set stack to offset -24 
Restore %ebx 

Restore %esi 

Restore stack pointer 
Restore %ebp 


Return 


Figure 3.20: Assembly Code for the Recursive Fibonacci Program in Figure 3.19. 
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Stack Frame for 
calling procedure 


n 
Return Address +4 Return Address 
Saved %ebp sebp ==> 0 Saved sebp 
Unused Stack Frame for Unused 
fib_rec 
Saved Sesi -20 Saved $esi 


Saved sebx 24 


Unused 
zesp =j 40 n-2 


After set up Before first recursive call 


Figure 3.21: Stack Frame for Recursive Fibonacci Function. State of frame is shown after initial set up 
(left), and just before the first recursive call (right). 


For the nonterminal condition, instructions 10 to 12 set up the first recursive call. This involves allocating 
12 bytes on the stack that are never used, and then pushing the computed value n—2. At this point, the stack 
frame will have the form shown on the right side of Figure 3.21. It then makes the recursive call, which 
will trigger a number of calls that allocate stack frames, perform operations on local storage, and so on. As 
each call returns, it deallocates any stack space and restores any modified callee save registers. Thus, when 
we return to the current call at line 14 we can assume that register eax contains the value returned by the 
recursive call, and that register $ebx contains the value of function parameter n. The returned value (local 
variable prev_val in the C code) is stored in register esi (line 14). By using a callee save register, we 
can be sure that this value will still be available after the second recursive call. 


Instructions 15 to 17 set up the second recursive call. Again it allocates 12 bytes that are never used, and 
pushes the value of n—1. Following this call (line 18), the computed result will be in register eax, and we 
can assume that the result of the previous call is in register esi. These are added to give the return value 
(instruction 19). 


The completion code restores the registers and deallocates the stack frame. It starts (line 24) by setting 
the stack frame to the location of the saved value of Sebx. Observe that by computing this stack position 
relative to the value of Sebp, the computation will be correct regardless of whether or not the terminal 
condition was reached. 


3.8 Array Allocation and Access 


Arrays in C are one means of aggregating scalar data into larger data types. C uses a particularly simple 
implementation of arrays, and hence the translation into machine code is fairly straightforward. One unusual 
feature of C is that one can generate pointers to elements within arrays and perform arithmetic with these 
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pointers. These are translated into address computations in assembly code. 


Optimizing compilers are particularly good at simplifying the address computations used by array indexing. 
This can make the correspondence between the C code and its translation into machine code somewhat 
difficult to decipher. 


3.8.1 Basic Principles 


For data type T and integer constant N, the declaration 
T A(N]; 


has two effects. First, it allocates a contiguous region of L- N bytes in memory, where L is the size (in 
bytes) of data type T. Let us denote the starting location as xa. Second, it introduces an identifier A that can 
be used as a pointer to the beginning of the array. The value of this pointer will be xa. The array elements 
can be accessed using an integer index ranging between 0 and N — 1. Array element 1 will be stored at 
address za + Li. 


As examples, consider the following declarations: 


char A[12]; 
char *B[8]; 
double C[6]; 
double *D[5]; 


These declarations will generate arrays with the following parameters: 


Array | Element Size Total Size | Start Address Element 7 


1 


4 
8 
4 


Array A consists of 12 single-byte (char) elements. Array C consists of 6 double-precision floating-point 
values, each requiring 8 bytes. B and D are both arrays of pointers, and hence the array elements are 4 bytes 
each. 


The memory referencing instructions of [A32 are designed to simplify array access. For example, suppose 
E is an array of int’s, and we wish to compute E [i] where the address of E is stored in register %edx and 
i is stored in register Secx. Then the instruction: 


movl (%edx, secx,4),%eax 


will perform the address computation rp + 4i, read that memory location, and store the result in register 
%eax. The allowed scaling factors of 1, 2, 4, and 8 cover the sizes of the primitive data types. 


Practice Problem 3.17: 


Consider the following declarations: 
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short S([7]; 
short *T[3]; 
short **U [6]; 


long double V[8]; 
long double *W[4]; 


Fill in the following table describing the element size, the total size, and the address of element 2 for 
each of these arrays. 


Start Address 


3.8.2 Pointer Arithmetic 


C allows arithmetic on pointers, where the computed value is scaled according to the size of the data type 
referenced by the pointer. That is, if p is a pointer to data of type T, and the value of p is xp, then the 
expression p+i has value zp + L :7 where L is the size of data type T. 


The unary operators & and * allow the generation and dereferencing of pointers. That is, for an expression 
Expr denoting some object, &Expr is a pointer giving the address of the object. For an expression Addr- 
Expr denoting an address, *Addr-Expr gives the value at that address. The expressions Expr and * & Expr are 
therefore equivalent. The array subscripting operation can be applied to both arrays and pointers. The array 
reference A [i ] is identical to the expression * (A+i) . It computes the address of the ith array element and 
then accesses this memory location. 


Expanding on our earlier example, suppose the starting address of integer array E and integer index i are 
stored in registers Sedx and $ecx, respectively. The following are some expressions involving E. We also 
show an assembly code implementation of each expression, with the result being stored in register Seax. 


Expression Type Assembly Code 


TE Sedx, %eax 
Memj|zxg] (Sedx) , Seax 
Mem|azg + 4i] (Sedx, Secx, 4) , eax 


ze tS 8 (%edx) , Seax 
xg 十 41 一 4 一 4 (Sedx, Secx, 4) , Seax 
Mem|axp + 4i + 4i] (Sedx, Secx, 8) , eax 


4 S$ecx, eax 


In these examples, the Leal instruction is used to generate an address, while mov 1 is used to reference 
memory (except in the first case, where it copies an address). The final example shows that one can compute 
the difference of two pointers within the same data structure, with the result divided by the size of the data 


type. 
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Practice Problem 3.18: 


Suppose the address of short integer array S and integer index i are stored in registers $edx and 
%ecx, respectively. For each of the following expressions, give its type, a formula for its value, and an 
assembly code implementation. The result should be stored in register Seax if it a pointer and register 
element Sax if itis a short integer. 


Assembly Code 
sr | 


S| 
[Sti-5 | | | 


3.8.3 Arrays and Loops 


Array references within loops often have very regular patterns that can be exploited by an optimizing com- 
piler. For example, the function decimal5 shown in Figure 3.22(a) computes the integer represented by 
an array of 5 decimal digits. In converting this to assembly code, the compiler generates code similar to 
that shown in Figure 3.22(b) as C function decimal5_opt. First, rather than using a loop index i, it 
uses pointer arithmetic to step through successive array elements. It computes the address of the final array 
element and uses a comparison to this address as the loop test. Finally, it can use a do-while loop since 
there will be at least one loop iteration. 


The assembly code shown in Figure 3.22(c) shows a further optimization to avoid the use of an integer 
multiply instruction. In particular, it uses Leal (line 5) to compute 5*val as val+4*val. It then uses 
leal with a scaling factor of 2 (line 7) to scale to 10*val. 


Aside: Why avoid integer multiply? 

In older models of the IA32 processor, the integer multiply instruction took as many as 30 clock cycles, and so 
compilers try to avoid it whenever possible. In the most recent models it requires only 3 clock cycles, and therefore 
these optimizations are not warranted. End Aside. 


3.8.4 Nested Arrays 


The general principles of array allocation and referencing hold even when we create arrays of arrays. For 
example, the declaration: 


int A[4][3]; 
is equivalent to the declaration: 


typedef int row3_t[3]; 
row3_t A[4]; 
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code/asm/decimal5.c 


int decimal5(int *x) 


{ 


int i; 
int val = 0; 
for (i = 0; i < 5; i++) 
val = (10 * val) + x[i]; 


return val; 


Body 
movl 
xorl 
leal 


:23 


leal 
movl 
leal 
addl 
cmpl 
jbe 


code/asm/decimal5.c 


(a) Original C code 


code 

8 (Sebp) , secx 
Seax, Seax 

16 (Secx) ,Sebx 


oP oo ol? 
0 0 
w Q 
Xo % 
oX 
(0) 
w 
x 


Am 一 一 一 


4, Secx 
Sebx, Secx 


„L12 


code/asm/decimal5.c 


1 int decimal5_opt (int *x) 
2 { 
3 int val = 0; 
4 int *xend = x + 4; 
5 
6 do { 
7 val = (10 * val) + *x; 
8 xt++; 
9 } while (x <= xend); 
10 
11 return val; 
12 } 
code/asm/decimal5.c 


(b) Equivalent pointer code 


Get base addr of array x 


val = 0; 
xend = X+4 (16 bytes = 
loop: 

Compute 5*val 

Compute *x 

Compute *x + 2*(5*val) 

X++ 

Compare x:xend 


if <=, goto loop: 


(c) Corresponding assembly code. 


4 double words) 


Figure 3.22: C and Assembly Code for Array Loop Example. The compiler generates code similar to the 
pointer code shown in decimal5-_opt. 
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Data type row3_t is defined to be an array of three integers. Array A contains four such elements, each 
requiring 12 bytes to store the three integers. The total array size is then 4-4-3 = 48 bytes. 


Array A can also be viewed as a two-dimensional array with four rows and three columns, referenced as 
A[0] [0] through A[3] [2]. The array elements are ordered in memory in “row major” order, meaning 
all elements of row 0, followed by all elements of row 1, and so on. 


Element Address 


4 
+ 8 
- 12 
+ 16 
+ 20 
- 24 
+ 28 
+ 32 
+ 36 
+ 40 
+ 44 


This ordering is a consequence of our nested declaration. Viewing A as an array of four elements, each of 
which is an array of three int’s, we first have A [0] (i.e., row 0), followed by A[1], and so on. 


To access elements of multidimensional arrays, the compiler generates code to compute the offset of the 
desired element and then uses a mov1 instruction using the start of the array as the base address and the 
(possibly scaled) offset as an index. In general, for an array declared as: 


T DERI TC); 


array element D [i] [j] is at memory address xp + L(C -i+ j), where L is the size of data type T in bytes. 


As an example, consider the 4 x 3 integer array A defined earlier. Suppose register eax contains xq, that 
%edx holds i, and %ecx holds j. Then array element A[i] [j] can be copied to register seax by the 
following code: 


A in Seax, i in %edx, j in %ecx 


1 sall $2,%ecx j*4 

2 leal (%edx, %edx, 2), %edx i*3 

3 leal (%ecx,%edx, 4), %edx j*4+i*12 
4 movl (%seax, sedx) , seax Read Memlza +4(3- 1+ 3)] 


Practice Problem 3.19: 


Consider the source code below, where M and N are constants declared with #define. 


1 int mat1[M] [N]; 
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int mat2[N] [M]; 


2 
3 
4 int sum_element (int i, int j) 
5 { 

6 return matl[i][j] + mat2[ 5] [il]; 
7 


} 
In compiling this program, GCC generates the following assembly code: 


movl 8(%ebp),%ecx 

movl 12 (%ebp) ,%eax 

leal 0(,%eax,4),%ebx 

leal 0(,%ecx, 8), %edx 

subl %ecx, sedx 

addl %ebx, teax 

sall $2,%eax 

movl mat2 (%eax, Secx, 4), eax 
addl mat1 (%ebx, tedx, 4), teax 


Oo OA HD oO BF WY PE 


Use your reverse engineering skills to determine the values of M and N based on this assembly code. 


3.8.5 Fixed Size Arrays 


The C compiler is able to make many optimizations for code operating on multi-dimensional arrays of fixed 
size. For example, suppose we declare data type fix_mat rix to be 16 x 16 arrays of integers as follows: 


1 #define N 16 
2 typedef int fix_matrix[N] [N]; 


The code in Figure 3.23(a) computes element 7,4 of the product of matrices A and B. The C compiler 
generates code similar to that shown in Figure 3.23(b). This code contains a number of clever optimizations. 
It recognizes that the loop will access the elements of array Aas A[i] [0],A[i][1],...,A[i] [15] in 
sequence. These elements occupy adjacent positions in memory starting with the address of array element 
A[i] [0]. The program can therefore use a pointer variable Aptr to access these successive locations. 
The loop will access the elements of array B as B[0] [kK], B[1] [k],...,B[15] [k] in sequence. These 
elements occupy positions in memory starting with the address of array element B[0] [k] and spaced 64 
bytes apart. The program can therefore use a pointer variable Bpt r to access these successive locations. In 
C, this pointer is shown as being incremented by 16, although in fact the actual pointer is incremented by 
4-16 = 64. Finally, the code can use a simple counter to keep track of the number of iterations required. 


We have shown the C code fix_prod_ele_opt to illustrate the optimizations made by the C compiler 
in generating the assembly. The actual assembly code for the loop is shown below. 


Aptr is in tedx, Bptr in tecx, result in %tesi, cnt in %ebx 
1.23% loop: 
2 movl (%edx) , Seax Compute t = *Aptr 
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a codelasmlarray.c 


1 #define N 16 

2 typedef int fix_matrix[N] [N]; 

3 

4 /* Compute i,k of fixed matrix product */ 
5 int fix_prod_ele (fix_matrix A, fix_matrix B, int, ip ant k) 
6 { 

7 int Jj; 

8 int result = 0; 

9 

10 for (j = 0; J < N; JFF) 

11 result += A[i][j] * B[j][k]; 

12 

13 return result; 

14 } 


code/asm/array.c 
(a) Original C code 


Cd /asnvVarray.c 


} while (cnt >= 0); 


return result; 


1 /* Compute i,k of fixed matrix product */ 
2 int fix_prod_ele_opt (fix matrix A, fix_matrix B, int i, int k) 
z 

4 int *Aptr = &A[i] [0]; 

5 int *Bptr = &B[0] [k]; 

6 int cnt = N - 1; 

7 int result = 0; 

8 

9 do { 

0 result += (*Aptr) * (*Bptr); 

1 Aptr += 1; 

2 Bptr += N; 

3 cnt==; 

4 

5 

6 

7 


code/asnv/array.c 


(b) Optimized C code. 


Figure 3.23: Original and Optimized Code to Compute Element 7,k of Matrix Product for Fixed 
Length Arrays. The compiler performs these optimizations automatically. 
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3 imull (%ecx) ,%eax Compute v = *Bptr * t 
4 addl %eax, Sesi Add v result 

5 addl $64, %ecx Add 64 to Bptr 

6 addl $4, %edx Add 4 to Aptr 

7 decl %ebx Decrement cnt 

8 jns .L23 if >=, goto loop 


Note that in the above code, all pointer increments are scaled by a factor of 4 relative to the C code. 


Practice Problem 3.20: 


The following C code sets the diagonal elements of a fixed-size array to val 


/* Set all diagonal elements to val */ 
void fix_set_diag(fix_matrix A, int val) 
{ 
ant iy 
for (i = 0; i < N; itt) 
A[i]l[i] = 
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When compiled GCC generates the following assembly code: 


movl 12(%ebp), sedx 

movl 8(%ebp), %eax 

movl $15, %ecx 

addl $1020, %eax 

-p2align 4,,7 Added to optimize cache performance 
-L50: 

movl %edx, (eax) 

addl S-68, %eax 

decl %ecx 
10 jns .L50 


oO OAD HO FPF WY EP 


Create a C code program fix_set_diag_opt that uses optimizations similar to those in the assembly 
code, in the same style as the code in Figure 3.23(b). 


3.8.6 Dynamically Allocated Arrays 

C only supports multidimensional arrays where the sizes (with the possible exception of the first dimension) 
are known at compile time. In many applications, we require code that will work for arbitrary size arrays 
that have been dynamically allocated. For these we must explicitly encode the mapping of multidimensional 
arrays into one-dimensional ones. We can define a data type var_mat rix as simply an int *: 


typedef int *var_matrix; 


To allocate and initialize storage for an n x n array of integers, we use the Unix library function calloc: 
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var_matrix new_var_matrix(int n) 


{ 


il 
2 
3 return (var_matrix) calloc(sizeof(int), n * n); 
4 


The calloc function (documented as part of ANSI C [30, 37]) takes two arguments: the size of each 
array element and the number of array elements required. It attempts to allocate space for the entire array. If 
successful, it initializes the entire region of memory to Os and returns a pointer to the first byte. If insufficient 
space is available, it returns null. 


New to C? 

In C, storage on the heap (a pool of memory available for storing data structures) is allocated using the library 
function malloc or its cousin calloc. Their effect is similar to that of the new operation in C++ and Java. Both 
C and C++ require the program to explictly free allocated space using the 


free function. In Java, freeing is performed automatically by the run-time system via a process called garbage 
collection, as will be discussed in Chapter 10. End 


We can then use the indexing computation of row-major ordering to determine the position of element 7, 7 
of the matrix asi-n-+ 7: 


int var_ele(var_matrix A, int i, int j, int n) 


{ 


1 
2 
3 return A[(i*n) + j]; 
4 


This referencing translates into the following assembly code: 


1 movl 8(%ebp) , sedx Get A 

2 movl 12(%ebp), seax Get i 

3 imull 20 (%ebp), %eax Compute n*i 

4 addl 16(%ebp) , teax Compute n*i + j 
5 movl (%edx, seax, 4), eax Get A[i*n + j] 


Comparing this code to that used to index into a fixed-size array, we see that the dynamic version is some- 
what more complex. It must use a multiply instruction to scale 7 by n, rather than a series of shifts and adds. 
In modern processors, this multiplication does not incur a significant performance penalty. 


In many cases, the compiler can simplify the indexing computations for variable-sized arrays using the 
same principles as we saw for fixed-size ones. For example, Figure 3.24(a) shows C code to compute 
element 2, k of the product of two variable-sized matrices A and B. In Figure 3.24(b) we show an optimized 
version derived by reverse engineering the assembly code generated by compiling the original version. The 
compiler is able to eliminate the integer multiplications i*n and j*n by exploiting the sequential access 
pattern resulting from the loop structure. In this case, rather than generating a pointer variable Bptr, the 
compiler creates an integer variable we call nTjPk, for “n Times j Plus k,” since its value equals n* j+k 
relative to the original code. Initially nTjPk equals k, and it is incremented by n on each iteration. 


The assembly code for the loop is shown below. The registers values are: Sedx holds cnt, sebx holds 
Aptr, %ecx holds nTjPk, and esi holds result. 
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code/asm/array.c 
1 typedef int *var_matrix; 
2 
3 /* Compute i,k of variable matrix product */ 
4 int var_prod_ele(var_matrix A, var_matrix B, int i, int k, int n) 
5 q 
6 int j} 
7 int result = 0; 
8 
9 for (j = 0; j < n; j++) 
10 result += A[i*n + j] * B[j*n + k]; 
iT 
12 return result; 
13 } 
code/asm/array.c 
(a) Original C code 
code/asm/array.c 
1 /* Compute i,k of variable matrix product */ 
2 int var_prod_ele_opt (var_matrix A, var_matrix B, int i, int k, int n) 
3 { 
4 int *Aptr = é&A[i*n]; 
5 int nTjJPk = n; 
6 int cnt = n; 
7 int result = 0; 
8 
9 if (n <= 0) 
0 return result; 
1 
2 do { 
3 result += (*Aptr) * B[nTJPk]; 
4 Aptr += 1; 
5 nTjPk += n; 
6 cnt==; 
7 } while (cnt); 
8 
9 return result; 


N 
=) 
= 一 


code/asm/array.c 


(b) Optimized C code 


Figure 3.24: Original and Optimized Code to Compute Element 7, k of Matrix Product for Variable 
Length Arrays. The compiler performs these optimizations automatically. 


3.9. HETEROGENEOUS DATA STRUCTURES 153 


T L373 loop: 

2 movl 12(%ebp), eax Get B 

3 movl (%ebx) , sedi Get *Aptr 

4 addl $4, %ebx Increment Aptr 

5 imull (%eax, %ecx, 4), %edi Multiply by B[nTjPk] 

6 addl %edi, %esi Add to result 

7 addl 24 (%ebp) , tecx Add n to nTjPk 

8 decl %edx Decrement cnt 

9 jnz .L37 If cnt <> 0, goto loop 


Observe that in the above code, variables B and n must be retrieved from memory on each iteration. This 
is an example of register spilling. There are not enough registers to hold all of the needed temporary data, 
and hence the compiler must keep some local variables in memory. In this case the compiler chose to spill 
variables B and n because they are read only—they do not change value within the loop. Spilling is a 
common problem for IA32, since the processor has so few registers. 


3.9 Heterogeneous Data Structures 


C provides two mechanisms for creating data types by combining objects of different types. Structures, 
declared using the keyword struct, aggregate multiple objects into a single one. Unions, declared using 
the keyword union, allow an object to be referenced using any of a number of different types. 


3.9.1 Structures 


The C struct declaration creates a data type that groups objects of possibly different types into a single 
object. The different components of a structure are referenced by names. The implementation of structures 
is similar to that of arrays in that all of the components of a structure are stored in a contiguous region 
of memory, and a pointer to a structure is the address of its first byte. The compiler maintains information 
about each structure type indicating the byte offset of each field. It generates references to structure elements 
using these offsets as displacements in memory referencing instructions. 


New to C? 

The struct data type constructor is the closest thing C provides to the objects of C++ and Java. It allows the 
programmer to keep information about some entity in a single data structure, and reference that information with 
names. 


For example, a graphics program might represent a rectangle as a structure: 


struct rect { 


int llx; /* X coordinate of lower-left corner */ 
int lly; /* Y coordinate of lower-left corner */ 
int color; /* Coding of color */ 
int width; /* Width (in pixels) */ 
int height; /* Height (in pixels) */ 


}; 


We could declare a variable r of type struct rect and set its field values as follows: 
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struct rect r; 
r.llx = r.lly = 0; 
r.color = OxFFOOFF; 
r.width TO; 
r.height = 20; 


where the expression r .11x selects field 11x of structure r. 


It is common to pass pointers to structures from one place to another rather than copying them. For example, 
the following function computes the area of a rectangle, where a pointer to the rectange struct is passed to the 
function: 


int area (struct rect *rp) 


{ 
return (*rp).width * (*rp).height; 


The expression (*rp) .width dereferences the pointer and selects the width field of the resulting structure. 
Parentheses are required, because the compiler would interpret the expression *rp.width as * (rp.width), 
which is not valid. This combination of dereferencing and field selection is so common that C provides an alternative 
notation using —>. That is, rp—>width is equivalent to the expression (*rp) .width. For example, we could 
write a function that rotates a rectangle left by 90 degrees as 


void rotate_left (struct rect *rp) 


{ 
/* Exchange width and height */ 


int t = rp->height; 
rp->height = rp->width; 
rp->width = t; 


The objects of C++ and Java are more elaborate than structures in C, in that they also associate a set of methods with 
an object that can be invoked to perform computation. In C, we would simply write these as ordinary functions, 
such as the functions area and rotate_left shown above. End 


As an example, consider the following structure declaration: 


struct rec { 
int i; 
ant: Jy 
int a[3]; 
int *p; 
}; 


This structure contains four fields: two 4-byte int’s, an array consisting of three 4-byte int’s, and a 4-byte 
integer pointer, giving a total of 24 bytes: 


Offset 0 20 


4 8 
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Observe that array a is embedded within the structure. The numbers along the top of the diagram give the 
byte offsets of the fields from the beginning of the structure. 
To access the fields of a structure, the compiler generates code that adds the appropriate offset to the address 


of the structure. For example, suppose variable r of type struct rec * is in register sedx. Then the 
following code copies element r—>i to element r->j: 


1 movl (%edx) , eax Get r->i 
2 movl %eax, 4 (%edx) Store in r->j 


Since the offset of field i is 0, the address of this field is simply the value of r. To store into field j, the 
code adds offset 4 to the address of r. 


To generate a pointer to an object within a structure, we can simply add the field’s offset to the structure 
address. For example, we can generate the pointer & (r->a[1]) by adding offset 8+4-1 = 12. For pointer 
r in register $edx and integer variable i in register eax, we can generate the pointer value & (r->a[i]) 
with the single instruction: 


r in eax, i in edx 


1 leal 8 (%Seax, tedx, 4), Secx gecx = &r->a[i] 
As a final example, the following code implements the statement: 
r->p = &r->a[r->i + r->j]; 


starting with r in register Sedx: 


1 movl 4(%edx),%eax Get r->j 

2 addl (%edx) , eax Add r->i 

3 leal 8 (%edx, teax, 4), %eax Compute &r->[r->i + r->j] 
4 movl %eax, 20 (Sedx) Store in r->p 


As these examples show, the selection of the different fields of a structure is handled completely at compile 
time. The machine code contains no information about the field declarations or the names of the fields. 


Practice Problem 3.21: 


Consider the following structure declaration. 


struct prob { 
int *p; 
struct { 
int x; 
int y; 
} s; 
struct prob *next; 
}; 


This declaration illustrates that one structure can be embedded within another, just as arrays can be 
embedded within structures, and arrays can be embedded within arrays. 


The following procedure (with some expressions omitted) operates on this structure: 
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void sp_init (struct prob *sp) 


{ 


sp->s.x = —7 
sp->p = 
sp->next = 7 


A. What are the offsets (in bytes) of the following fields: 
p: 
Suži 
S.y: 
next: 


B. How many total bytes does the structure require? 


C. The compiler generates the following assembly code for the body of sp_init: 


movl 8(%ebp), %eax 
movl 8 (%eax) , sedx 
movl %edx, 4 (Seax) 
leal 4(%eax) , sedx 
movl %edx, (Seax) 

movl %eax,12(%eax) 


nN oO F WY FP 


Based on this, fill in the missing expressions in the code for sp_init. 


3.9.2 Unions 


Unions provide a way to circumvent the type system of C, allowing a single object to be referenced according 
to multiple types. The syntax of a union declaration is identical to that for structures, but its semantics are 
very different. Rather than having the different fields reference different blocks of memory, they all reference 
the same block. 


Consider the following declarations: 


struct S3 { 
char c; 
int i[2]; 
double v; 
}; 


union U3 { 
char c; 
int i[2]; 
double v; 
}; 


The offsets of the fields, as well as the total size of data types S3 and U3, are: 
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(We will see shortly why i has offset 4 in S3 rather than 1). For pointer p of type union U3 *, references 
p->c, p->i[0], and p—>v would all reference the beginning of the data structure. Observe also that the 
overall size of a union equals the maximum size of any of its fields. 


Unions can be useful in several contexts. However, they can also lead to nasty bugs, since they bypass the 
safety provided by the C type system. One application is when we know in advance that the use of two 
different fields in a data structure will be mutually exclusive. Then declaring these two fields as part of a 
union rather than a structure will reduce the total space allocated. 


For example, suppose we want to implement a binary tree data structure where each leaf node has a double 
data value, while each internal node has pointers to two children, but no data. If we declare this as: 


struct NODE { 
struct NODE *left; 
struct NODE *right; 
double data; 


}; 


then every node requires 16 bytes, with half the bytes wasted for each type of node. On the other hand, if 
we declare a node as: 


union NODE { 
seruce. | 
union NOD 
union NOD 
} internal; 
double data; 


*left; 
*right; 


}; 


then every node will require just 8 bytes. If n is a pointer to a node of type union NODE *, we would ref- 
erence the data of a leaf node as n—>data, and the children of an internal node as n—>internal.left 
and n->internal.right. 


With this encoding, however, there is no way to determine whether a given node is a leaf or an internal node. 
A common method is to introduce an additional tag field: 


struct NODE { 
int is_leaf; 


union { 
struct { 
struct NODE *left; 
struct NODE *right; 


} internal; 
double data; 
} info; 


}; 
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where the field is_leaf is 1 for a leaf node and is 0 for an internal node. This structure requires a total of 
12 bytes: 4 for is_leaf, and either 4 each forinfo.internal.leftandinfo.internal.right, 
or 8 for info. data. In this case, the savings gain of using a union is small relative to the awkwardness of 
the resulting code. For data structures with more fields, the savings can be more compelling. 


Unions can also be used to access the bit patterns of different data types. For example, the following code 
returns the bit representation of a float as an unsigned: 


1 unsigned float2bit (float f) 
2 { 

3 union { 

4 float f; 

5 unsigned u; 
6 } temp; 

7 temp.f = f; 

8 return temp.u; 
9 


}; 


In this code we store the argument in the union using one data type, and access it using another. Interestingly, 
the code generated for this procedure is identical to that for the procedure: 


unsigned copy (unsigned u) 


{ 


1 
2 
3 return u; 
4 


The body of both procedures is just a single instruction: 
1 movl 8(%ebp), %eax 


This demonstrates the lack of type information in assembly code. The argument will be at offset 8 relative 
to sebp regardless of whether it is a float or an unsigned. The procedure simply copies its argument 
as the return value without modifying any bits. 

When using unions combining data types of different sizes, byte ordering issues can become important. For 


example suppose we write a procedure that will create an 8-byte double using the bit patterns given by 
two 4-byte unsigned’s: 


1 double bit2double(unsigned word0, unsigned wordl1) 
2 { 

3 union { 

4 double d; 

5 unsigned u[2]; 

6 } temp; 

7 

8 temp.u[0] = word0; 

9 temp.u[1l] = wordl; 

10 return temp.d; 


11 } 
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On a little-endian machine such as IA32, argument wordo will become the low-order four bytes of d, while 
word1 will become the high-order four bytes. On a big-endian machine, the role of the two arguments will 
be reversed. 


Practice Problem 3.22: 


Consider the following union declaration. 


union ele { 
struct { 
int: “py; 
int y; 
} el; 
struct { 
int x; 
union ele *next; 
} e2; 
}; 


This declaration illustrates that structures can be embedded within unions. 


The following procedure (with some expressions omitted) operates on link list having these unions as 
list elements: 


void proc (union ele *up) 
{ 


UPp=> AUbs> 二 Vpa> 7 


A. What would be the offsets (in bytes) of the following fields: 
el.p: 
el.y: 
e2.X! 
e2.next: 
B. How many total bytes would the structure require? 


C. The compiler generates the following assembly code for the body of proc: 


ï movl 8(%ebp), seax 
2 movl 4(%eax), %edx 
3 movl (%edx) , SeCcx 
4 movl %sebp, esp 

5 movl (%eax) , Seax 
6 movl (%ecx) , %ecx 
7 subl %Seax, Secx 

8 movl %ecx, 4 (Sedx) 


Based on this, fill in the missing expressions in the code for proc. [Hint: Some union references 
can have ambiguous interpretations. These ambiguities get resolved as you see where the refer- 
ences lead. There is only one answer that does not perform any casting and does not violate any 
type constraints. ] 


160 CHAPTER 3. MACHINE-LEVEL REPRESENTATION OF C PROGRAMS 
3.10 Alignment 


Many computer systems place restrictions on the allowable addresses for the primitive data types, requiring 
that the address for some type of object must be a multiple of some value k (typically 2, 4, or 8). Such 
alignment restrictions simplify the design of the hardware forming the interface between the processor and 
the memory system. For example, suppose a processor always fetches 8 bytes from memory with an address 
that must be a multiple of 8. If we can guarantee that any double will be aligned to have its address be 
a multiple of 8, then the value can be read or written with a single memory operation. Otherwise, we may 
need to perform two memory accesses, since the object might be split across two 8-byte memory blocks. 


The IA32 hardware will work correctly regardless of the alignment of data. However, Intel recommends that 
data be aligned to improve memory system performance. Linux follows an alignment policy where 2-byte 
data types (e.g., short) must have an address that is a multiple of 2, while any larger data types (e.g., int, 
int *, float, and double) must have an address that is a multiple of 4. Note that this requirement 
means that the least significant bit of the address of an object of type short must equal 0. Similarly, any 
object of type int, or any pointer, must be at an address having the low-order two bits equal to 0. 


Aside: Alignment with Microsoft Windows. 

Microsoft Windows requires a stronger alignment requirement—any k-byte (primitive) object must have an address 
that is a multiple of k. In particular, it requires that the address of a double be a multiple of 8. This requirement 
enhances the memory performance at the expense of some wasted space. The design decision made in Linux was 
probably good for the i386, back when memory was scarce and memory busses were only 4 bytes wide. With 
modern processors, Microsoft’s alignment is a better design decision. 


The command line flag -malign-double causes GCC on Linux to use 8-byte alignment for data of type double. 
This will lead to improved memory performance, but it can cause incompatibilities when linking with library code 
that has been compiled assuming a 4-byte alignment. End Aside. 


Alignment is enforced by making sure that every data type is organized and allocated in such a way that every 
object within the type satisfies its alignment restrictions. The compiler places directives in the assembly code 
indicating the desired alignment for global data. For example, the assembly code declaration of the jump 
table on page 131 contains the following directive on line 2: 


-align 4 


This ensures that the data following it (in this case the start of the jump table) will start with an address 
that is a multiple of 4. Since each table entry is 4 bytes long, the successive elements will obey the 4-byte 
alignment restriction. 


Library routines that allocate memory, such as malloc, must be designed so that they return a pointer that 
satisfies the worst-case alignment restriction for the machine it is running on, typically 4 or 8. 


For code involving structures, the compiler may need to insert gaps in the field allocation to ensure that each 
structure element satisfies its alignment requirement. The structure then has some required alignment for its 
starting address. 


For example, consider the structure declaration: 


struct S1 { 
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int. a} 
char c; 
int Jj; 


}; 
Suppose the compiler used the minimal 9-byte allocation, diagrammed as follows: 


Offset 0 4 5 


Contents 


Then it would be impossible to satisfy the 4-byte alignment requirement for both fields i (offset 0) and j 
(offset 5). Instead, the compiler inserts a 3-byte gap (shown below as “XXX”) between fields c and j: 


Offset 0 4 5 8 


so that j has offset 8, and the overall structure size is 12 bytes. Furthermore, the compiler must ensure that 
any pointer p of type struct S1 * satisfies a 4-byte alignment. Using our earlier notation, let pointer p 
have value zp. Then xp must be a multiple of 4. This guarantees that both p—>i (address zp) and p-> j 
(address xp + 4) will satisfy their 4-byte alignment requirements. 


In addition, the compiler may need to add padding to the end of the structure so that each element in an 
array of structures will satisfy its alignment requirement. For example, consider the following structure 
declaration: 


struct S2 { 


Ine a 
int Jj; 
char c; 


}; 


If we pack this structure into 9 bytes, we can still satisfy the alignment requirements for fields i and j by 
making sure that the starting address of the structure satisfies a 4-byte alignment requirement. Consider, 
however, the following declaration: 


struct S2 d[4]; 


With the 9-byte allocation, it is not possible to satisfy the alignment requirement for each element of d, 
because these elements will have addresses £g, £g + 9, xq + 18, and rg + 27. 


Instead the compiler will allocate 12 bytes for structure S1, with the final 3 bytes being wasted space: 


Offset 0 4 8 9 


That way the elements of d will have addresses zg, xg + 12, zg + 24, and xq + 36. As long as xq is a 
multiple of 4, all of the alignment restrictions will be satisfied. 
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Practice Problem 3.23: 


For each of the following structure declarations, determine the offset of each field, the total size of the 
structure, and its alignment requirement under Linux/IA32. 


A. struct Pl int i; char c; int j; char d; }; 


struct P2 int i; char c; char d; int j; }; 


struct P4 


{ 
{ 

struct P3 { short w[3]; char c[3] }; 
{ short w[3]; char *c[3] }; 
{ 


moan 


struct P3 struct Pl a[2]; struct P2 *p }; 


Putting it Together: Understanding Pointers 


Pointers are a central feature of the C programming language. They provide a uniform way to provide remote 
access to data structures. Pointers are a source of confusion for novice programmers, but the underlying 
concepts are fairly simple. The code in Figure 3.25 lets us illustrate a number of these concepts. 


Every pointer has a type. This type indicates what kind of object the pointer points to. In our example 
code, we see the following pointer types: 


Pointer Type | Object Type 


ant * int xp,ip[0],ip[1] 
union uni * | union uni | up 


Note in the above table, that we indicate the type of the pointer itself, as well as the type of the object 
it points to. In general, if the object has type T, then the pointer has type *T. The special void * 
type represents a generic pointer. For example, the malloc function returns a generic pointer, which 
is converted to a typed pointer via a cast (line 21). 


Every pointer has a value. This value is an address of some object of the designated type. The special 
NULL (0) value indicates that the pointer does not point anywhere. We will see the values of our 
pointers shortly. 


Pointers are created with the & operator. This operator can be applied to any C expression that is 
categorized as an /value, meaning an expression that can appear on the left side of an assignment. 
Examples include variables and the elements of structures, unions, and arrays. In our example code, 
we see this operator being applied to global variable g (line 24), to structure element s . v (line 32), 
to union element up-—>v (line 33), and to local variable x (line 42). 


Pointers are dereferenced with the * operator. The result is a value having the type associated with 
the pointer. We see dereferencing applied to both ip and *ip (line 29), to ip [1] (line 31), and xp 
(line 35). In addition, the expression up-—>v (line 33) both derefences pointer up and selects field v. 
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1 struct str { /* Example Structure */ 

2 int t; 

3 char v; 

4 }; 

5 

6 union uni { /* Example Union */ 

7 int t; 

8 char v; 

9 } u; 

0 

1 int g = 15; 

2 

3 void fun(int* xp) 

4 { 

5 void (*f) (int*) = fun; /* £ is a function pointer */ 
6 

7 /* Allocate structure on stack */ 

8 struct str s = {1,’a’}; /* Initialize structure */ 
9 

20 /* Allocate union from heap */ 

21 union uni *up = (union uni *) malloc(sizeof (union uni)); 
22 

23 /* Locally declared array */ 

24 int *ip[2] = {xp, &g}; 

25 

26 up->v = s.vtl; 

27 

28 printf ("ip = Sp, *ip = %p, **ip = $d\n", 
29 ip, *ip, **ip); 

30 printf ("ipti = Sp, ip[l] = %p, *ip[1] = %d\n", 
31 iptl, ip[1], *ip[1]); 

32 printf ("é&s.v = Sp, S.V = 'Sc'\n", &S.v, S.V); 
33 printf ("&up->v = %p, up->v = ’%c’\n", &up->v, up->v); 
34 printf ("f = Sp\n", f); 

35 if (--(*xp) > 0) 

36 f (xp); /* Recursive call of fun */ 
37 } 

38 

39 int test () 

40 { 

41 int x = 2; 

42 fun (&x); 

43 return x; 

44 } 


Figure 3.25: Code Illustrating Use of Pointers in C. In C, pointers can be generated to any data type. 
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e Arrays and pointers are closely related. The name of an array can be referenced (but not updated) 


as if it were a pointer variable. Array referencing (e.g., a[3]) has the exact same effect as pointer 
arithmetic and dereferencing (e.g., * (a+3)). We can see this in line 29, where we print the pointer 
value of array ip, and reference its first (element 0) entry as *ip. 


Pointers can also point to functions. This provides a powerful capability for storing and passing 
references to code, which can be invoked in some other part of the program. We see this with variable 
f (line 15), which is declared to be a variable that points to a function taking an int * as argument 
and returning void. The assignment makes f point to fun. When we later apply f (line 36), we are 
making a recursive call. 


New to C? 
The syntax for declaring function pointers is especially difficult for novice programmers to understand. For a 
declaration such as 


void (*f) (int*); 


it helps to read it starting from the inside (starting with “£”) and working outward. Thus, we see that f is a pointer, 
as indicated by “(*£).” It is a pointer to a function that has a single int * as an argument as indicated by 
“(*£) (int*).” Finally, we see that it is a pointer to a function that takes an int * as an argument and returns 
void. 


The parentheses around *f are required, because otherwise the declaration: 
void *f(int*); 

would be read as: 
(void *) £f(int*); 


That is, it would be interpreted as a function prototype, declaring a function f that has an int * as its argument 
and returns avoid *. 


Kernighan & Ritchie [37, Sect. 5.12] present a very helpful tutorial on reading C declarations. End 


Our code contains a number of calls to printf, printing some of the pointers (using directive Sp) and 
values. When executed, it generates the following output: 


wo OA HD oO FPF W DY KF 


ja 
oO 


ip = Oxbfffefa8, *ip = Oxbfffefe4, **ip = 2 ip[0] = xp. *xp = x = 2 
iptl = Oxbfffefac, ip[1] = 0x804965c, *ip[1] = 15 ip[1] = &g. g = 15 

&S .V = Oxbfffefb4, s.v = lal s in stack frame 

&up->v = 0x8049760, up->v = 'b’ up points to area in heap 

f = 0x8048414 f points to code for fun 

ip = Oxbfffef68, *ip = Oxbfffefe4, **ip = 1 ip in new frame, x = 1 
iptl = Oxbfffef6c, ip[1] = 0x804965c, *ip[1] = 15 ip[1] same as before 
&S.V = Oxbfffef74, s.v = ‘al s in new frame 

&up->v = 0x8049770, up->v = 'b’ up points to new area in heap 


f = 0x8048414 f points to code for fun 
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We see that the function is executed twice—first by the direct call from test (line 42), and second by 
the indirect, recursive call (line 36). We can see that the printed values of the pointers all correspond 
to addresses. Those starting with Oxbfffef point to locations on the stack, while the rest are part of 
the global storage (0x804965c), part of the executable code (0x8048414), or locations on the heap 
(0x8049760 and 0x8049770). 


Array ip is instantiated twice—once for each call to fun. The second value (Oxbfffef68) is smaller 
than the first (Oxbfffefa8), because the stack grows downward. The contents of the array, however, are 
the same in both cases. Element 0 (* ip) is a pointer to variable x in the stack frame for test. Element 1 
is a pointer to global variable g. 


We can see that structure s is instantiated twice, both times on the stack, while the union pointed to by 
variable up is allocated on the heap. 


Finally, variable f is a pointer to function fun. In the disassembled code, we find the following as the initial 
code for fun: 


1 08048414 <fun>: 

2 8048414: 55 push %ebp 

3 8048415: 89 e5 mov %esp, sebp 
4 8048417: 83 ec lc sub SOxlc,%esp 
5 804841la: 57 push sedi 


The value 0x8048414 printed for pointer f is exactly the address of the first instruction in the code for 
fun. 


New to C? 

Other languages, such as Pascal, provide two different ways to pass parameters to procedures—by value (identified 
in Pascal by keyword var), where the caller provides the actual parameter value, and by reference, where the 
caller provides a pointer to the value. In C, all parameters are passed by value, but we can simulate the effect of a 
reference parameter by explicitly generating a pointer to a value and passing this pointer to a procedure. We saw 
this in function fun (Figure 3.25) with the parameter xp. With the initial call fun (&x) (line 42), the function is 
given a reference to local variable x in test. This variable is decremented by each call to fun (line 35), causing 
the recursion to stop after two calls. 


C++ reintroduced the concept of a reference parameter, but many feel this was a mistake. End 


3.12 Life in the Real World: Using the GDB Debugger 


The GNU debugger GDB provides a number of useful features to support the run-time evaluation and anal- 
ysis of machine-level programs. With the examples and exercises in this book, we attempt to infer the 
behavior of a program by just looking at the code. Using GDB, it becomes possible to study the behavior by 
watching the program in action, while having considerable control over its execution. 

Figure 3.26 shows examples of some GDB commands that help when working with machine-level, [A32 
programs. It is very helpful to first run OBJDUMP to get a disassembled version of the program. Our 


examples were based on running GDB on the file prog, described and disassembled on page 96. We would 
start GDB with the command line: 


unix> gdb prog 
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Command 
Starting and Stopping 
quit 
run 
kill 
Breakpoints 
break sum 
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break *0x80483c3 


delete 1 
delete 
Execution 
stepi 
stepi 4 
nexti 
continue 
finish 
Examining code 
disas 
disas sum 
disas 0x80483b7 
disas 0x80483b7 
print /x Seip 
Examining data 
print Seax 
print /x Seax 
print /t Seax 
print 0x100 
print /x 555 


Ox80483c7 


print /x (Sebp+8) 
print *(int *) Oxbffff890 


print *(int *) 
x/2w Oxbffff890 
x/20b sum 

Useful information 
info frame 
info registers 
help 


(Sebpt8) 
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Effect 


Exit GDB 
Run your program (give command line arguments here) 
Stop your program 


Set breakpoint at entry to function sum 
Set breakpoint at address 0x80483c3 
Delete breakpoint 1 

Delete all breakpoints 


Execute one instruction 

Execute four instructions 

Like st epi, but proceed through function calls 
Resume execution 

Run until current function returns 


Disassemble current function 

Disassemble function sum 

Disassemble function around address 0x80483b7 
Disassemble code within specified address range 
Print program counter in hex 


Print contents of Seax in decimal 

Print contents of eax in hex 

Print contents of Seax in binary 

Print decimal representation of 0x100 

Print hex representation of 555 

Print contents of Sebp plus 8 in hex 

Print integer at address Oxbffff890 

Print integer at address Sebp + 8 

Examine two (4-byte) words starting at address 0xbffff890 
Examine first 20 bytes of function sum 


Information about current stack frame 
Values of all the registers 
Get information about GDB 


Figure 3.26: Example GDB Commands. These examples illustrate some of the ways GDB supports debug- 
ging of machine-level programs. 
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The general scheme is to set breakpoints near points of interest in the program. These can be set to just 
after the entry of a function, or at a program address. When one of the breakpoints is hit during program 
execution, the program will halt and return control to the user. From a breakpoint, we can examine different 
registers and memory locations in various formats. We can also single-step the program, running just a few 
instructions at a time, or we can proceed to the next breakpoint. 


As our examples suggests, GDB has an obscure command syntax, but the online help information (invoked 
within GDB with the he 1p command) overcomes this shortcoming. 


3.13 Out-of-Bounds Memory References and Buffer Overflow 


We have seen that C does not perform any bounds checking for array references, and that local variables are 
stored on the stack along with state information such as register values and return pointers. This combination 
can lead to serious program errors, where the state stored on the stack gets corrupted by a write to an out- 
of-bounds array element. When the program then tries to reload the register or execute a ret instruction 
with this corrupted state, things can go seriously wrong. 


A particularly common source of state corruption is known as buffer overflow. Typically some character 
array is allocated on the stack to hold a string, but the size of the string exceeds the space allocated for the 
array. This is demonstrated by the following program example. 


1 /* Implementation of library function gets() */ 

2 char *gets(char *s) 

3 { 

int c; 

char *dest = s; 

while ((c = getchar()) != ’\n’ && c != EOF) 
xdest++ = c; 

*dest++ = '’\0'; /* Terminate String */ 

if (c == EOF) 
return NULL; 

return Ss; 


} 


/* Read input line and write it back */ 
void echo () 
{ 
char buf[4]; /* Way too small! */ 
gets (buf); 
puts (buf); 


Oo OAT OW ND PO 0 oo ~ DH A 


N 
oO 
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The above code shows an implementation of the library function gets to demonstrate a serious problem 
with this function. It reads a line from the standard input, stopping when either a terminating newline 
character or some error condition is encountered. It copies this string to the location designated by argument 
s, and terminates the string with a null character. We show the use of gets in the function echo, which 
simply reads a line from standard input and echos it back to standard output. 
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Stack 
Frame 
for caller 


Return Address 


Saved %ebp 
[3]I[2]1I[1]I[0] 


for echo 


Figure 3.27: Stack Organization for echo Function. Character array buf is just below part of the saved 
state. An out-of-bounds write to puf can corrupt the program state. 


The problem with gets is that it has no way to determine whether sufficient space has been allocated to 
hold the entire string. In our echo example, we have purposely made the buffer very small—just four 
characters long. Any string longer than three characters will cause an out-of-bounds write. 


Examining a portion of the assembly code for echo shows how the stack is organized. 


1 echo: 

2 pushl %ebp Save %ebp on stack 

3 movl %esp, sebp 

4 subl $20,%esp Allocate space on stack 

5 pushl %ebx Save %ebx 

6 addl $-12,%esp Allocate more space on stack 
7 leal -4(%ebp) , ebx Compute buf as %ebp-4 

8 pushl %ebx Push buf on stack 

9 call gets Call gets 


We can see in this example that the program allocates a total of 32 bytes (lines 4 and 6) for local storage. 
However, the location of character array buf is computed as just four bytes below %ebp (line 7). Figure 
3.27 shows the resulting stack structure. As can be seen, any write to buf [4] through buf [7] will cause 
the saved value of Sebp to be corrupted. When the program later attempts to restore this as the frame 
pointer, all subsequent stack references will be invalid. Any write to buf [8] through buf [11] will 
cause the return address to be corrupted. When the ret instruction is executed at the end of the function, 
the program will “return” to the wrong address. As this example illustrates, buffer overflow can cause a 
program to seriously misbehave. 


Our code for echo is simple but sloppy. A better version involves using the function fgets, which includes 
as an argument a count on the maximum number bytes to read. Homework problem 3.37 asks you to write 
an echo function that can handle an input string of arbitrary length. In general, using get s or any function 
that can overflow storage is considered a bad programming practice. The C compiler even produces the 
following error message when compiling a file containing a call to gets: “the get s function is dangerous 
and should not be used.” 
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/* This is very low quality code. 
It is intended to illustrate bad programming practices. 
See Practice Problem 3.24. */ 

char *getline() 


{ 


char buf[8]; 
char *result; 
gets (buf); 


result 


= malloc (strlen (buf) ); 


strcpy (result, buf); 
return (result); 


C Code 

08048524 <getline>: 

8048524: 55 push 
8048525: 89 e5 mov 
8048527: 83 ec 10 sub 
804852a: 56 push 
804852b: 53 push 
Diagram stack at this point 

804852c: 83 c4 f4 add 
804852f: 8d 5d £8 lea 
8048532: 53 push 
8048533: e8 74 fe ff ff call 


Modify diagram to show values at this point 


code/asm/bufovf.c 


code/asm/bufovf.c 


sebp 
sesp, sebp 
$0x10,%esp 
Sesi 
%ebx 


SOxfffffff4, %esp 

Oxfffffff8 (Sebp) , sebx 

%ebx 

80483ac <_init+0x50> gets 


Disassembly up through call to gets 


Figure 3.28: C and Disassembled Code for Problem 3.24. 
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Practice Problem 3.24: 


Figure 3.28 shows a (low quality) implementation of a function that reads a line from standard input, 
copies the string to newly allocated storage, and returns a pointer to the result. 


Consider the following scenario. Procedure get line is called with the return address equal to 0x8048 643, 
register Sebp equal to Oxbffffc94, register $esi equal to 0x1, and register %ebx equal to 0x2. 

You type in the string “012345678901.” The program terminates with a segmentation fault. You run 
GDB and determine that the error occurs during the execution of the ret instruction of get line. 


A. Fill in the diagram below indicating as much as you can about the stack just after executing the 
instruction at line 6 in the disassembly. Label the quantities stored on the stack (e.g., “Return 
Address”) on the right, and their hexadecimal values (if known) within the box. Each box 
represents four bytes. Indicate the position of Sebp. 


pesses + 
| 08 04 86 43 | Return Address 
teeseen + 
| | 
pensas + 
| | 
+ 一 一 一 -一 -一 -一 一 一 一 一 十 
| | 
+ 一 一 一 -一 -一 -一 -一 -一 十 
| | 
$—------------ + 
| | 
4------------- + 
| | 
下 二 + 
| | 
A + 


Modify your diagram to show the effect of the call to gets (line 10). 
To what address does the program attempt to return? 


What register(s) have corrupted value(s) when getline returns? 


moa 


Besides the potential for buffer overflow, what two other things are wrong with the code for get- 
line? 


A more pernicious use of buffer overflow is to get a program to perform a function that it would otherwise be 
unwilling to do. This is one of the most common methods to attack the security of a system over a computer 
network. Typically, the program is fed with a string that contains the byte encoding of some executable 
code, called the exploit code, plus some extra bytes that overwrite the return pointer with a pointer to the 
code in the buffer. The effect of executing the ret instruction is then to jump to the exploit code. 


In one form of attack, the exploit code then uses a system call to start up a shell program, providing the 
attacker with a range of operating system functions. In another form, the exploit code performs some 
otherwise unauthorized task, repairs the damage to the stack, and then executes ret a second time, causing 
an (apparently) normal return to the caller. 
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As an example, the famous Internet worm of November, 1988 used four different ways to gain access 
to many of the computers across the Internet. One was a buffer overflow attack on the finger daemon 
fingerd, which serves requests by the FINGER command. By invoking FINGER with an appropriate 
string, the worm could make the daemon at a remote site have a buffer overflow and execute code that gave 
the worm access to the remote system. Once the worm gained access to a system, it would replicate itself 
and consume virtually all of the machine’s computing resources. As a consequence, hundreds of machines 
were effectively paralyzed until security experts could determine how to eliminate the worm. The author of 
the worm was caught and prosecuted. He was sentenced to three years probation, 400 hours of community 
service, and a $10,500 fine. Even to this day, however, people continue to find security leaks in systems that 
leave them vulnerable to buffer overflow attacks. This highlights the need for careful programming. Any 
interface to the external environment should be made “bullet proof” so that no behavior by an external agent 
can cause the system to misbehave. 


Aside: Worms and viruses 

Both worms and viruses are pieces of code that attempt to spread themselves among computers. As described by 
Spafford [69], a worm is a program that can run by itself and can propagate a fully working version of itself to other 
machines. A virus is a piece of code that adds itself to other programs, including operating systems. It cannot run 
independently. In the popular press, the term “virus” is used to refer to a variety of different strategies for spreading 
attacking code among systems, and so you will hear people saying “virus” for what more properly should be called 
a “worm.” End Aside. 


In Problem 3.38, you can gain first-hand experience at mounting a buffer overflow attack. Note that we 
do not condone using this or any other method to gain unauthorized access to a system. Breaking into 
computer systems is like breaking into a building—it is a criminal act even when the perpetrator does not 
have malicious intent. We give this problem for two reasons. First, it requires a deep understanding of 
machine-language programming, combining such issues as stack organization, byte ordering, and instruc- 
tion encoding. Second, by demonstrating how buffer overflow attacks work, we hope you will learn the 
importance of writing code that does not permit such attacks. 


Aside: Battling Microsoft via buffer overflow 

In July, 1999, Microsoft introduced an instant messaging (IM) system whose clients were compatible with the 
popular AOL IM servers. This allowed Microsoft IM users to chat with AOL IM users. However, one month later, 
Microsoft IM users were suddenly and mysteriously unable to chat with AOL users. Microsoft released updated 
clients that restored service to the AOL IM system, but within days these clients no longer worked either. AOL had, 
possibly unintentionally, written client code that was vulnerable to a buffer overflow attack. Their server applied 
such an attack on client code when a user logged in to determine whether the client was running AOL code or 
someone else’s. 


The AOL exploit code sampled a small number of locations in the memory image of the client, packed them into 
a network packet, and sent them back to the server. If the server did not receive such a packet, or if the packet it 
received did not match the expected “footprint” of the AOL client, then the server assumed the client was not an 
AOL client and denied it access. So if other IM clients, such as Microsoft’s, wanted access to the AOL IM servers, 
they would not only have to incorporate the buffer overflow bug that existed in AOL’s clients, but they would also 
have to have identical binary code and data in the appropriate memory locations. But as soon as they matched these 
locations and distributed new versions of their client programs to customers, AOL could simply change its exploit 
code to sample different locations in the client’s memory image. This was clearly a war that the non-AOL clients 
could never win! 


The entire episode had a number of unusuals twists and turns. Information about the client bug and AOL’s exploita- 
tion of it first came out when someone posing to be an independent consultant by the name of Phil Bucking sent 
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a description via email to Richard Smith, a noted security expert. Smith did some tracing and determined that the 
email actually originated from within Microsoft. Later Microsoft admitted that one of its employees had sent the 
email [48]. On the other side of the controversy, AOL never admitted to the bug nor their exploitation of it, even 
though conclusive evidence was made public by Geoff Chapell of Australia. 


So, who violated which code of conduct in this incident? First, AOL had no obligation to open its IM system to 
non-AOL clients, so they were justified in blocking Microsoft. On the other hand, using buffer overflows is a tricky 
business. A small bug would have crashed the client computers, and it made the systems more vulnerable to attacks 
by external agents (although there is no evidence that this occurred). Microsoft would have done well to publicly 
announce AOL’s intentional use of buffer overflow. However, their Phil Bucking subterfuge was clearly the wrong 
way to spread this information, from both an ethical and a public relations point of view. End Aside. 


3.14 *Floating-Point Code 


The set of instructions for manipulating floating-point values is one least elegant features of the [A32 archi- 
tecture. In the original Intel machines, floating point was performed by a separate coprocessor, a unit with 
its own registers and processing capabilities that executes a subset of the instructions. This coprocessor was 
implemented as a separate chip named the 8087, 80287, and i387, to accompany the processor chips 8086, 
80286, and i386, respectively. During these product generations, chip capacity was insufficient to include 
both the main processor and the floating-point coprocessor on a single chip. In addition, lower-budget ma- 
chines would omit floating-point hardware and simply perform the floating-point operations (very slowly!) 
in software. Since the i486, floating point has been included as part of the [A32 CPU chip. 


The original 8087 coprocessor was introduced to great acclaim in 1980. It was the first single-chip floating- 
point unit (FPU), and the first implementation of what is now known as IEEE floating point. Operating as 
a coprocessor, the FPU would take over the execution of floating-point instructions after they were fetched 
by the main processor. There was minimal connection between the FPU and the main processor. Commu- 
nicating data from one processor to the other required the sending processor to write to memory and the 
receiving one to read it. Artifacts of that design remain in the IA32 floating-point instruction set today. In 
addition, the compiler technology of 1980 was much less sophisticated than it is today. Many features of 
IA32 floating point make it a difficult target for optimizing compilers. 


3.14.1 Floating-Point Registers 


The floating-point unit contains eight floating-point registers, but unlike normal registers, these are treated 
as a shallow stack. The registers are identified as st (0), st (1), and so on, up to st (7), with 
%st (0) being the top of the stack. When more than eight values are pushed onto the stack, the ones at the 
bottom simply disappear. 


Rather than directly indexing the registers, most of the arithmetic instructions pop their source operands 
from the stack, compute a result, and then push the result onto the stack. Stack architectures were considered 
a clever idea in the 1970s, since they provide a simple mechanism for evaluating arithmetic instructions, 
and they allow a very dense coding of the instructions. With advances in compiler technology and with 
the memory required to encode instructions no longer considered a critical resource, these properties are no 
longer important. Compiler writers would be much happier with a larger, conventional set of floating-point 
registers. 
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Aside: Other stack-based languages. 

Stack-based interpreters are still commonly used as an intermediate representation between a high-level language 
and its mapping onto an actual machine. Other examples of stack-based evaluators include Java byte code, the 
intermediate format generated by Java compilers, and the Postscript page formatting language. End Aside. 


Having the floating-point registers organized as a bounded stack makes it difficult for compilers to use these 
registers for storing the local variables of a procedure that calls other procedures. For storing local integer 
variables, we have seen that some of the general purpose registers can be designated as callee saved and 
hence be used to hold local variables across a procedure call. Such a designation is not possible for an IA32 
floating-point register, since its identity changes as values are pushed onto and popped from the stack. For 
a push operation causes the value in st (0) to now be in Sst (1). 


On the other hand, it might be tempting to treat the floating-point registers as a true stack, with each pro- 
cedure call pushing its local values onto it. Unfortunately, this approach would quickly lead to a stack 
overflow, since there is room for only eight values. Instead, compilers generate code that saves every local 
floating-point value on the main program stack before calling another procedure and then retrieves them on 
return. This generates memory traffic that can degrade program performance. 


3.14.2 Extended-Precision Arithmetic 


A second unusual feature of [A32 floating point is that the floating-point registers are all 80 bits wide. They 
encode numbers in an extended-precision format as described in Problem 2.49. It is similar to an IEEE 
floating-point format with a 15-bit exponent (i.e., k = 15) and a 63-bit fraction (i.e., n = 63). All single and 
double-precision numbers are converted to this format as they are loaded from memory into floating-point 
registers. The arithmetic is always performed in extended precision. Numbers are converted from extended 
precision to single or double-precision format as they are stored in memory. 


This extension to 80 bits for all register data and then contraction to a smaller format for all memory data 
has some undesirable consequences for programmers. It means that storing a value in memory and then 
retrieving it can change its value, due to rounding, underflow, or overflow. This storing and retrieving is not 
always visible to the C programmer, leading to some very peculiar results. 


The following example illustrates this property: 


code/asm/fcomp.c 


double recip(int denom) 


{ 


1 

2 

3 return 1.0/ (double) denom; 
4 

5 


6 void do_nothing() {} /* Just like the name says */ 


8 void test1 (int denom) 
9 { 

10 double rl, r2; 

i3 int Cly E23 
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3 rl = recip(denom); /* Stored in memory * / 

4 r2 = recip(denom); /* Stored in register * / 

5 tl = rl == r2; /* Compares register to memory * / 

6 do_nothing(); /* Forces register save to memory */ 

7 t2 = rl == r2; /* Compares memory to memory * / 

8 printf("testl tl: rl Sf Sc= r2 Sf\n", rl; tl ? "= : "!", 4x2); 
9 printf("testl t2: rl Sf Sc= r2 SF\n", rl, t2 ? = : 717, r2); 
20 } 


code/asm/fcomp.c 


Variables r1 and r2 are computed by the same function with the same argument. One would expect them 
to be identical. Furthermmore, both variables t1 and t2 are computing by evaluating the expression r1 
== r2, and so we would expect them both to equal 1. There are no apparent hidden side effects—function 
recip does a straightforward reciprocal computation, and, as the name suggests, function do_nothing 
does nothing. When the file is compiled with optimization flag ‘-O2’ and run with argument 10, however, 
we get the following result: 


testl tl: rl 0.100000 != r2 0.100000 
testl t2: rl 0.100000 == r2 0.100000 


The first test indicates the two reciprocals are different, while the second indicates they are the same! This is 
certainly not what we would expect, nor what we want. The comments in the code provide a clue for why this 
outcome occurs. Function recip returns its result in a floating-point register. Whenever procedure test 1 
calls some function, it must store any value currently in a floating-point register onto the main program 
stack, converting from extended to double precision in the process. (We will see why this happens shortly). 
Before making the second call to recip, variable r1 is converted and stored as a double-precision number. 
After the second call, variable r2 has the extended-precision value returned by the function. In computing 
t1, the double-precision number r1 is compared to the extended-precision number r2. Since 0.1 cannot be 
represented exactly in either format, the outcome of the test is false. Before calling function do_nothing, 
r2 is converted and stored as a double-precision number. In computing t 2, two double-precision numbers 
are compared, yielding true. 


This example demonstrates a deficiency of GCC on IA32 machines (the same result occurs for both Linux 
and Microsoft Windows). The value associated with a variable changes due to operations that are not visible 
to the programmer, such as the saving and restoring of floating-point registers. Our experiments with the 
Microsoft Visual C++ compiler indicate that it does not have this problem. 


There are several ways to overcome this problem, although none are ideal. One is to invoke GCC with the 
command line flag ‘-mno-fp-ret-—in-387’ indicating that floating-point values should be returned on 
the main program stack rather than in a floating-point register. Function test1 will then show that both 
comparisons are true. This does not solve the problem—it just moves it to a different source of inconsistency. 
For example, consider the following variant, where we compute the reciprocal r2 directly rather than calling 
recip: 


code/asm/fcomp.c 
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1 void test2 (int denom) 

2 { 

3 double rl, r2; 

4 int til, t2; 

5 

6 rl = recip(denom); /* Stored in memory Xy 
7 r2 = 1.0/ (double) denom; /* Stored in register * / 
8 tl = rl == r2; /* Compares register to memory = 
9 do_nothing(); /* Forces register save to memory */ 
10 t2 = rl == r2; /* Compares memory to memory kf 


11 printf ("test2 tl: rl Sf %c= r2 Sf\n", rl, tl ? = : 717, r2); 
12 printf ("test2 t2: rl Sf S$c= r2 %f\n", rl, t2 ? = 717, x2); 


code/asm/fcomp.c 


Once again we get t 1 equal to 0 一 the double-precision value in memory computed by recip is compared 
to the extended-precision value computed directly. 


A second method is to disable compiler optimization. This causes the compiler to store every intermediate 
result on the main program stack, ensuring that all values are converted to double precision. However, this 
leads to a significant loss of performance. 


Aside: Why should we be concerned about these inconsistencies? 

As we will discuss in Chapter 5, one of the fundamental principles of optimizing compilers is that programs should 
produce the exact same results whether or not optimization is enabled. Unfortunately GCC does not satisfy this 
requirement for floating-point code. End Aside. 


Finally, we can have GCC use extended precision in all of its computations by declaring all of the variables 
tobe long double as shown in the following code: 


code/asm/fcomp.c 


long double recip_l(int denom) 
{ 

return 1.0/(long double) denom; 
} 


1 

2 

3 

4 

5 

6 void test3(int denom) 

7 { 

8 long double rl, r2; 

9 ant Gly E25 

0 

1 rl = recip_l(denom); /* Stored in memory ay, 
2 r2 recip_l(denom); /* Stored in register */ 
3 tl = ri == r2; /* Compares register to memory */ 
4 do_nothing(); /* Forces register save to memory */ 
5 t2 = rl == r2; /* Compares memory to memory */ 
6 printf ("test3 tl: rl Sf %c= r2 Sf\n", 

7 (double) rl, t1 ? ’=’ : '!", (double) r2); 


ll 
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Eifel 


load S Push value at 9 onto stack 
storep D | Pop top stack element and store at D 
neg Negate top stack element 


addp Pop top two stack elements; Push their sum 
subp Pop top two stack elements; Push their difference 
multp Pop top two stack elements; Push their product 
divp Pop top two stack elements; Push their ratio 


Figure 3.29: Hypothetical Stack Instruction Set. These instructions are used to illustrate stack-based 
expression evaluation 


18 printf ("test3 t2: rl Sf %c= r2 Sf\n", 
19 (double) rl, t2 ? ’="’ : 717, (double) r2); 
20 } 


code/asm/fcomp.c 


The declaration long double is allowed as part of the ANSI C standard, although for most machines 
and compilers this declaration is equivalent to an ordinary double. For GCC on IA32 machines, however, 
it uses the extended-precision format for memory data as well as for floating point register data. This allows 
us to take full advantage of the wider range and greater precision provided by the extended-precision format 
while avoiding the anomalies we have seen in our earlier examples. Unfortunately, this solution comes at a 
price. GCC uses 12 bytes to store a long double, increasing memory consumption by 50%. (Although 10 
bytes would suffice, it rounds this up to 12 to give a better alignment. The same allocation is used on both 
Linux and Windows machines). Transfering these longer data between registers and memory takes more 
time, too. Still, this is the best option for programs requiring very consistent numerical results. 


3.14.3 Stack Evaluation of Expressions 


To understand how IA32 uses its floating-point registers as a stack, let us consider a more abstract version 
of stack-based evaluation. Assume we have an arithmetic unit that uses a stack to hold intermediate re- 
sults, having the instruction set illustrated in Figure 3.29. For example, so-called RPN (for Reverse Polish 
Notation) pocket calculators provide this feature. In addition to the stack, this unit has a memory that can 
hold values we will refer to by names such as a, b, and x. As Figure 3.29 indicates, we can push memory 
values onto this stack with the load instruction. The storep operation pops the top element from the 
stack and stores the result in memory. A unary operation such as neg (negation) uses the top stack element 
as its argument and overwrites this element with the result. Binary operations such as addp and multp 
use the top two elements of the stack as their arguments. They pop both arguments off the stack and then 
push the result back onto the stack. We use the suffix ‘p° with the store, add, subtract, multiply, and divide 
instructions to emphasize the fact that these instructions pop their operands. 


As an example, suppose we wish to evaluate the expression x = (a-b) / (—b+c). We could translate this 
expression into the following code. Alongside each line of code, we show the contents of the floating-point 
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register stack. In keeping with our earlier convention, we show the stack as growing downward, so the “top” 
of the stack is really at the bottom. 


ast (2) 

| 0) 

aga. | © Tem eas | © č mn 

py ast (1) 

tesa [2 |: 30) | aus Tab | so 
sst (1) 

TA Pod Eg Gi PE 

a 

—bte sst (1) 
sloadb [Lb | sto) 


As this example shows, there is a natural recursive procedure for converting an arithmetic expression into 
stack code. Our expression notation has four types of expressions having the following translation rules: 


1. A variable reference of the form Var. This is implemented with the instruction load Var. 


2. A unary operation of the form — Expr. This is implemented by first generating the code for Expr 
followed by a neg instruction. 


3. A binary operation of the form Expr, + Ezpro, Expr, — Expry, Expr, * Expry, or Expr, / Expro. 
This is implemented by generating the code for Exprs, followed by the code for Expr,, followed by 
an addp, subp, multp, or divp instruction. 


4. An assignment of the form Var = Expr. This is implemented by first generating the code for Ezpr, 
followed by the storep Var instruction. 


As an example, consider the expression x = a-b/c. Since division has precedence over subtraction, this 
expression can be parenthesized as x = a- (b/c). The recursive procedure would therefore proceed as 
follows: 


1. Generate code for Expr = a- (b/c): 


(a) Generate code for Expry =b/c: 
i. Generate code for Expr. = c using the instruction load c. 
ii. Generate code for Expr; = b, using the instruction load b. 
iii. Generate instruction divp. 
(b) Generate code for Expr, = a, using the instruction load a. 


(c) Generate instruction subp. 
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2. Generate instruction storep x. 


The overall effect is to generate the following stack code: 


tst 1) 
iias | © Tw sraa | ww | Sb 
vse (1) 
2loadb [| b | sst(0) 5 subp a — (b/c) est (0) 
3 divp b/c PRELE 6 storep x 
Practice Problem 3.25: 
Generate stack code for the expression x = a*b/c * -(a+b*c). Diagram the contents of the stack 


for each step of your code. Remember to follow the C rules for precedence and associativity. 


Stack evaluation becomes more complex when we wish to use the result of some computation multiple 
times. For example, consider the expression x = (a*b) * (-(a*b) +c). For efficiency, we would like to 
compute a*b only once, but our stack instructions do not provide a way to keep a value on the stack once 
it has been used. With the set of instructions listed in Figure 3.29, we would therefore need to store the 
intermediate result a+b in some memory location, say t, and retrieve this value for each use. This gives the 
following code: 


t (0) 


oe 
a 


7 neg 


t (1) 
t (0) 


a 


oo oP 
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a 
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t (0) 
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st (1) 
= 10 multp a-b:(—(a-b)+c)] sst) 


Sst (0) 


5 storep t 11 storep x 
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6 load t 
This approach has the disadvantage of generating additional memory traffic, even though the register stack 
has sufficient capacity to hold its intermediate results. The IA32 floating-point unit avoids this inefficiency 
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Instruction Source Format | Source Location 


flds Addr Single Mem, [Addr] 
fldl Addr double Mems| Addr] 


fldt Addr extended Mem o|Addr| 
fildl Addr integer Mem, [Addr] 


Ha 3st @ 


Figure 3.30: Floating-Point Load Instructions. All convert the operand to extended-precision format and 
push it onto the register stack. 


by introducing variants of the arithmetic instructions that leave their second operand on the stack, and that 
can use an arbitrary stack value as their second operand. In addition, it provides an instruction that can 
swap the top stack element with any other element. Although these extensions can be used to generate more 
efficient code, the simple and elegant algorithm for translating arithmetic expressions into stack code is lost. 


3.14.4 Floating-Point Data Movement and Conversion Operations 


Floating-point registers are referenced with the notation Sst (1), where ¿ denotes the position relative to 
the top of the stack. The value 1 can range between 0 and 7. Register st (0) is the top stack element, 
%st (1) is the second element, and so on. The top stack element can also be referenced as 3st. When a 
new value is pushed onto the stack, the value in register st (7) is lost. When the stack is popped, the new 
value in Sst (7) is not predictable. Compilers must generate code that works within the limited capacity 
of the register stack. 


Figure 3.30 shows the set of instructions used to push values onto the floating-point register stack. The first 
group of these read from a memory location, where the argument Addr is a memory address given in one 
of the memory operand formats listed in Figure 3.3. These instructions differ by the presumed format of 
the source operand and hence the number of bytes that must be read from memory. We use the notation 
Mem,,| Addr] to denote accessing of n bytes with starting address Addr. All of these instructions convert 
the operand to extended-precision format before pushing it onto the stack. The final load instruction fld is 
used to duplicate a stack value. That is, it pushes a copy of floating-point register st (2) onto the stack. 
For example, the instruction f1d %st (0) pushes a copy of the top stack element onto the stack. 


Figure 3.31 shows the instructions that store the top stack element either in memory or in another floating- 
point register. There are both “popping” versions that pop the top element off the stack, similar to the 
storep instruction for our hypothetical stack evaluator, as well as nonpopping versions that leave the 
source value on the top of the stack. As with the floating-point load instructions, different variants of the 
instruction generate different formats for the result and therefore store different numbers of bytes. The first 
group of these store the result in memory. The address is specified using any of the memory operand formats 
listed in Figure 3.3. The second group copies the top stack element to some other floating-point register. 


Practice Problem 3.26: 


Assume for the following code fragment that register eax contains an integer variable x and that the 
top two stack elements correspond to variables a and b, respectively. Fill in the boxes to diagram the 
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Pop (Y/N) | Destination Format | Destination Location 


fsts Addr 
fstps Addr 
fstl Addr 
fstpl Addr 
fstt Addr 
fstpt Addr 
fistl Addr 
fistpl Addr 


stack contents after each instruction 


testl Seax, teax 


KAKAKAKZ 


K Zz 


Single Mem, 
Single Mem, 
Double Memg 


Double Memg 


integer Mem; 
integer Mem; 


[Addr 


[Addr 


Extended Sst (i) 
Extended Sst (i) 


Figure 3.31: Floating-Point Store Instructions. All convert from extended-precision format to the desti- 
nation format. Instructions with suffix ‘p’ pop the top element off the stack. 


Hii z 
jne L11 | a eeo 


fstp sst(0) D Tewo 


jmp L9 


IIs 


fstp sst(1) DO Tewo 


Ls 


[Addr] 
[Addr] 
[Addr] 
Extended Memyo[4ddr 


[Addr] 


Extended Mem [Addr] 


Write a C expression describing the contents of the top stack element at the end of this code sequence in 


terms of x, a and b. 


A final floating-point data movement operation allows the contents of two floating-point registers to be 
swapped. The instruction fxch %st (1) exchanges the contents of floating-point registers Sst (0) and 
$st (i). The notation fxch written with no argument is equivalent to fxch %st (1), that is, swap the 


top two stack elements. 
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Computation 


fldz 0 
fidil 1 


Figure 3.32: Floating-Point Arithmetic Operations. Each of the binary operations has many variants. 


Operand 1 | Operand 2 (Format) Destination | Pop %st (0) (Y/N 


fsubs Mem,[Addr] | Single Sst (0) N 
fsubl Mems|Addr] | Double 
fsubt Mem,o[Addr] | Extended 
fisubl Mem,[Addr] | integer 


fsub Sst (i), Sst %st (0) Extended 
fsub Sst, %st (2) Sst (2) Extended 
fsubp Sst, Sst (2) Sst (i) Extended 
fsubp Sst (1) Extended 


Figure 3.33: Floating-Point Subtraction Instructions. All store their results into a floating-point register 
in extended-precision format. Instructions with suffix ‘p’ pop the top element off the stack. 


3.14.5 Floating-Point Arithmetic Instructions 


Figure 3.32 documents some of the most common floating-point arithmetic operations. Instructions in the 
first group have no operands. They push the floating-point representation of some numerical constant onto 
the stack. There are similar instructions for such constants as 7, e, and logs 10. Instructions in the second 
group have a single operand. The operand is always the top stack element, similar to the neg operation 
of the hypothetical stack evaluator. They replace this element with the computed result. Instructions in the 
third group have two operands. For each of these instructions, there are many different variants for how the 
operands are specified, as will be discussed shortly. For noncommutative operations such as subtraction and 
division there is both a forward (e.g., fsub) and a reverse (e.g., f subr) version, so that the arguments can 
be used in either order. 


In Figure 3.32 we show just a single form of the subtraction operation f sub. In fact, this operation comes in 
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many different variants, as shown in Figure 3.33. All compute the difference of two operands: Op, — Ops 
and store the result in some floating-point register. Beyond the simple subp instruction we considered 
for the hypothetical stack evaluator, [A32 has instructions that read their second operand from memory or 
from some floating-point register other than Sst (1). In addition, there are both popping and nonpopping 
variants. The first group of instructions reads the second operand from memory, either in single-precision, 
double-precision, or integer format. It then converts this to extended-precision format, subtracts it from 
the top stack element, and overwrites the top stack element. These can be seen as a combination of a 
floating-point load following by a stack-based subtraction operation. 


The second group of subtraction instructions use the top stack element as one argument and some other 
stack element as the other, but they vary in the argument ordering, the result destination, and whether 
or not they pop the top stack element. Observe that the assembly code line fsubp is shorthand for 
fsubp %st,%st(1). This line corresponds to the subp instruction of our hypothetical stack evalua- 
tor. That is, it computes the difference between the top two stack elements, storing the result in Sst (1), 
and then popping %st (0) so that the computed value ends up on the top of the stack. 


All of the binary operations listed in Figure 3.32 come in all of the variants listed for f sub in Figure 3.33. 


As an example, we can rewrite the code for the expression x = (a-b) * (-b+c) using the IA32 instruc- 
tions. For exposition purposes we will still use symbolic names for memory locations and we assume these 
are double-precision values. 


gaib [ pb Ts) 5 fsubl b [oh | we 


Sst (0) 


(a — b)(—b + c) sst (0) 


2 fehs 6 fmulp 


3 faddi c Lote Teso bora 
b+c 


Co g 
4fldla | @ | 3w 


As another example, we can write the code for the expression x (a*b)+(-(a*b)+c) as follows. 
Observe how the instruction f1d %st (0) is used to create two copies of a*b on the stack, avoiding the 
need to save the value in a temporary memory location. 


Co e 
1 fldl a E ao Ts tchs | Ca) | se 


2 fmul b sst(0) 5 faddl c —(a-b) +c Sst (0) 


| re 
3 fld %st (0) Fee FT ts 6 fmulp (—(a-6)+c)-a-b| sst(0) 
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Practice Problem 3.27: 


Diagram the stack contents after each step of the following code: 


1 fldl b E Tewo 
g 

2 fldla Sst (0) 
li 

3 fmul %st (1), Sst %st (0) 
Sst (1) 

4 fxch Sst (0) 
FF en 

5 fdivrl c Sst (0) 
6 fsubrp E Teo 


7 fstp x 


Give an expression describing this computation. 


3.14.6 Using Floating Point in Procedures 


Floating-point arguments are passed to a calling procedure on the stack, just as are integer arguments. Each 
parameter of type float requires 4 bytes of stack space, while each parameter of type double requires 
8. For functions whose return values are of type float or double, the result is returned on the top of the 
floating-point register stack in extended-precision format. 


As an example, consider the following function 


double funct (double a, float x, double b, int i) 
{ 


return a*x - b/i; 


BW N Pp 


Arguments a, x, b, and i will be at byte offsets 8, 16, 20, and 28 relative to %ebp, respectively, as dia- 
grammed below: 


Offset 8 16 20 28 
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The body of the generated code, and the resulting stack values are as follows: 


1 fildl 28(%ebp) TL i Tt 


2 fdivrl 20(%ebp) b/i Sst (0) 


Sst (1) 


3 flds 16 (%ebp) st (0) 


b/i Sst (1) 
4 fmull 8 (%ebp) Q 2 Sst (0) 


5 fsubp est, Sst (1) [ am- Oi J se 


Practice Problem 3.28: 


For a function funct2 with arguments a, x, b, and i (and a different declaration than that of funct, 


the compiler generates the following code for the function body: 


movl 8(%ebp), %eax 
fldl 12 (%ebp) 
flds 20 (%ebp) 
movl %eax,-4 (%ebp) 
fildl -4 (%ebp) 
fxch Sst (2) 

faddp %st,%st (1) 
fdivrp %st,%st (1) 
fldl 

flds 24 (%ebp) 
faddp %st,%st (1) 


wo OAT HD oO PF WN FB 


Poe 
e o 


The returned value is of type double. Write C code for funct2. Be sure to correctly declare the 


argument types. 


3.14.7 Testing and Comparing Floating-Point Values 


Similar to the integer case, determining the relative values of two floating-point numbers involves using 
a comparison instruction to set condition codes and then testing these condition codes. For floating point, 
however, the condition codes are part of the floating-point status word, a 16-bit register that contains various 
flags about the floating-point unit. This status word must be transferred to an integer word, and then the 


particular bits must be tested. 
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On, Type | Number of Pops 


fcoms Addr fucoms Addr Mem,{Addr]_ Single 0 


4 


fcoml Addr fucoml Addr Mems|Addr] Double 


fcom Sst (i) | fucom Sst (i) | Sst (i) Extended 

fcom fucom Sst (1) Extended 
fucomps ] Single 
fucompl | Double 
fucomp Extended 
fucomp Extended 


0 
0 
0 
1 
1 
1 
1 


Figure 3.34: Floating-Point Comparison Instructions. Ordered vs. unordered comparisons differ in their 
treatment of NaN’s. 


> [00000000] | 0 
< 00000001 


| ] 
[00100000] 
[00100101] 


Unordered 


Figure 3.35: Encoded Results from Floating-Point Comparison. The results are encoded in the high- 
order byte of the floating-point status word after masking out all but bits 0, 2, and 6. 


There are a number of different floating-point comparison instructions as documented in Figure 3.34. All 
of them perform a comparison between operands Op, and Ops, where Op, is the top stack element. Each 
line of the table documents two different comparison types: an ordered comparison used for comparisons 
such as < and <, and an unordered comparison used for equality comparisons. The two comparisons differ 
only in their treatment of NaN values, since there is no relative ordering between NaN’s and other values. 
For example, if variable x is a NaN and variable y is some other value, then both expressions x < y and 
x >= y should yield 0. 


The various forms of comparison instructions also differ in the location of operand Op», analogous to the 
different forms of floating-point load and floating-point arithmetic instructions. Finally, the various forms 
differ in the number of elements popped off the stack after the comparison is completed. Instructions in the 
first group shown in the table do not change the stack at all. Even for the case where one of the arguments 
is in memory, this value is not on the stack at the end. Operations in the second group pop element Op, off 
the stack. The final operation pops both Op, and Ops off the stack. 


The floating-point status word is transferred to an integer register with the fnst sw instruction. The operand 
for this instruction is one of the 16-bit register identifiers shown in Figure 3.2, for example, ax. The bits in 
the status word encoding the comparison results are in bit positions 0, 2, and 6 of the high-order byte of the 
status word. For example, if we use instruction fnstw %ax to transfer the status word, then the relevant 
bits will be in ah. A typical code sequence to select these bits is then: 


1 fnstsw %ax Store floating point status word in %ax 
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2 andb $69,%ah Mask all but bits 0, 2, and 6 


Note that 6919 has bit representation [00100101], that is, it has 1s in the three relevant bit positions. Figure 
3.35 shows the possible values of byte %ah that would result from this code sequence. Observe that there 
are only four possible outcomes for comparing operands Op, and Op»: the first is either greater, less, equal, 
or incomparable to the second, where the latter outcome only occurs when one of the values is a NaN. 


As an example, consider the following procedure: 


int less(double x, double y) 
{ 


al 
2 
3 return x < y; 
4 


} 


The compiled code for the function body is shown below: 


1 fldl 16(%ebp) Push y 

2 fcompl 8 (%ebp) Compare y:x 

3 fnstsw %ax Store floating point status word in %ax 

4 andb $69,%ah Mask all but bits 0, 2, and 6 

5 sete Sal Test for comparison outcome of 0 (>) 

6 movzbl %al,%eax Copy low order byte to result, and set rest to 0 
Practice Problem 3.29: 


Show how by inserting a single line of assembly code into the code sequence shown above you can 
implement the following function: 


1 int greater(double x, double y) 
2 { 

3 return x > y; 

4 


} 


This completes our coverage of assembly-level, floating-point programming with IA32. Even experienced 
programmers find this code arcane and difficult to read. The stack-based operations, the awkwardness of 
getting status results from the FPU to the main processor, and the many subtleties of floating-point compu- 
tations combine to make the machine code lengthy and obscure. It is remarkable that the modern processors 
manufactured by Intel and its competitors can achieve respectable performance on numeric programs given 
the form in which they are encoded. 


3.15 *Embedding Assembly Code in C Programs 


In the early days of computing, most programs were written in assembly code. Even large-scale operating 
systems were written without the help of high-level languages. This becomes unmanageable for programs 
of significant complexity. Since assembly code does not provide any form of type checking, it is very easy 
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to make basic mistakes, such as using a pointer as an integer rather than dereferencing the pointer. Even 
wors, writing in assembly code locks the entire program into a particular class of machine. Rewriting an 
assembly language program to run on a different machine can be as difficult as writing the entire program 
from scratch. 


Aside: Writing large programs in assembly code. 

Frederick Brooks, Jr., a pioneer in computer systems wrote a fascinating account of the development of OS/360, an 
early operating system for IBM machines [5] that still provides important object lessons today. He became a devoted 
believer in high-level languages for systems programming as a result of this effort. Surprisingly, however, there is 
an active group of programmers who take great pleasure in writing assembly code for [A32. The communicate with 
one another via the Internet news group comp. lang.asm.x86. Most of them write computer games for the DOS 
operating system. End Aside. 


Early compilers for higher-level programming languages did not generate very efficient code and did not 
provide access to the low-level object representations, as is often required by systems programmers. Pro- 
grams requiring maximum performance or requiring access to object representations were still often written 
in assembly code. Nowadays, however, optimizing compilers have largely removed performance optimiza- 
tion as a reason for writing in assembly code. Code generated by a high quality compiler is generally as 
good or even better than what can be achieved manually. The C language has largely eliminated machine 
access as a reason for writing in assembly code. The ability to access low-level data representations through 
unions and pointer arithmetic, along with the ability to operate on bit-level data representations, provide suf- 
ficient access to the machine for most programmers. For example, almost every part of a modern operating 
system such as Linux is written in C. 


Nonetheless, there are times when writing in assembly code is the only option. This is especially true when 
implementing an operating system. For example, there are a number of special registers storing process state 
information that the operating system must access. There are either special instructions or special memory 
locations for performing input and output operations. Even for application programmers, there are some 
machine features, such as the values of the condition codes, that cannot be accessed directly in C. 

The challenge then is to integrate code consisting mainly of C with a small amount written in assembly 
language. One method is to write a few key functions in assembly code, using the same conventions for 
argument passing and register usage as are followed by the C compiler. The assembly functions are kept 
in a separate file, and the compiled C code is combined with the assembled assembly code by the linker. 
For example, if file p1.c contains C code and file p2.s contains assembly code, then the compilation 
command: 


unix> gcc -o p pl.c p2.s 


will cause file p1 .c to be compiled, file p2 .s to be assembled, and the resulting object code to be linked 
to form an executable program p. 


3.15.1 Basic Inline Assembly 


With GCC, it is also possible to mix assembly with C code. Inline assembly allows the user to insert assembly 
code directly into the code sequence generated by the compiler. Features are provided to specify instruction 
operands and to indicate to the compiler which registers are being overwritten by the assembly instructions. 
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The resulting code is, of course, highly machine-dependent, since different types of machines do not have 
compatible machine instructions. The asm directive is also specific to GCC, creating an incompatibility with 
many other compilers. Nonetheless, this can be a useful way to keep the amount of machine-dependent code 
to an absolute minimum. 


Inline assembly is documented as part of the GCC information archive. Executing the command info gcc 
on any machine with GCC installed will give a hierarchical document reader. Inline assembly is documented 
by first following the link titled “C Extensions” and then the link titled “Extended Asm.” Unfortunately, the 
documentation is somewhat incomplete and imprecise. 


The basic form of inline assembly is to write code that looks like a procedure call: 
asm ( code-string ) ; 


where code-string is an assembly code sequence given as a quoted string. The compiler will insert this 
string verbatim into the assembly code being generated, and hence the compiler-supplied and the user- 
supplied assembly will be combined. The compiler does not check the string for errors, and so the first 
indication of a problem might be an error report from the assembler. 


We illustrate the use of asm by an example where having access to the condition codes can be useful. 
Consider functions with the following prototypes: 


int ok_smul(int x, int y, int *dest); 


int ok_umul (unsigned x, unsigned y, unsigned *dest); 


Each is supposed to compute the product of arguments x and y and store the result in the memory location 
specified by argument dest. As return values, they should return 0 when the multiplication overflows and 
1 when it does not. We have separate functions for signed and unsigned multiplication, since they overflow 
under different circumstances. 


Examining the documentation for the [A32 multiply instructions mul and imul, we see that both set the 
carry flag CF when they overflow. Examining Figure 3.9, we see that the instruction set ae can be used to 
set the low-order byte of a register to 0 when this flag is set and to 1 otherwise. Thus, we wish to insert this 
instruction into the sequence generated by the compiler. 


In an attempt to use the least amount of both assembly code and detailed analysis, we attempt to implement 
ok_smu1 with the following code: 


code/asm/okmul.c 


/* First attempt. Does not work */ 
int ok_smull(int x, int y, int *dest) 
{ 


int result = 0; 


*dest = x*y; 
asm("setae %al"); 
return result; 


wo OA Do wmwW PP FB 
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code/asm/okmul.c 


The strategy here is to exploit the fact that register %eax is used to store the return value. Assuming the 
compiler uses this register for variable result, the first line will set the register to 0. The inline assembly 
will insert code that sets the low-order byte of this register appropriately, and the register will be used as the 
return value. 


Unfortunately, GCC has its own ideas of code generation. Instead of setting register Seax to 0 at the 
beginning of the function, the generated code does so at the very end, and so the function always returns 0. 
The fundamental problem is that the compiler has no way to know what the programmer’s intentions are, 
and how the assembly statement should interact with the rest of the generated code. 


By a process of trial and error (we will develop more systematic approaches shortly), we were able to 
generate working, but less than ideal code as follows: 


code/asm/okmul.c 
1 /* Second attempt. Works in limited contexts */ 
2 int dummy = 0; 
3 
4 int ok_smul2(int x, int y, int *dest) 
5 { 
6 int result; 
7 
8 *dest = x*y; 
9 result = dummy; 
10 asm("setae %al"); 
ale return result; 
12 } 
code/asm/okmul.c 


This code uses the same strategy as before, but it reads a global variable dummy to initialize result to 0. 
Compilers are typically more conservative about generating code involving global variables, and therefore 
less likely to rearrange the ordering of the computations. 


The above code depends on quirks of the compiler to get proper behavior. In fact, it only works when 
compiled with optimization enabled (command line flag -O). When compiled without optimization, it stores 
result on the stack and retrieves its value just before returning, overwriting the value set by the setae 
instruction. The compiler has no way of knowing how the inserted assembly language relates to the rest of 
the code, because we provided the compiler no such information. 


3.15.2 Extended Form of asm 


GCC provides an extended version of the asm that allows the programmer to specify which program values 
are to be used as operands to an assembly code sequence and which registers are overwritten by the assem- 
bly code. With this information the compiler can generate code that will correctly set up the required source 
values, execute the assembly instructions, and make use of the computed results. It will also have informa- 
tion it requires about register usage so that important program values are not overwritten by the assembly 
code instructions. 
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The general syntax of an extended assembly sequence is as follows: 
asm ( code-string | : output-list | : input-list | : overwrite-list | | | ); 


where the square brackets denote optional arguments. The declaration contains a string describing the 
assembly code sequence, followed by optional lists of outputs (i.e., results generated by the assembly code), 
inputs (i.e., source values for the assembly code), and registers that are overwritten by the assembly code. 
These lists are separated by the colon ( : ) character. As the square brackets show, we only include lists up 
to the last nonempty list. 


The syntax for the code string is reminiscent of that for the format string ina printf statement. It consists 
of a sequence of assembly code instructions separated by the semicolon (‘;”) character. Input and output 
operands are denoted by references %0, %1, and so on, up to possibly %9. Operands are numbered, according 
to their ordering first in the output list and then in the input list. Register names such as “Seax” must be 
written with an extra “%’ symbol, e.g., “Sseax.” 


The following is a better implementation of ok_smu1 using the extended assembly statement to indicate to 
the compiler that the assembly code generates the value for variable result: 


); 


return result; 


code/asm/okmul.c 
1 /* Uses the extended assembly statement to get reliable code */ 
2 int ok_smul3(int x, int y, int *dest) 
3 { 
4 int result; 
5 
6 *dest = x*y; 
7 
8 /* Insert the following assembly code: 
9 setae Sbl # Set low-order byte 
0 movzbl %bl, result # Zero extend to be result 
1 wh 
2 asm("setae %%bl; movzbl %%b1,%0" 
3 "=r" (result) /* Output * / 
4 /* No inputs */ 
5 "Sebx" /* Overwrites */ 
6 
7 
8 
9 


code/asm/okmul.c 


The first assembly instruction stores the test result in the single-byte register Sb1. The second instruction 
then zero-extends and copies the value to whatever register the compiler chooses to hold result, indicated 
by operand %0. The output list consists of pairs of values separated by spaces. (In this example there is only 
a single pair). The first element of the pair is a string indicating the operand type, where ‘r’ indicates an 
integer register and ‘=’ indicates that the assembly code assigns a value to this operand. The second element 
of the pair is the operand enclosed in parentheses. It can be any assignable value (known in C as an /value). 
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The input list has the same general format, while the overwrite list simply gives the names of the registers 
(as quoted strings) that are overwritten. 


The code shown above works regardless of the compilation flags. As this example illustrates, it may take a 
little creative thinking to write assembly code that will allow the operands to be described in the required 
form. For example, there are no direct ways to specify a program value to use as the destination operand for 
the setae instruction, since the operand must be a single byte. Instead, we write a code sequence based on 
a specific register and then use an extra data movement instruction to copy the resulting value to some part 
of the program state. 


Practice Problem 3.30: 


Gcc provides a facility for extended-precision arithmetic. This can be used to implement function 
ok_smu1, with the advantage that it is portable across machines. A variable declared as type “long long” 
will have twice the size of normal long variable. Thus, the statement: 


long long prod = (long long) x * y; 


will compute the full 64-bit product of x and y. Write a version of ok_ smul that does not use any asm 
statements. 


One would expect the same code sequence could be used for ok_umul1, but GCC uses the imul11 (signed 
multiply) instruction for both signed and unsigned multiplication. This generates the correct value for 
either product, but it sets the carry flag according to the rules for signed multiplication. We therefore need 
to include an assembly-code sequence that explicitly performs unsigned multiplication using the mull 
instruction as documented in Figure 3.8, as follows: 


code/asm/okmul.c 


1 /* Uses the extended assembly statement */ 
2 int ok_umul (unsigned x, unsigned y, unsigned *dest) 


S 

4 int result; 

5 

6 /* Insert the following assembly code: 

7 movl x, %eax # Get x 

8 mull y # Unsigned multiply by y 

9 movl ‘%eax, *dest # Store low-order 4 bytes at dest 
0 setae %dl # Set low-order byte 

1 movzbl %dl, result # Zero extend to be result 
2 x] 

3 asm("movl %2,%%eax; mull %3; movl %%eax, %0; 

4 setae %%dl; movzbl %%dl, %1" 

5 "=r" (*dest), "=r" (result) /* Outputs * / 
6 "EW (x), mgm (y) /* Inputs wy 
7 : "Seax", "Sedx" /* Overwrites */ 
8 i 

9 

20 return result; 


N 
= 
~ 
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code/asm/okmul.c 


Recall that the mu11 instruction requires one of its arguments to be in register eax and is given the second 
argument as an operand. We indicate this in the asm statement by using a mov1 to move program value x to 
%eax and indicating that program value y should be the argument for the mu11 instruction. The instruction 
then stores the 8-byte product in two registers with $eax holding the low-order 4 bytes and %edx holding 
the high-order bytes. We then use register %edx to construct the return value. As this example illustrates, 
comma (‘,’) characters are used to separate pairs of operands in the input and output lists, and register 
names in the overwrite list. Note that we were able to specify *dest as an output of the second movl 
instruction, since this is an assignable value. The compiler then generates the correct machine code to store 
the value in Seax at this memory location. 


Although the syntax of the asm statement is somewhat arcane, and its use makes the code less portable, 
this statement can be very useful for writing programs that accesses machine-level features using a minimal 
amount of assembly code. We have found that a certain amount of trial and error is required to get code 
that works. The best strategy is to compile the code with the -S switch and then examine the generated 
assembly code to see if it will have the desired effect. The code should be tested with different settings of 
switches such as with and without the -O flag. 


3.16 Summary 


In this chapter, we have peered beneath the layer of abstraction provided by a high-level language to get a 
view of machine-level programming. By having the compiler generate an assembly-code representation of 
the machine-level program, we can gain insights into both the compiler and its optimization capabilities, 
along with the machine, its data types, and its instruction set. As we will see in Chapter 5, knowing the 
characteristics of a compiler can help when trying to write programs that will have efficient mappings onto 
the machine. We have also seen examples where the high-level language abstraction hides important details 
about the operation of a program. For example, we have seen that the behavior of floating-point code can 
depend on whether values are held in registers or in memory. In Chapter 7, we will see many examples 
where we need to know whether a program variable is on the runtime stack, in some dynamically-allocated 
data structure, or in some global storage locations. Understanding how programs map onto machines makes 
it easier to understand the difference between these kinds of storage. 


Assembly language is very different from C code. There is minimal distinction between different data types. 
The program is expressed as a sequence of instructions, each of which performs a single operation. Parts 
of the program state, such as registers and the runtime stack, are directly visible to the programmer. Only 
low-level operations are provided to support data manipulation and program control. The compiler must use 
multiple instructions to generate and operate on different data structures and to implement control constructs 
such as conditionals, loops, and procedures. We have covered many different aspects of C and how it gets 
compiled. We have seen the that the lack of bounds checking in C makes many programs prone to buffer 
overflows, and that this has made many system vulnerable to attacks. 


We have only examined the mapping of C onto IA32, but much of what we have covered is handled in a 
similar way for other combinations of language and machine. For example, compiling C++ is very similar to 
compiling C. In fact, early implementations of C++ simply performed a source-to-source conversion from 
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C++ to C and generated object code by running a C compiler on the result. C++ objects are represented 
by structures, similar to a C struct. Methods are represented by pointers to the code implementing 
the methods. By contrast, Java is implemented in an entirely different fashion. The object code of Java is a 
special binary representation known as Java byte code. This code can be viewed as a machine-level program 
for a virtual machine. As its name suggests, this machine is not implemented directly in hardware. Instead, 
software interpreters process the byte code, simulating the behavior of the virtual machine. The advantage 
of this approach is that the same Java byte code can be executed on many different machines, whereas the 
machine code we have considered runs only under IA32. 


Bibliographic Notes 


The best references on IA32 are from Intel. Two useful references are part of their series on software devel- 
opment. The basic architecture manual [17] gives an overview of the architecture from the perspective of an 
assembly-language programmer, and the instruction set reference manual [18] gives detailed descriptions 
of the different instructions. These references contain far more information than is required to understand 
Linux code. In particular, with flat mode addressing, all of the complexities of the segmented addressing 
scheme can be ignored. 


The GAS format used by the Linux assembler is very different from the standard format used in Intel docu- 
mentation and by other compilers (particularly those produced by Microsoft). One main distinction is that 
the source and destination operands are given in the opposite order 


On a Linux machine, running the command info as will display information about the assembler. One 
of the subsections documents machine-specific information, including a comparison of GAS with the more 
standard Intel notation. Note that GCC refers to these machines as “i386”—it generates code that could 
even run on a 1985 vintage machine. 


Muchnick’s book on compiler design [52] is considered the most comprehensive reference on code opti- 
mization techniques. It covers many of the techniques we discuss here, such as register usage conventions 
and the advantages of generating code for loops based on their do-while form. 


Much has been written about the use of buffer overflow to attack systems over the Internet. Detailed analyses 
of the 1988 Internet worm have been published by Spafford [69] as well as by members of the team at MIT 
who helped stop its spread [24]. Since then, a number of papers and projects have generated about both 
creating and preventing buffer overflow attacks, such as [19]. 


Homework Problems 


Homework Problem 3.31 [Category 1]: 


You are given the following information. A function with prototype 
int decode2(int x, int y, int z); 


is compiled into assembly code. The body of the code is as follows: 
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movl 
movl 
subl 
movl 


sall 
sarl 
xorl 


oo ~ OU FF WN EF 
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16 (%Sebp) , seax 
12 (Sebp) , sedx 
Seax, Sedx 
Sedx, Seax 


imull 8 (%ebp),%edx 


$31, %eax 
$31, %eax 
%edx, %eax 


Parameters x, y, and z are stored at memory locations with offsets 8, 12, and 16 relative to the address in 


register %ebp. 


The code stores the return value in register %eax. 


Write C code for decode2 that will have an effect equivalent to our assembly code. You can test your 
solution by compiling your code with the -S switch. Your compiler may not generate identical code, but it 
should be functionally equivalent. 


Homework Problem 3.32 [Category 2]: 


The following C code is almost identical to that in Figure 3.11: 


1 int absdiff2(int x, int y) 
2 { 

3 int result; 

4 

5 if (x < y) 

6 result = y-x; 

7 else 

8 result = x-y; 

9 return result; 


10 } 


When compiled, however, it gives a different form of assembly code: 


movl 
movl 
movl 
subl 


Como 人 WD 
Q 
3 
ue) 
上 


J AO wp 


8 (Sebp) , sedx 
12 (Sebp) , secx 
Sedx, eax 
Secx, Seax 
Secx, Sedx 


L3 


Secx, Seax 
Sedx, Seax 


What subtractions are performed when x < y? When x > y? 
In what way does this code deviate from the standard implementation of if-else described previously? 
Using C syntax (including goto’s), show the general form of this translation. 


What restrictions must be imposed on the use of this translation to guarantee that it has the behavior 


specified by the C code? 
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Arguments pl and p2 are in registers tebx and %ecx. 


.L1 
m 
m 
m 


N N 
ES WB WANA DUO BF WNHYN PRP TOW MO DOA KD YH FF WYN FB 
J 


N 
N 


N N N N N NN 
O OAD oO SP U 


Figure 3.36: Assembly Code for Problem 3.33. This code implements the different branches of a switch 


jmp 
-p2align 4,,7 


5; 

ovl 
ovl 
ovl 


(Secx) , sedx 
(Sebx) , Seax 
Seax, (Secx) 


jmp .L14 
-p2align 4,,7 


ovl %eax, Sedx 


-L14 


Ts 

ovl $15, (%ebx) 
ovl (%ecx),%edx 
mp .L14 


-p2Zalign 4,,7 


8: 
ovl 
ovl 
9; 
ovl $17, %edx 
mp .L14 


(Secx) , Seax 
Seax, (Sebx) 


-p2align 4,,7 


0: 
ovl $-1, %edx 
4: 


ovl %tedx, eax 


statement. 


MODE_A 


Inserted to optimize 


MODE_B 


Inserted to 
MODE_C 


optimize 


Inserted to 
MODE_D 


optimize 


MODE_E 
optimize 


Inserted to 


default 


Set return value 


Homework Problem 3.33 [Category 2]: 


cache performance 


cache performance 


cache performance 


cache performance 


The following code shows an example of branching on an enumerated type value in a switch statement. 
Recall that enumerated types in C are simply a way to introduce a set of names having associated integer 
values. By default, the values assigned to the names go from 0 upward. In our code, the actions associated 
with the different case labels have been omitted. 


/* 
typedef 


int switch3(int *pl, 


{ 


enum {MODE_A, MODE 


B, 


int *p2, 


MODE_C, MODE_D, MODE 


mode_t action) 


Enumerated type creates set of constants numbered 0 and upward */ 


F 


E} mode_t; 
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int result = 0; 
switch (action) 


case 


case 


case 


case 


case 
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{ 
MODE_A: 


default: 


} 


return result; 


The part of the generated assembly code implementing the different actions is shown shown in Figure 
3.36. The annotations indicate the values stored in the registers and the case labels for the different jump 
destinations. 


A. What register corresponds to program variable result? 


B. Fill in the missing parts of the C code. Watch out for cases that fall through. 


Homework Problem 3.34 [Category 2]: 


Switch statements are particularly challenging to reverse engineer from the object code. In the following 
procedure, the body of the switch statement has been removed. 


1 
2 
3 
4 
5 
6 
7 
8 
9 


10 
11 } 


int switch_prob(int x) 
{ 


int result = x; 


switch(x) { 


/* Fill in code here */ 


} 


return result; 


Figure 3.37 shows the disassembled object code for the procedure. We are only interested in the part of 
code shown on lines 4 through 16. We can see on line 4 that parameter x (at offset 8 relative to sebp) is 
loaded into register eax, corresponding to program variable result. The “lea 0x0 (%esi),%esi” 
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1 080483c0 <switch_prob>: 

2 80483c0: 55 push %ebp 

3 80483c1: 89 e5 mov %esp, sebp 

4 80483c3: 8b 45 08 mov 0x8 (Sebp) , %eax 

5 80483c6: 8d 50 ce lea Oxffffffce(%eax),%edx 

6 80483c9: 83 fa 05 cmp $0x5, Sedx 

7 80483cc: 77 1d ja 80483eb <switch_prob+0x2b> 
8 80483ce: ff 24 95 68 84 04 08 jmp *0x8048468 (, Sedx, 4) 

9 80483d5: cl e0 02 shl $0x2, eax 

0 80483d8: eb 14 jmp 80483ee <switch_prob+0x2e> 
1 80483da: 8d b6 00 00 00 00 lea 0x0 (%esi),%esi 

2 80483e0: cl £8 02 sar $0x2, Seax 

3 80483e3: eb 09 jmp 80483ee <switch_prob+0x2e> 
4 80483e5: 8d 04 40 lea (Seax, %eax,2),%eax 

5 80483e8: Of af cO imul Seax, Seax 

6 80483eb: 83 c0 Oa add SOxa, Seax 

7 80483ee: 89 ec mov %ebp, sesp 

8 80483f0: 5d pop %ebp 

9 80483f1: c3 ret 

20 80483f2: 89 f6 mov %esi,%esi 


Figure 3.37: Disassembled Code for Problem 3.34. 


instruction on line 11 is a nop instruction inserted to make the instruction on line 12 start on an address that 
is a multiple of 16. 


The jump table resides in a different area of memory. Using the debugger GDB we can examine the six 
4-byte words of memory starting at address 0x8048468 with the command x/ 6w 0x8048468. GDB 
prints the following: 


(gdb) x/6w 0x8048468 


0x8048468: 0x080483d5 0x080483eb 0x080483d5 0x080483e0 
0x8048478: 0x080483e5 0x080483e8 
(gdb) 


Fill in the body of the switch statement with C code that will have the same behavior as the object code. 
Homework Problem 3.35 [Category 2]: 


The code generated by the C compiler for var_prod_ele (Figure 3.24(b)) is not optimal. Write code for 
this function based on a hybrid of procedures fix_prod_ele_opt (Figure 3.23) and var_prod_ele_opt 
(Figure 3.24) that is correct for all values of n, but compiles into code that can keep all of its temporary data 

in registers. 


Recall that the processor only has six registers available to hold temporary data, since registers Sebp and 
%esp cannot be used for this purpose. One of these registers must be used to hold the result of the multiply 
instruction. Hence, you must reduce the number of local variables in the loop from six (result, Aptr, B, 
nT JPk, n, and cnt) to five. 


Homework Problem 3.36 [Category 2]: 
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You are charged with maintaining a large C program, and you come across the following code: 


code/asm/structprob-ans.c 


1 typedef struct { 

2 int left; 

3 a_struct a[CNT]; 
4 int right; 

5 } b ustruct; 
6 
7 
8 
9 


void test (int i, b_struct *bp) 
{ 
int n = bp->left + bp->right; 


10 a_struct *ap = &bp->a[i]; 
11 ap->x[ap->idx] = n; 
12 } 


code/asm/structprob-ans.c 


Unfortunately, the *.h’ file defining the compile-time constant CNT and the structure a_struct are in 
files for which you do not have access privileges. Fortunately, you have access to a ‘. o° version of code, 
which you are able to disassemble with the ob jdump program, yielding the disassembly shown in Figure 
3.38. 


Using your reverse engineering skills, deduce the following: 


A. The value of CNT. 


B. A complete declaration of structure a_st ruct. Assume that the only fields in this structure are idx 
and x. 


Homework Problem 3.37 [Category 1]: 


Write a function good_echo that reads a line from standard input and writes it to standard output. Your 
implementation should work for an input line of arbitrary length. You may use the library function fgets, 
but you must make sure your function works correctly even when the input line requires more space than 
you have allocated for your buffer. Your code should also check for error conditions and return when one is 
encounted. You should refer to the definitions of the standard I/O functions for documentation [30, 37]. 


Homework Problem 3.38 [Category 3]: 


In this problem, you will mount a buffer overflow attack on your own program. As stated earlier, we do not 
condone using this or any other form of attack to gain unauthorized access to a system, but by doing this 
exercise, you will learn a lot about machine-level programming. 


Download the file bufbomb.c from the CS:APP website and compile it to create an executable program. 
In bufbomb .c, you will find the following functions: 


1 int getbuf () 
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2 { 
3 char buf[12]; 
4 getxs (buf); 
5 return 1; 
6 } 
7 
8 void test () 
9 { 
10 int val; 
11 printf("Type Hex string:"); 
12 val = getbuf(); 
13 printf ("getbuf returned 0x%x\n", val); 
14 } 


The function get xs (also in bufbomb .c) is similar to the library gets, except that it reads characters 
encoded as pairs of hex digits. For example, to give it a string “0123,” the user would type in the string 
“30 31 32 33.’ The function ignores blank characters. Recall that decimal digit x has ASCII represen- 
tation 0x32. 


A typical execution of the program is as follows: 


unix> ./bufbomb 
Type Hex string: 30 31 32 33 
getbuf returned 0x1 


Looking at the code for the get buf function, it seems quite apparent that it will return value 1 whenever it 
is called. It appears as if the call to get xs has no effect. Your task is to make get buf return —559038737 
(Oxdeadbeef) to test, simply by typing an appropriate hexadecimal string to the prompt. 


Here are some ideas that will help you solve the problem: 


e Use OBJDUMP to create a disassembled version of bufbomb. Study this closely to determine how 
the stack frame for get buf is organized and how overflowing the buffer will alter the saved program 
state. 


e Run your program under GDB. Set a breakpoint within get buf and run to this breakpoint. Determine 
such parameters as the value of Sebp and the saved value of any state that will be overwritten when 
you overflow the buffer. 


e Determining the byte encoding of instruction sequences by hand is tedious and prone to errors. You 
can let tools do all of the work by writing an assembly code file containing the instructions and data 
you want to put on the stack. Assemble this file with GCC and disassemble it with OBJDUMP. You 
should be able to get the exact byte sequence that you will type at the prompt. OBJDUMP will produce 
some pretty strange looking assembly instructions when it tries to disassemble the data in your file, 
but the hexadecimal byte sequence should be correct. 


Keep in mind that your attack is very machine and compiler specific. You may need to alter your string 
when running on a different machine or with a different version of GCC. 
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1 00000000 <test>: 

2 0: 55 push Sebp 

3 Ls 89 e5 mov sesp, sebp 

4 3: 53 push Sebx 

5 4: 8b 45 08 mov 0x8 (Sebp) , eax 

6 73 8b 4d Oc mov Oxc (%ebp) , secx 

7 a: 8d 04 80 lea (Seax, eax, 4), $eax 

8 d: 8d 44 81 04 lea 0x4 (Secx, eax, 4), $eax 
9 11s: 8b 10 mov (Seax) , Sedx 

0 T3; cl e2 02 shl $0x2, Sedx 

1 16: 8b 99 b8 00 00 00 mov Oxb8 (%ecx) , sebx 

2 Les 03 19 add (Secx) , Sebx 

3 le: 89 5c 02 04 mov Sebx, 0x4 (Sedx, teax, 1) 
4 22: 5p pop Sebx 

5 23: 89 ec mov %ebp, sesp 

6 253 5d pop Sebp 

7 26: c3 ret 


Figure 3.38: Disassembled Code For Problem 3.36. 


Homework Problem 3.39 [Category 2]: 


Use the asm statement to implement a function with the following prototype: 
void full_umul (unsigned x, unsigned y, unsigned dest[]); 


This function should compute the full 64-bit product of its arguments and store the results in the destination 
array, with dest [0] having the low-order 4 bytes and dest [1] having the high-order 4 bytes. 


Homework Problem 3.40 [Category 2]: 


The fscale instruction computes the function x - 2°74() for floating-point values x and y, where RTZ 
denotes the round-toward-zero function, rounding positive numbers downward and negative numbers up- 
ward. The arguments to fscale come from the floating-point register stack, with x in st (0) and y in 
$st (1). It writes the computed value written Sst (0) without popping the second argument. (The actual 
implementation of this instruction works by adding RTZ (y) to the exponent of x). 


Using an asm statement, implement a function with the following prototype 


double scale(double x, int n, double *dest); 


that computes x - 2” using the fscale instruction and stores the result at the location designated by pointer 
dest. 


Hint: Extended asm does not provide very good support for IA32 floating point. In this case, however, you 
can access the arguments from the program stack. 


Chapter 4 


Processor Architecture 


To appear in the final version of the manuscript. 
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Chapter 5 


Optimizing Program Performance 


Writing an efficient program requires two types of activities. First, we must select the best set of algorithms 
and data structures. Second, we must write source code that the compiler can effectively optimize to turn into 
efficient executable code. For this second part, it is important to understand the capabilities and limitations of 
optimizing compilers. Seemingly minor changes in how a program is written can make large differences in 
how well a compiler can optimize it. Some programming languages are more easily optimized than others. 
Some features of C, such as the ability to perform pointer arithmetic and casting, make it challenging to 
optimize. Programmers can often write their programs in ways that make it easier for compilers to generate 
efficient code. 


In approaching the issue of program development and optimization, we must consider how the code will 
be used and what critical factors affect it. In general, programmers must make a trade-off between how 
easy a program is to implement and maintain, and how fast it will run. At an algorithmic level, a simple 
insertion sort can be programmed in a matter of minutes, whereas a highly efficient sort routine may take a 
day or more to implement and optimize. At the coding level, many low-level optimizations tend to reduce 
code readability and modularity. This makes the programs more susceptible to bugs and more difficult to 
modify or extend. For a program that will just be run once to generate a set of data points, it is more 
important to write it in a way that minimizes programming effort and ensures correctness. For code that 
will be executed repeatedly in a performance-critical environment, such as in a network router, much more 
extensive optimization may be appropriate. 


In this chapter, we describe a number of techniques for improving code performance. Ideally, a compiler 
would be able to take whatever code we write and generate the most efficient possible machine-level pro- 
gram having the specified behavior. In reality, compilers can only perform limited transformations of the 
program, and they can be thwarted by optimization blockers—aspects of the program whose behavior de- 
pends strongly on the execution environment. Programmers must assist the compiler by writing code that 
can be optimized readily. In the compiler literature, optimization techniques are classified as either “ma- 
chine independent,” meaning that they should be applied regardless of the characteristics of the computer 
that will execute the code, or as “machine dependent,” meaning they depend on many low-level details of 
the machine. We organize our presentation along similar lines, starting with program transformations that 
should be standard practice when writing any program. We then progress to transformations whose efficacy 
depends on the characteristics of the target machine and compiler. These transformations also tend to reduce 
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the modularity and readability of the code and hence should be applied when maximum performance is the 
dominant concern. 


To maximize the performance of a program, both the programmer and the compiler need to have a model of 
the target machine, specifying how instructions are processed and the timing characteristics of the different 
operations. For example, the compiler must know timing information to be able to decide whether it is 
should use a multiply instruction or some combinations of shifts and adds. Modern computers use sophisti- 
cated techniques to process a machine-level program, executing many instructions in parallel and possibly 
in a different order than they appear in the program. Programmers must understand how these processors 
work to be able to tune their programs for maximum speed. We present a high-level model of such a ma- 
chine based on some recent models of Intel processors. We devise a graphical notation that can be used to 
visualize the execution of instructions on the processor and to predict program performance. 


We conclude by discussing issues related to optimizing large programs. We describe the use of code 
profilers—tools that measure the performance of different parts of a program. This analysis can help find 
inefficiencies in the code and identify the parts of the program on which we should focus our optimization 
efforts. Finally, we present an important observation, known as Amdahl’s Law quantifying the overall effect 
of optimizing some portion of a system. 


In this presentation, we make code optimization look like a simple, linear process of applying a series 
of transformations to the code in a particular order. In fact, the task is not nearly so straightforward. A 
fair amount of trial-and-error experimentation is required. This is especially true as we approach the later 
optimization stages, where seemingly small changes can cause major changes in performance, while some 
very promising techniques prove ineffective. As we will see in the examples, it can be difficult to explain 
exactly why a particular code sequence has a particular execution time. Performance can depend on many 
detailed features of the processor design for which we have relatively little documentation or understanding. 
This is another reason to try a number of different variations and combinations of techniques. 


Studying the assembly code is one of the most effective means of gaining some understanding of the com- 
piler and how the generated code will run. A good strategy is to start by looking carefully at the code for 
the inner loops. One can identify performance-reducing attributes such as excessive memory references 
and poor use of registers. Starting with the assembly code, we can even predict what operations will be 
performed in parallel and how well they will use the processor resources. 


5.1 Capabilities and Limitations of Optimizing Compilers 


Modern compilers employ sophisticated algorithms to determine what values are computed in a program and 
how they are used. They can then exploit opportunities to simplify expressions, to use a single computation 
in several different places, and to reduce the number of times a given computation must be performed. 
Unfortunately, optimizing compilers have limitations, due to constraints imposed on their behavior, to the 
limited understanding they have of the program’s behavior and how it will be used, and to the requirement 
that they perform the compilation quickly. 


Compiler optimization is supposed to be invisible to the user. When a programmer compiles code with 
optimization enabled (e.g., using the -O command line option), the code should have identical behavior 
as when compiled otherwise, except that it should run faster. This requirement restricts the ability of the 
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compiler to perform some types of optimizations. 


Consider, for example, the following two procedures: 


void twiddlel(int *xp, int *yp) 
{ 

*xp += *yp; 

*xp += *yp; 


1 

2 

3 

4 

5 } 
6 

7 void twiddle2(int *xp, int *yp) 
8 { 

9 *xp += 2* *yp; 

10 } 


At first glance, both procedures seem to have identical behavior. They both add twice the value stored at the 
location designated by pointer yp to that designated by pointer xp. On the other hand, function twiddle2 
is more efficient. It requires only three memory references (read *xp, read *yp, write *xp), whereas 
twiddlel requires six (two reads of * xp, two reads of *yp, and two writes of * xp). Hence, if a compiler 
is given procedure twiddle1 to compile, one might think it could generate more efficient code based on 
the computations performed by twiddle2. 


Consider however, the case where xp and yp are equal. Then function twiddlel will perform the fol- 
lowing computations: 


3 *xp += *xp; /* Double value at xp */ 
4 *xp += *xp; /* Double value at xp */ 


The result will be that the value at xp will be increased by a factor of 4. On the other hand, function 
twiddle2 will perform the following computation: 


9 *xp += 2* *xp; /* Triple value at xp */ 


The result will be that the value at xp will be increased by a factor of 3. The compiler knows nothing about 
how twiddle will be called, and so it must assume that arguments xp and yp can be equal. Therefore it 
cannot generate code in the style of twiddle2 as an optimized version of twiddlel. 

This phenomenon is known as memory aliasing. The compiler must assume that different pointers may des- 
ignate a single place in memory. This leads to one of the major optimization blockers, aspects of programs 
that can severely limit the opportunities for a compiler to generate optimized code. 


Practice Problem 5.1: 
The following problem illustrates the way memory aliasing can cause unexpected program behavior. 


Consider the following procedure to swap two values: 


1 /* Swap value x at xp with value y at yp */ 
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void swap(int *xp, int *yp) 


‘yp = *xp = *yp; /* xty-y = x */ 


2 

3 

4 tapi = izp E wypr ee ey ee 

5 

6 *xp = *xp - *yp; /* X+Y-X = y */ 
j 


If this procedure is called with xp equal to yp, what effect will it have? 


A second optimization blocker is due to function calls. As an example, consider the following two proce- 
dures: 


int f(int); 
int funcl (x) 


1 
2 
3 
4 
5 return f(x) + f(x) + f(x) + f(x); 
6 
7 
8 int func2 (x) 

9 


10 return 4*f (x); 


It might seem at first that both compute the same result, but with func2 calling f only once, whereas 
funcl calls it four times. It is tempting to generate code in the style of func2 when given funcl as 
source. 


Consider, however, the following code for f 


1 int counter = 0; 

2 

3 int f(int x) 

4 { 

5 return countertt; 
6 } 

7 


This function has a side effect—it modifies some part of the global program state. Changing the number of 
times it gets called changes the program behavior. In particular, a call to func1 would return 0 十 1 十 2 十 3 = 
6, whereas a call to func2 would return 4 - 0 = 0, assuming both started with global variable counter 
set to 0. 


Most compilers do not try to determine whether a function is free of side effects and hence is a candidate for 
optimizations such as those attempted in func2. Instead, the compiler assumes the worst case and leaves 
all function calls intact. 
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Among compilers, the GNU compiler GCC is considered adequate, but not exceptional, in terms of its 
optimization capabilities. It performs basic optimizations but does not perform the radical transformations 
on programs that more “aggressive” compilers do. As a consequence, programmers using GCC must put 
more effort into writing programs in a way that simplifies the compiler’s task of generating efficient code. 


5.2 Expressing Program Performance 


We need a way to express program performance that can guide us in improving the code. A useful measure 
for many programs is Cycles Per Element (CPE). This measure helps us understand the loop performance of 
an iterative program at a detailed level. Such a measure is appropriate for programs that perform a repetitive 
computation, such as processing the pixels in an image or computing the elements in a matrix product. 


The sequencing of activities by a processor is controlled by a clock providing a regular signal of some 
frequency, expressed in either Megahertz (Mhz), i.e., millions of cycles per second, or Gigahertz (GHz), i.e., 
billions of cycles per second. For example, when product literature characterizes a system as a “1.4 GHz” 
processor, it means that the processor clock runs at 1,400 Megahertz. The time required for each clock 
cycle is given by the reciprocal of the clock frequency. These are typically expressed in nanoseconds, i.e., 
billionths of a second. A 2 GHz clock has a 0.5-nanosecond period, while a 500 Mhz clock has a period of 
2 nanoseconds. From a programmer’s perspective, it is more instructive to express measurements in clock 
cycles rather than nanoseconds. That way, the measurements are less dependent on the particular model of 
processor being evaluated, and they help us understand exactly how the program is being executed by the 
machine. 


Many procedures contain a loop that iterates over a set of elements. For example, functions vsum1 and 
vsum2 in Figure 5.1 both compute the sum of two vectors of length n. The first computes one element of 
the destination vector per iteration. The second uses a technique known as loop unrolling to compute two 
elements per iteration. This version will only work properly for even values of n. Later in this chapter we 
cover loop unrolling in more detail, including how to make it work for arbitrary values of n. 


The time required by such a procedure can be characterized as a constant plus a factor proportional to the 
number of elements processed. For example, Figure 5.2 shows a plot of the number of clock cycles required 
by the two functions for a range of values of n. Using a least squares fit, we find that the two function run 
times (in clock cycles) can be approximated by lines with equations 80+ 4.0n and 83.5 +3.5n, respectively. 
These equations indicated an overhead of 80 to 84 cycles to initiate the procedure, set up the loop, and 
complete the procedure, plus a linear factor of 3.5 or 4.0 cycles per element. For large values of n (say 
greater than 50), the run times will be dominated by the linear factors. We refer to the coefficients in these 
terms as the effective number of Cycles per Element, abbreviated “CPE.” Note that we prefer measuring 
the number of cycles per element rather than the number of cycles per iteration, because techniques such as 
loop unrolling allow us to use fewer iterations to complete the computation, but our ultimate concern is how 
fast the procedure will run for a given vector length. We focus our efforts on minimizing the CPE for our 
computations. By this measure, vsum2, with a CPE of 3.50, is superior to vsum1, with a CPE of 4.0. 


Aside: What is a least squares fit? 
For a set of data points (x1, y1), --. (£n, Yn), we often try to draw a line that best approximates the X-Y trend 
represented by this data. With a least squares fit, we look for a line of the form y = mz + b that minimizes the 
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void vsuml (int n) 
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code/opt/vsum.c 


*/ 


(n must be even) 


{ 


/* Compute two elements per iteration */ 
+ blil; 
+ b[itl]; 


code/opt/vsum.c 


Figure 5.1: Vector Sum Functions. These provide examples for how we express program performance. 
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Figure 5.2: Performance of Vector Sum Functions. The slope of the lines indicates the number of clock 


cycles per element (CPE). 
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Figure 5.3: Vector Abstract Data Type. A vector is represented by header information plus array of 
designated length. 


following error measure: 
E(m,b) = > (ma; +b— yi)”. 
i=1,n 
An algorithm for computing m and b can be derived by finding the derivatives of E(m, b) with respect to m and b 
and setting them to 0. End Aside. 


5.3 Program Example 


To demonstrate how an abstract program can be systematically transformed into more efficient code, con- 
sider the simple vector data structure, shown in Figure 5.3. A vector is represented with two blocks of 
memory. The header is a structure declared as follows: 


code/opt/vec.h 


/* Create abstract data type for vector */ 
typedef struct { 

int len; 

data_t *data; 
} vec_rec, *vec_ptr; 


a A WN BP 


code/opt/vec.h 


The declaration uses data type data_t to designate the data type of the underlying elements. In our eval- 
uation, we measure the performance of our code for data types int, float, and double. We do this by 
compiling and running the program separately for different type declarations, for example: 


typedef int data_t; 


In addition to the header, we allocate an array of len objects of type data_t to hold the actual vector 
elements. 


Figure 5.4 shows some basic procedures for generating vectors, accessing vector elements, and determining 
the length of a vector. An important feature to note is that get_vec_element, the vector access routine, 
performs bounds checking for every vector reference. This code is similar to the array representations used 
in many other languages, including Java. Bounds checking reduces the chances of program error, but, as we 
will see, significantly affects program performance. 


As an optimization example, consider the code shown in Figure 5.5, which combines all of the elements 
in a vector into a single value according to some operation. By using different definitions of compile-time 
constants IDENT and OPER, the code can be recompiled to perform different operations on the data. 


In particular, using the declarations 
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code/opt/vec.c 


Create vector of specified length */ 


vec_ptr new_vec(int len) 


{ 


/* allocate header structure */ 
vec_ptr result = (vec_ptr) malloc(sizeof (vec_rec) ); 
if (!result) 
return NULL; /* Couldn’t allocate storage */ 
result->len = len; 
/* Allocate array */ 
if (len > 0) { 
data_t *data = (data_t *)calloc(len, sizeof (data_t)); 
if (!data) { 
free((void *) result); 
return NULL; /* Couldn’t allocate storage */ 
} 
result->data = data; 


} 


else 


result-—>data 
return result; 


NULL; 


Retrieve vector element and store at dest. 
Return 0 (out of bounds) or 1 (successful) 


get_vec_element (vec ptr v, int index, data_t *dest) 


if (index < 0 || index >= v->len) 
return 0; 

*dest = v->data[index]; 

return 1; 


/* Return length of vector */ 


int 


{ 


vec_length(vec_ptr v) 


return v->len; 


code/opt/vec.c 


Figure 5.4: Implementation of Vector Abstract Data Type. In the actual program, data type dat a_t is 
declared to be int, float, or double 
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code/opt/combine.c 


1 /* Implementation with maximum use of data abstraction */ 
2 void combinel (vec ptr v, data_t *dest) 
3-4 

4 int. 17 

5 

6 *dest = IDENT; 

7 for (i = 0; i < vec_length(v); i++) { 
8 data_t val; 

9 get_vec_element(v, i, &val); 

10 *dest = *dest OPER val; 

11 } 

12 } 


code/opt/combine.c 
Figure 5.5: Initial Implementation of Combining Operation. Using different declarations of identity 


element IDENT and combining operation OPER, we can measure the routine for different operations. 


#define IDENT 0 
#define OPER + 


we sum the elements of the vector. Using the declarations: 


#define IDENT 1 
#define OPER * 


we compute the product of the vector elements. 


As a Starting point, here are the CPE measurements for combine1 running on an Intel Pentium III, trying 
all combinations of data type and combining operation. In our measurements, we found that the timings 
were generally equal for single and double-precision floating point data. We therefore show only the mea- 
surements for single precision. 


combinel | 211 | Abstract unoptimized | 42.06 41.86 | 41.44 160.00 
combinel | 211 | Abstract -02 31.25 33.25 | 31.25 143.00 


By default, the compiler generates code suitable for stepping with a symbolic debugger. Very little optimiza- 
tion is performed since the intention is to make the object code closely match the computations indicated 
in the source code. By simply setting the command line switch to ‘-O2’ we enable optimizations. As can 
be seen, this significantly improves the program performance. In general, it is good to get into the habit of 
enabling this level of optimization, unless the program is being compiled with the intention of debugging it. 
For the remainder of our measurements we enable this level of compiler optimization. 
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code/opt/combine.c 


1 /* Move call to vec_length out of loop */ 
2 void combine2(vec_ptr v, data_t *dest) 
3-4 

4 int. a7 

5 int length = vec_length(v); 

6 

7 *dest = IDENT; 

8 for (i = 0; i < length; i++) { 

9 data_t val; 

10 get_vec_element(v, i, &val); 
11 *dest = *dest OPER val; 

12 } 

13 } 


code/opt/combine.c 


Figure 5.6: Improving the Efficiency of the Loop Test. By moving the call to vec_length out of the 
loop test, we eliminate the need to execute it on every iteration. 


Note also that the times are fairly comparable for the different data types and the different operations, with 
the exception of floating-point multiplication. These very high cycle counts for multiplication are due to 
an anomaly in our benchmark data. Identifying such anomalies is an important component of performance 
analysis and optimization. We return to this issue in Section 5.11.1. 


We will see that we can improve on this performance considerably. 


5.4 Eliminating Loop Inefficiencies 


Observe that procedure combine1, as shown in Figure 5.5, calls function vec_length as the test condi- 
tion of the for loop. Recall from our discussion of loops that the test condition must be evaluated on every 
iteration of the loop. On the other hand, the length of the vector does not change as the loop proceeds. We 
could therefore compute the vector length only once and use this value in our test condition. 


Figure 5.6 shows a modified version, called combine2, that calls vec_length at the beginning and 
assigns the result to a local variable Length. This local variable is then used in the test condition of the for 
loop. Surprisingly, this small change has a significant effect on program performance. 


combinel | 211 | Abstract -O2 see 25 33.25 Se 25 143.00 

combine2 | 212 | Move vec_length | 22.61 21.25 | 21.15 135.00 
As the table above shows, we eliminate around 10 clock cycles for each vector element with this simple 
transformation. 
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This optimization is an instance of a general class of optimizations known as code motion. They involve 
identifying a computation that is performed multiple times, (e.g., within a loop), but such that the result of 
the computation will not change. We can therefore move the computation to an earlier section of the code 
that does not get evaluated as often. In this case, we moved the call to vec_length from within the loop 
to just before the loop. 


Optimizing compilers attempt to perform code motion. Unfortunately, as discussed previously, they are 
typically very cautious about making transformations that change where or how many times a procedure is 
called. They cannot reliably detect whether or not a function will have side effects, and so they assume that 
it might. For example, if vec_length had some side effect, then combinel and combine2 could have 
different behaviors. In cases such as these, the programmer must help the compiler by explicitly performing 
the code motion. 


As an extreme example of the loop inefficiency seen in combine1, consider the procedure lower1 shown 
in Figure 5.7. This procedure is styled after routines submitted by several students as part of a network 
programming project. Its purpose is to convert all of the upper-case letters in a string to lower case. The 
procedure steps through the string, converting each upper-case character to lower case. 


The library procedure strlen is called as part of the loop test of Lower1. A simple version of strlen 
is also shown in Figure 5.7. Since strings in C are null-terminated character sequences, strlen must step 
through the sequence until it hits a null character. For a string of length n, st rlen takes time proportional 
to n. Since strlen is called on each of the n iterations of Lower1, the overall run time of Lower1 is 
quadratic in the string length. 


This analysis is confirmed by actual measurements of the procedure for different length strings, as shown 
Figure 5.8. The graph of the run time for Lower 1 rises steeply as the string length increases. The lower part 
of the figure shows the run times for eight different lengths (not the same as shown in the graph), each of 
which is a power of two. Observe that for lower1 each doubling of the string length causes a quadrupling 
of the run time. This is a clear indicator of quadratic complexity. For a string of length 262,144, Lower1 
requires a full 3.1 minutes of CPU time. 


Function lower2 shown in Figure 5.7 is identical to that of Lower1, except that we have moved the call 
to strlen out of the loop. The performance improves dramatically. For a string length of 262,144, the 
function requires just 0.006 seconds—over 30,000 times faster than lower1. Each doubling of the string 
length causes a doubling of the run time—a clear indicator of linear complexity. For longer strings, the run 
time improvement will be even greater. 


In an ideal world, a compiler would recognize that each call to st rlen in the loop test will return the same 
result, and hence the call could be moved out of the loop. This would require a very sophisticated analysis, 
since strlen checks the elements of the string and these values are changing as lower1 proceeds. The 
compiler would need to detect that even though the characters within the string are changing, none are being 
set from nonzero to zero, or vice-versa. Such an analysis is well beyond that attempted by even the most 
aggressive compilers. Programmers must do such transformations themselves. 


This example illustrates a common problem in writing programs, in which a seemingly trivial piece of code 
has a hidden asymptotic inefficiency. One would not expect a lower-case conversion routine to be a limiting 
factor in a program’s performance. Typically, programs are tested and analyzed on small data sets, for 
which the performance of Lower1 is adequate. When the program is ultimately deployed, however, it is 
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code/optNower.c 
1 /* Convert string to lower case: slow */ 
2 void lower1 (char *s) 
3 { 
4 int i; 
5 
6 for (i = 0; i < strlen(s); i++) 
7 if (s[i] >= ’A’ && s[i] <= '2’) 
8 Slil =s (a = tar); 
9 } 
0 
1 /* Convert string to lower case: faster */ 
2 void lower2(char *s) 
3 { 
4 int: Ay 
5 int len = strlen(s); 
6 
7 for (i = 0; i < len; i++) 
8 if (s[i] >= ’A’ && s[i] <= '2’) 
9 Slil; == (SAn-= ta"); 
20 } 
21 
22 /* Implementation of library function strlen */ 
23 /* Compute length of string */ 
24 size_t strlen (const char *s) 
25 { 
26 int length = 0; 
27 while (xs != ’\0’) { 
28 S++}; 
29 length++; 
30 } 
31 return length; 
32 } 
code/opt/lower.c 


Figure 5.7: Lower-Case Conversion Routines. The two procedures have radically different performance. 
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lowerl 


| 


CPU Seconds 


lower2 


100000 150000 200000 250000 


String Length 


Function String Length 
8,192 16,384 32,768 65,536 131,072 262,144 
lowerl 0.15 0.62 3.19 12.75 51.01 186.71 
ower2 | 0.0002 0.0004 0.0008 0.0016 0.0031 0.0060 
Figure 5.8: Comparative Performance of Lower-Case Conversion Routines. The original code Lower1 


has quadratic asymptotic complexity due to an inefficient loop structure. The modified code 1ower2 has 
linear complexity. 
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entirely possible that the procedure could be applied to a string of one million characters, for which Lower1 
would over require nearly one hour of CPU time. All of a sudden this benign piece of code has become 
a major performance bottleneck. By contrast, Lower2 would complete in well under one second. Stories 
abound of major programming projects in which problems of this sort occur. Part of the job of a competent 
programmer is to avoid ever introducing such asymptotic inefficiency. 


Practice Problem 5.2: 


Consider the following functions: 


int min(int x, int y) { return x < y ? x: y; } 
int max(int x, int y) { return x < y ? y : x; } 
void incr(int *xp, int v) { *xp += v}; } 

int square(int x) { return x*x; } 


Here are three code fragments that call these functions 


A. for (i = min(x, y); i < max(x, y); incr(&i, 1)) 
t += square (i); 
B. for (i = max(x 
t += square (i 


) 
) 
) = 1; 1 >= min(x, ý); incr(&i, =1)) 
) ; 
C. int low = min(x, y); 

int high = max(x, y); 


for (i = low; i < high; incr(&i, 1)) 
t += square (i); 


Assume x equals 10 and y equals 100. Fill in the table below indicating the number of times each of the 
four functions is called for each of these code fragments. 


Code nin [max | iner [eare 


5.5 Reducing Procedure Calls 


As we have seen, procedure calls incur substantial overhead and block most forms of program optimiza- 
tion. We can see in the code for combine2 (Figure 5.6) that get_vec_element is called on every loop 
iteration to retrieve the next vector element. This procedure is especially costly since it performs bounds 
checking. Bounds checking might be a useful feature when dealing with arbitrary array accesses, but a 
simple analysis of the code for combine2 shows that all references will be valid. 


Suppose instead that we add a function get_vec_start to our abstract data type. This function returns 
the starting address of the data array, as shown in Figure 5.9. We could then write the procedure shown as 
combine3 in this figure, having no function calls in the inner loop. Rather than making a function call 


5.5. REDUCING PROCEDURE CALLS 


1 data_t *get_vec_start(vec_ptr v) 
2 { 

3 return v->data; 

4 


} 


1 /* Direct access to vector data */ 
2 void combine3(vec_ptr v, data_t *dest) 
3 { 


4 ant, i; 

5 int length = vec_length (v); 

6 data_t *data = get_vec_start(v); 
7 

8 *dest = IDENT; 

9 for (i = 0; i < length; i++) { 
10 *dest = *dest OPER data[i]; 
11 } 

12 } 
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code/opt/vec.c 


code/opt/vec.c 


code/opt/combine.c 


code/opt/combine.c 


Figure 5.9: Eliminating Function Calls within the Loop. The resulting code runs much faster, at some 


cost in program modularity. 
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to retrieve each vector element, it accesses the array directly. A purist might say that this transformation 
seriously impairs the program modularity. In principle, the user of the vector abstract data type should not 
even need to know that the vector contents are stored as an array, rather than as some other data structure 
such as a linked list. A more pragmatic programmer would argue the advantage of this transformation based 
on the following experimental results: 


combine2 ae Move vec_length Sass 66 21.25 Ee 15 135.00 

combine3 Direct data access 6.00 9.00] 8.00 117.00 
There is a improvement of up to a factor of 3.5X. For applications where performance is a significant issue, 
one must often compromise modularity and abstraction for speed. It is wise to include documentation on 


the transformations applied, and the assumptions that led to them, in case the code needs to be modified 
later. 


Aside: Expressing relative performance. 

The best way to express a performance improvement is as a ratio of the form Tyia/Tnew, where Tora is the time 
required for the original version and Trew is the time required by the modified version. This will be a number greater 
than 1.0 if any real improvement occurred. We use the suffix ‘X’ to indicate such a ratio, where the factor “3.5X” is 
expressed verbally as “3.5 times.” 


The more traditional way of expressing relative change as a percentage works well when the change is small, but its 
definition is ambiguous. Should it be 100 - (Tsa — Trew) /Tnew or possibly 100 - (Tora — Trew) /Toia, or something 
else? In addition, it is less instructive for large changes. Saying that “performance improved by 250%” is more 
difficult to comprehend than simply saying that the performance improved by a factor of 3.5. End Aside. 


5.6 Eliminating Unneeded Memory References 


The code for combine3 accumulates the value being computed by the combining operation at the location 
designated by pointer dest. This attribute can be seen by examining the assembly code generated for the 
compiled loop, with integers as the data type and multiplication as the combining operation. In this code, 
register %ecx points to data, %edx contains the value of i, and Sedi points to dest. 


combine3: type=INT, OPER = * 


dest in tedi, data in %ecx, i in %edx, length in esi 


1 .L18: loop: 

2 movl (%edi),%eax Read *dest 

3 imull (%ecx, tedx, 4), %eax Multiply by data[i] 
4 movl %eax, (šedi) Write *dest 

5 incl %edx i++ 

6 cmpl %esi, Sedx Compare i:length 

7 jl L18 If <, goto loop 


Instruction 2 reads the value stored at dest and instruction 4 writes back to this location. This seems 
wasteful, since the value read by instruction 1 on the next iteration will normally be the value that has just 
been written. 
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1 /* Accumulate result in local variable */ 
2 void combine4(vec_ptr v, data_t *dest) 


3 { 

4 int. ay 

5 int length = vec_length (v); 

6 data_t *data = get_vec_start(v); 
7 data_t x = IDENT; 

8 

9 *dest = IDENT; 

10 for (i = 0; i < length; i++) { 
jä x = x OPER datal[i]; 

12 } 

13 *dest = x; 

14 } 
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code/opt/combine.c 


code/opt/combine.c 


Figure 5.10: Accumulating Result in Temporary. This eliminates the need to read and write intermediate 


values on every loop iteration. 


This leads to the optimization shown as combine 4 in Figure 5.10 where we introduce a temporary variable 
x that is used in the loop to accumulate the computed value. The result is stored at *dest only after the 
loop has been completed. As the following assembly code for the loop shows, the compiler can now use 
register eax to hold the accumulated value. Comparing to the loop for combine3, we have reduced the 
memory operations per iteration from two reads and one write to just a single read. Registers Secx and 


%edx are used as before, but there is no need to reference *dest. 


combine4: type=INT, OPER = * 


data in teax, x in tecx, i in tedx, length in %esi 


1 .L24: loop: 

2 imull (%Seax, tedx, 4),%ecx Multiply x by data[i] 
3 incl %edx i++ 

4 cmpl %esi, Sedx Compare i:length 

5 jl .L24 If <, goto loop 


We see a significant improvement in program performance: 


combine3 | 217 | Direct data access 6.00 9.00 | 8.00 117.00 
combine4 | 219 | Accumulate in temporary | 2.00 4.00 | 3.00 5.00 


The most dramatic decline is in the time for floating-point multiplication. Its time becomes comparable to 
the times for the other combinations of data type and operation. We will examine the cause for this sudden 
decrease in Section 5.11.1. 
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Again, one might think that a compiler should be able to automatically transform the combine3 code 
shown in Figure 5.9 to accumulate the value in a register, as it does with the code for combine4 shown in 
Figure 5.10. 

In fact, however, the two functions can have different behavior due to memory aliasing. Consider, for 


example, the case of integer data with multiplication as the operation and 1 as the identity element. Let v 
be a vector consisting of the three elements [2, 3, 5] and consider the following two function calls: 


combine3(v, get_vec_start(v) + 2); 
combine4(v, get_vec_start(v) + 2); 


That is, we create an alias between the last element of the vector and the destination for storing the result. 
The two functions would then execute as follows: 


Before Loop | + = 0 


combine3 | [2,3,5] [2,3,1] 
combine4 | [2,3,5] [2,3,5] 


As shown above, combine3 accumulates its result at the destination, which in this case is the final vector 
element. This value is therefore set first to 1, then to 2 - 1 = 2, and then to 3 - 2 = 6. On the final iteration 
this value is then multiplied by itself to yield a final value of 36. For the case of combine4, the vector 
remains unchanged until the end, when the final element is set to the computed result 1 - 2 - 3 -5 = 30. 


Of course, our example showing the distinction between combine3 and combine4 is highly contrived. 
One could argue that the behavior of combine 4 more closely matches the intention of the function descrip- 
tion. Unfortunately, an optimizing compiler cannot make a judgement about the conditions under which a 
function might be used and what the programmer’s intentions might be. Instead, when given combine3 to 
compile, it is obligated to preserve its exact functionality, even if this means generating inefficient code. 


5.7 Understanding Modern Processors 


Up to this point, we have applied optimizations that did not rely on any features of the target machine. They 
simply reduced the overhead of procedure calls and eliminated some of the critical “optimization blockers” 
that cause difficulties for optimizing compilers. As we seek to push the performance further, we must begin 
to consider optimizations that make more use of the means by which processors execute instructions and 
the capabilities of particular processors. Getting every last bit of performance requires a detailed analysis 
of the program as well as code generation tuned for the target processor. Nonetheless, we can apply some 
basic optimizations that will yield an overall performance improvement on a large class of processors. The 
detailed performance results we report here may not hold for other machines, but the general principles of 
operation and optimization apply to a wide variety of machines. 


To understand ways to improve performance, we require a simple operational model of how modern pro- 
cessors work. Due to the large number of transistors that can be integrated onto a single chip, modern 
microprocessors employ complex hardware that attempts to maximize program performance. One result is 
that their actual operation is far different from the view that is perceived by looking at assembly-language 
programs. At the assembly-code level, it appears as if instructions are executed one at a time, where each 
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Figure 5.11: Block Diagram of a Modern Processor. The Instruction Control Unit is responsible for 
reading instructions from memory and generating a sequence of primitive operations. The Execution Unit 
then performs the operations and indicates whether the branches were correctly predicted. 


instruction involves fetching values from registers or memory, performing an operation, and storing results 
back to a register or memory location. In the actual processor, a number of instructions are evaluated si- 
multaneously. In some designs, there can be 80 or more instructions “in flight.’ Elaborate mechanisms 
are employed to make sure the behavior of this parallel execution exactly captures the sequential semantic 
model required by the machine-level program. 


5.7.1 Overall Operation 


Figure 5.11 shows a very simplified view of a modern microprocessor. Our hypothetical processor design 
is based loosely on the Intel “P6” microarchitecture [28], the basis for the Intel PentiumPro, Pentium II and 
Pentium III processors. The newer Pentium 4 has a different microarchitecture, but it has a similar overall 
structure to the one we present here. The P6 microarchitecture typifies the high-end processors produced 
by a number of manufacturers since the late 1990s. It is described in the industry as being superscalar, 
which means it can perform multiple operations on every clock cycle, and out-of-order meaning that the 
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order in which instructions execute need not correspond to their ordering in the assembly program. The 
overall design has two main parts. The Instruction Control Unit (ICU) is responsible for reading a sequence 
of instructions from memory and generating from these a set of primitive operations to perform on program 
data. The Execution Unit (EU) then executes these operations. 


The ICU reads the instructions from an instruction cache—a special, high-speed memory containing the 
most recently accessed instructions. In general, the ICU fetches well ahead of the currently executing 
instructions, so that it has enough time to decode these and send operations down to the EU. One problem, 
however, is that when a program hits a branch,! there are two possible directions the program might go. 
The branch can be taken, with control passing to the branch target. Alternatively, the branch can be not 
taken, with control passing to the next instruction in the instruction sequence. Modern processors employ 
a technique known as branch prediction, where they guess whether or not a branch will be taken, and 
they also predict the target address for the branch. Using a technique known as speculative execution, the 
processor begins fetching and decoding instructions at where it predicts the branch will go, and even begins 
executing these operations before it has been determined whether or not the branch prediction was correct. 
If it later determines that the branch was predicted incorrectly, it resets the state to that at the branch point 
and begins fetching and executing instructions in the other direction. A more exotic technique would be 
to begin fetching and executing instructions for both possible directions, later discarding the results for the 
incorrect direction. To date, this approach has not been considered cost effective. The block labeled Fetch 
Control incorporates branch prediction to perform the task of determining which instructions to fetch. 

The /nstruction Decoding logic takes the actual program instructions and converts them into a set of prim- 
itive operations. Each of these operations performs some simple computational task such as adding two 
numbers, reading data from memory, or writing data to memory. For machines with complex instructions, 
such as an IA32 processor, an instruction can be decoded into a variable number of operations. The details 
vary from one processor design to another, but we attempt to describe a typical implementation. In this 
machine, decoding the instruction 


addl %eax, tedx 
yields a single addition operation, whereas decoding the instruction 
addl %eax, 4 (%edx) 


yields three operations: one to load a value from memory into the processor, one to add the loaded value to 
the value in register Se ax, and one to store the result back to memory. This decoding splits instructions to 
allow a division of labor among a set of dedicated hardware units. These units can then execute the different 
parts of multiple instructions in parallel. For machines with simple instructions, the operations correspond 
more closely to the original instructions. 


The EU receives operations from the instruction fetch unit. Typically, it can receive a number of them on 
each clock cycle. These operations are dispatched to a set of functional units that perform the actual opera- 
tions. These functional units are specialized to handle specific types of operations. Our figure illustrates a 
typical set of functional units. It is styled after those found in recent Intel processors. The units in the figure 
are as follows: 


'We use the term “branch” specifically to refer to conditional jump instructions. Other instructions that can transfer control to 
multiple destinations, such as procedure return and indirect jumps, provide similar challenges for the processor. 
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Integer/Branch: Performs simple integer operations (add, test, compare, logical). Also processes branches, 
as is discussed below. 


General Integer: Can handle all integer operations, including multiplication and division. 
Floating-Point Add: Handles simple floating-point operations (addition, format conversion). 


Floating-Point Multiplication/Division: Handles floating-point multiplication and division. More com- 
plex floating-point instructions, such transcendental functions, are converted into sequences of oper- 
ations. 


Load: Handles operations that read data from the memory into the processor. The functional unit has an 
adder to perform address computations. 


Store: Handles operations that write data from the processor to the memory. The functional unit has an 
adder to perform address computations. 


As shown in the figure, the load and store units access memory via a data cache, a high-speed memory 
containing the most recently accessed data values. 


With speculative execution, the operations are evaluated, but the final results are not stored in the program 
registers or data memory until the processor can be certain that these instructions should actually have been 
executed. Branch operations are sent to the EU not to determine where the branch should go, but rather to 
determine whether or not they were predicted correctly. If the prediction was incorrect, the EU will discard 
the results that have been computed beyond the branch point. It will also signal to the Branch Unit that the 
prediction was incorrect and indicate the correct branch destination. In this case the Branch Unit begins 
fetching at the new location. Such a misprediction incurs a significant cost in performance. It takes a while 
before the new instructions can be fetched, decoded, and sent to the execution units. We explore this further 
in Section 5.12. 


Within the ICU, the Retirement Unit keeps track of the ongoing processing and makes sure that it obeys 
the sequential semantics of the machine-level program. Our figure shows a Register File, containing the 
integer and floating-point registers, as part of the Retirement Unit, because this unit controls the updating 
of these registers. As an instruction is decoded, information about it is placed in a first-in, first-out queue. 
This information remains in the queue until one of two outcomes occurs. First, once the operations for the 
instruction have completed and any branch points leading to this instruction are confirmed as having been 
correctly predicted, the instruction can be retired, with any updates to the program registers being made. If 
some branch point leading to this instruction was mispredicted, on the other hand, the instruction will be 
flushed, discarding any results that may have been computed. By this means, mispredictions will not alter 
the program state. 


As we have described, any updates to the program registers occur only as instructions are being retired, and 
this takes place only after the processor can be certain that any branches leading to this instruction have 
been correctly predicted. To expedite the communication of results from one instruction to another, much 
of this information is exchanged among the execution units, shown in the figure as “Operation Results.” As 
the arrows in the figure show, the execution units can send results directly to each other. 


The most common mechanism for controlling the communication of operands among the execution units 
is called register renaming. When an instruction that updates register r is decoded, a tag t is generated 
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Integer Add 1 1 
Integer Multiply 4 1 
Integer Divide 36 36 
Floating-Point Add 3 1 
Floating-Point Multiply 5 2 
Floating-Point Divide 38 38 
Load (Cache Hit) 3 1 
Store (Cache Hit) 3 1 


Figure 5.12: Performance of Pentium III Arithmetic Operations. Latency represents the total number 
of cycles for a single operation. Issue time denotes the number of cycles between successive, independent 
operations. (Obtained from Intel literature). 


giving a unique identifier to the result of the operation. An entry (r,t) is added to a table maintaining the 
association between each program register and the tag for an operation that will update this register. When 
a subsequent instruction using register r as an operand is decoded, the operation sent to the Execution Unit 
will contain t as the source for the operand value. When some execution unit completes the first operation, 
it generates a result (v, t) indicating that the operation with tag t produced value v. Any operation waiting 
for t as a source will then use v as the source value. By this mechanism, values can be passed directly from 
one operation to another, rather than being written to and read from the register file. The renaming table 
only contains entries for registers having pending write operations. When a decoded instruction requires a 
register r, and there is no tag associated with this register, the operand is retrieved directly from the register 
file. With register renaming, an entire sequence of operations can be performed speculatively, even though 
the registers are updated only after the processor is certain of the branch outcomes. 


5.7.2 Functional Unit Performance 


Figure 5.12 documents the performance of some of basic operations for an Intel Pentium II. These timings 
are typical for other processors as well. Each operation is characterized by two cycle counts: the latency, 
indicating the total number of cycles the functional unit requires to complete the operation; and the issue 
time, indicating the number of cycles between successive, independent operations. The latencies range from 
one cycle for basic integer operations; several cycles for loads, stores, integer multiplication, and the more 
common floating-point operations; and then to many cycles for division and other complex operations. 


As the third column in Figure 5.12 shows, several functional units of the processor are pipelined, meaning 
that they can start on a new operation before the previous one is completed. The issue time indicates the 
number of cycles between successive operations for the unit. In a pipelined unit, the issue time is smaller 
than the latency. A pipelined function unit is implemented as a series of stages, each of which performs 
part of the operation. For example, a typical floating-point adder contains three stages: one to process the 
exponent values, one to add the fractions, and one to round the final result. The operations can proceed 
through the stages in close succession rather than waiting for one operation to complete before the next 
begins. This capability can only be exploited if there are successive, logically independent operations to 
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be performed. As indicated, most of the units can begin a new operation on every clock cycle. The only 
exceptions are the floating-point multiplier, which requires a minimum of two cycles between successive 
operations, and the two dividers, which are not pipelined at all. 


Circuit designers can create functional units with a range of performance characteristics. Creating a unit 
with short latency or issue time requires more hardware, especially for more complex functions such as 
multiplication and floating-point operations. Since there is only a limited amount of space for these units on 
the microprocessor chip, the CPU designers must carefully balance the number of functional units and their 
individual performance to achieve optimal overall performance. They evaluate many different benchmark 
programs and dedicate the most resources to the most critical operations. As Figure 5.12 indicates, integer 
multiplication and floating-point multiplication and addition were considered important operations in design 
of the Pentium III, even though a significant amount of hardware is required to achieve the low latencies 
and high degree of pipelining shown. On the other hand, division is relatively infrequent, and difficult to 
implement with short latency or issue time, and so these operations are relatively slow. 


5.7.3 A Closer Look at Processor Operation 


As a tool for analyzing the performance of a machine level program executing on a modern processor, 
we have developed a more detailed textual notation to describe the operations generated by the instruction 
decoder, as well as a graphical notation to show the processing of operations by the functional units. Neither 
of these notations exactly represents the implementation of a specific, real-life processor. They are simply 
methods to help understand how a processor can take advantage of parallelism and branch prediction in 
executing a program. 


Translating Instructions into Operations 


We present our notation by working with combine4 (Figure 5.10), our fastest code up to this point as an 
example. We focus just on the computation performed by the loop, since this is the dominating factor in 
performance for large vectors. We consider the cases of integer data with both multiplication and addition 
as the combining operations. The compiled code for this loop with multiplication consists of four instruc- 
tions. In this code, register eax holds the pointer data, $edx holds i, secx holds x, and Sesi holds 
length. 


* 


combine4: type=INT, OPER 


data in %teax, x in %ecx, i in %edx, length in besi 


1 .L24: loop: 

2 imull (Seax, tedx, 4),%ecx Multiply x by data[i] 
3 incl %Sedx itt 

4 cmpl %esi, Sedx Compare i:length 

5 jl .L24 If <, goto loop 


Every time the processor executes the loop, the instruction decoder translates these four instructions into a 
sequence of operations for the Execution Unit. On the first iteration, with i equal to 0, our hypothetical 
machine would issue the following sequence of operations: 
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Assembly Instructions Execution Unit Operations 


L24: 
imull (%eax, %edx, 4), %ecx | load (%eax, tedx.0, 4) 


imull t.1, %ecx.0 
incl %edx incl sedqx.0 
cmpl %esi, sedx cmpl %Sesi, %edx.1 
jl .L24 jl-taken cc.1 


In our translation, we have converted the memory reference by the multiply instruction into an explicit load 
instruction that reads the data from memory into the processor. We have also assigned operand labels to 
the values that change each iteration. These labels are a stylized version of the tags generated by register 
renaming. Thus, the value in register Secx is identified by the label Secx . 0 at the beginning of the loop, 
and by %ecx. 1 after it has been updated. The register values that do not change from one iteration to the 
next would be obtained directly from the register file during decoding. We also introduce the label t . 1 to 
denote the value read by the load operation and passed to the imu11 operation, and we explicitly show 
the destination of the operation. Thus, the pair of operations 


load (%eax, %edx.0, 4) > t.1 
imull t.1, %ecx.0 > %ecx.1 


indicates that the processor first performs a load operation, computing the address using the value of Seax 
(which does not change during the loop), and the value stored in Sedx at the start of the loop. This will 
yield a temporary value, which we label t . 1. The multiply operation then takes this value and the value of 
%ecx at the start of the loop and produces a new value for Secx. As this example illustrates, tags can be 
associated with intermediate values that are never written to the register file. 


The operation 


incl %edx.0 — %edx.1 


indicates that the increment operation adds one to the value of $edx at the start of the loop to generate a 
new value for this register. 


The operation 


cmpl %esi, Sedx.1 一 cc.1 


indicates that the compare operation (performed by either integer unit) compares the value in Sesi (which 
does not change in the loop) with the newly computed value for Sedx. It then sets the condition codes, 
identified with the explicit label cc.1. As this example illustrates, the processor can use renaming to track 
changes to the condition code registers. 


Finally, the jump instruction was predicted taken. The jump operation 


jl-taken cc.1 
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%edx. 0 


Sedx.1 


Execution Unit Operations Toad 


load (%eax, %edx.0, 4) 


` % 20 
imull t.1, %ecx.0 
incl sedx.0 


cmpl %Sesi, %edx.1 
jl-taken cc.1 


imull 


~、 7 secx.1 


Figure 5.13: Operations for First Iteration of Inner Loop of combine4 for integer multiplication. 
Memory reads are explicitly converted to loads. Register names are tagged with instance numbers. 


checks whether the newly computed values for the condition codes (cc. 1) indicate this was the correct 
choice. If not, then it signals the ICU to begin fetching instructions at the instruction following the j1. 
To simplify the notation, we omit any information about the possible jump destinations. In practice, the 
processor must keep track of the destination for the unpredicted direction, so that it can begin fetching from 
there in the event the prediction is incorrect. 


As this example translation shows, our operations mimic the structure of the assembly-language instructions 
in many ways, except that they refer to their source and destination operations by labels that identify different 
instances of the registers. In the actual hardware, register renaming dynamically assigns tags to indicate 
these different values. Tags are bit patterns rather than symbolic names such as “%edx . 1,” but they serve 
the same purpose. 


Processing of Operations by the Execution Unit 


Figure 5.13 shows the operations in two forms: that generated by the instruction decoder and as a compu- 
tation graph where operations are represented by rounded boxes and arrows indicate the passing of data 
between operations. We only show the arrows for the operands that change from one iteration to the next, 
since only these values are passed directly between functional units. 


The height of each operator box indicates how many cycles the operation requires, that is, the latency of that 
particular function. In this case, integer multiplication imu11 requires four cycles, load requires three, and 
the other operations require one. In demonstrating the timing of a loop, we position the blocks vertically 
to represent the times when operations are performed, with time increasing in the downward direction. We 
can see that the five operations for the loop form two parallel chains, indicating two series of computations 
that must be performed in sequence. The chain on the left processes the data, first reading an array element 
from memory and then multiplying it times the accumulated product. The chain on the right processes the 
loop index i, first incrementing it and then comparing it to length. The jump operation checks the result 
of this comparison to make sure the branch was correctly predicted. Note that there are no outgoing arrows 
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Execution Unit Operations 


load (%eax, %tedx.0, 4) 
addl t.1, %ecx.0 

incl %Sedx.0 

cmpl %Sesi, %edx.1 
jl-taken cc.1 


Figure 5.14: Operations for First Iteration of Inner Loop of combine4 for Integer Addition. Com- 
pared to multiplication, the only change is that the addition operation requires only one cycle. 


from the jump operation box. If the branch was correctly predicted, no other processing is required. If the 
branch was incorrectly predicted, then the branch function unit will signal the instruction fetch control unit, 
and this unit will take corrective action. In either case, the other operations do not depend on the outcome 
of the jump operation. 


Figure 5.14 shows the same translation into operations but with integer addition as the combining operation. 
As the graphical depiction shows, all of the operations, except load, now require just one cycle. 


Scheduling of Operations with Unlimited Resources 


To see how a processor would execute a series of iterations, imagine first a processor with an unlimited 
number of functional units and with perfect branch prediction. Each operation could then begin as soon as 
its data operands were available. The performance of such a processor would be limited only by the latencies 
and throughputs of the functional units, and the data dependencies in the program. Figure 5.15 shows the 
computation graph for the first three iterations of the loop in combine4 with integer multiplication on such 
a machine. For each iteration, there is a set of five operations with the same configuration as those in Figure 
5.13, with appropriate changes to the operand labels. The arrows from the operators of one iteration to those 
of another show the data dependencies between the different iterations. 


Each operator is placed vertically at the highest position possible, subject to the constraint that no arrows can 
point upward, since this would indicate information flowing backward in time. Thus, the load operation 
of one iteration can begin as soon as the incl operation of the previous iteration has generated an updated 
value of the loop index. 


The computation graph shows the parallel execution of operations by the Execution Unit. On each cycle, 
all of the operations on one horizontal line of the graph execute in parallel. The graph also demonstrates 
out-of-order, speculative execution. For example, the incl operation in one iteration is executed before 
the j1 instruction of the previous iteration has even begun. We can also see the effect of pipelining. Each 
iteration requires at least seven cycles from start to end, but successive iterations are completed every 4 
cycles. Thus, the effective processing rate is one iteration every 4 cycles, giving a CPE of 4.0. 


The four-cycle latency of integer multiplication constrains the performance of the processor for this pro- 
gram. Each imull operation must wait until the previous one has completed, since it needs the result of 
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Figure 5.15: Scheduling of Operations for Integer Multiplication with Unlimited Number of Execution 
Units. The 4 cycle latency of the multiplier is the performance-limiting resource. 
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Figure 5.16: Scheduling of Operations for Integer Addition with Unbounded Resource Constraints. 
With unbounded resources the processor could achieve a CPE of 1.0. 


this multiplication before it can begin. In our figure, the multiplication operations begin on cycles 4, 8, and 
12. With each succeeding iteration, a new multiplication begins every fourth cycle. 


Figure 5.16 shows the first four iterations of combine4 for integer addition on a machine with an un- 
bounded number of functional units. With a single-cycle combining operation, the program could achieve a 
CPE of 1.0. We see that as the iterations progress, the Execution Unit would perform parts of seven oper- 
ations on each clock cycle. For example, in cycle 4 we can see that the machine is executing the add1 for 
iteration 1; different parts of the Load operations for iterations 2, 3, and 4; the j1 for iteration 2; the cmp1 
for iteration 3; and the incl for iteration 4. 


Scheduling of Operations with Resource Constraints 


Of course, a real processor has only a fixed set of functional units. Unlike our earlier examples, where 
the performance was constrained only by the data dependencies and the latencies of the functional units, 
performance becomes limited by resource constraints as well. In particular, our processor has only two units 
capable of performing integer and branch operations. In contrast, the graph of Figure 5.15 has three of these 
operations in parallel on cycles 3 and four in parallel on cycle 4. 


Figure 5.17 shows the scheduling of the operations for combine4 with integer multiplication on a resource- 
constrained processor. We assume that the general integer unit and the branch/integer unit can each begin 
a new operation on every clock cycle. It is possible to have more than two integer or branch operations 
executing in parallel, as shown in cycle 6, because the imu11 operation is in its third cycle by this point. 


With constrained resources, our processor must have some scheduling policy that determines which oper- 
ation to perform when it has more than one choice. For example, in cycle 3 of the graph of Figure 5.15, 
we show three integer operations being executed: the j1 of iteration 1, the cmp1 of iteration 2, and the 
incl of iteration 3. For Figure 5.17, we must delay one of these operations. We do so by keeping track of 
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Figure 5.17: Scheduling of Operations for Integer Multiplication with Actual Resource Constraints. 
The multiplier latency remains the performance-limiting factor. 


232 CHAPTER 5. OPTIMIZING PROGRAM PERFORMANCE 


10 edx.6 
1l Iteration 4 
12 load 
Iteration 5 一 经 ol 
13 LNG 
14 addl ) (cmpl ) 
lteration 6 

is seax .8 
16 Cyck 

Secx.7 
17 

Iteration 7 

18 


Iteration 8 


Figure 5.18: Scheduling of Operations for Integer Addition with Actual Resource Constraints. The 
limitation to two integer units constrains performance to a CPE of 2.0. 


the program order for the operations, that is, the order in which the operations would be performed if we 
executed the machine-level program in strict sequence. We then give priority to the operations according to 
their program order. In this example, we would defer the incl operation, since any operation of iteration 3 
is later in program order than those of iterations 1 and 2. Similarly, in cycle 4, we would give priority to the 
imu11 operation of iteration 1 and the j1 of iteration 2 over that of the incl operation of iteration 3. 


For this example, the limited number of functional units does not slow down our program. Performance is 
still constrained by the four-cycle latency of integer multiplication. 


For the case of integer addition, the resource constraints impose a clear limitation on program performance. 
Each iteration requires four integer or branch operations, and there are only two functional units for these 
operations. Thus, we cannot hope to sustain a processing rate any better than two cycles per iteration. In 
creating the graph for multiple iterations of combine4 for integer addition, an interesting pattern emerges. 
Figure 5.18 shows the scheduling of operations for iterations 4 through 8. We chose this range of iterations 
because it shows a regular pattern of operation timings. Observe how the timing of all operations in iterations 
4 and 8 is identical, except that the operations in iteration 8 occur eight cycles later. As the iterations proceed, 
the patterns shown for iterations 4 to 7 would keep repeating. Thus, we complete four iterations every eight 


5.8. REDUCING LOOP OVERHEAD 233 


cycles, achieving the optimum CPE of 2.0. 


Summary of combine4 Performance 


We can now consider the measured performance of combine4 for all four combinations of data type and 
combining operations: 


Accumulate in temporary | 2.00 4.00 | 3.00 5.00 


With the exception of integer addition, these cycle times nearly match the latency for the combining oper- 
ation, as shown in Figure 5.12. Our transformations to this point have reduced the CPE value to the point 
where the time for the combining operation becomes the limiting factor. 


For the case of integer addition, we have seen that the limited number of functional units for branch and 
integer operations limits the achievable performance. With four such operations per iteration, and just two 
functional units, we cannot expect the program to go faster than 2 cycles per iteration. 


In general, processor performance is limited by three types of constraints. First, the data dependencies in 
the program force some operations to delay until their operands have been computed. Since the functional 
units have latencies of one or more cycles, this places a lower bound on the number of cycles in which a 
given sequence of operations can be performed. Second, the resource constraints limit how many operations 
can be performed at any given time. We have seen that the limited number of functional units is one such 
resource constraint. Other constraints include the degree of pipelining by the functional units, as well as 
limitations of other resources in the ICU and the EU. For example, an Intel Pentium III can only decode 
three instructions on every clock cycle. Finally, the success of the branch prediction logic constrains the 
degree to which the processor can work far enough ahead in the instruction stream to keep the execution 
unit busy. Whenever a misprediction occurs, a significant delay occurs getting the processor restarted at the 
correct location. 


5.8 Reducing Loop Overhead 


The performance of combine4 for integer addition is limited by the fact that each iteration contains four 
instructions, with only two functional units capable of performing them. Only one of these four instructions 
operates on the program data. The others are part of the loop overhead of computing the loop index and 
testing the loop condition. 


We can reduce overhead effects by performing more data operations in each iteration, via a technique known 
as loop unrolling. The idea is to access and combine multiple array elements within a single iteration. The 
resulting program requires fewer iterations, leading to reduced loop overhead. 


Figure 5.19 shows a version of our combining code using three-way loop unrolling. The first loop steps 
through the array three elements at a time. That is, the loop index i is incremented by three on each 
iteration, and the combining operation is applied to array elements 7,7 + 1, and z+ 2 in a single iteration. 
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code/opt/combine.c 


1 /* Unroll loop by 3 */ 
2 void combine5(vec_ptr v, data_t *dest) 


3 { 

4 int length = vec_length(v); 

5 int limit = length-2; 

6 data_t *data = get_vec_start(v); 

7 data_t x = IDENT; 

8 ant. Ay 

9 

0 /* Combine 3 elements at a time */ 
1 for (i = 0; i < limit; i+=3) { 

2 x = x OPER data[i] OPER data[it+l] OPER data[i+2]; 
3 } 

4 

5 /* Finish any remaining elements */ 
6 for (; i < length; i++) { 

7 x = x OPER data[i]; 

8 } 

9 *dest = x; 

20 } 


code/opt/combine.c 


Figure 5.19: Unrolling Loop by 3. Loop unrolling can reduce the effect of loop overhead. 
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Execution Unit Operations 


load (%eax, %tedx.0, 4) 
addl t.la, tecx.0c 
load 4(%eax, %edx.0, 4) 
addl t.lb, %ecx.la 
load 8(%eax, %edx.0, 4) 
addı t.lc, %ecx.1b 
addl %Sedx.0, 3 

cmpl Sesi, %edx.1 
jl-taken cc.1 
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Figure 5.20: Operations for First Iteration of Inner Loop of Three-Way Unrolled Integer Addition. 
With this degree of loop unrolling we can combine three array elements using six integer/branch operations. 


In general, the vector length will not be a multiple of 3. We want our code to work correctly for arbitrary 
vector lengths. We account for this requirement in two ways. First, we make sure the first loop does not 
overrun the array bounds. For a vector of length n, we set the loop limit to be n — 2. We are then assured 
that the loop will only be executed when the loop index 2 satisfies 2 < n — 2, and hence the maximum array 
index 7 + 2 will satisfy i + 2 < (n — 2) +2 = n. In general, if the loop is unrolled by k, we set the upper 
limit to be n — k + 1. The maximum loop index $+ k — 1 will then be less than n. In addition to this, we 
add a second loop to step through the final few elements of the vector one at a time. The body of this loop 
will be executed between 0 and 2 times. 


To better understand the performance of code with loop unrolling, let us look at the assembly code for the 
inner loop and its translation into operations. 


Assembly Instructions Execution Unit Operations 


.L49: 

addl (%eax,%edx, 4) ,%ecx load (%eax, %edx.0, 4) 
addl t.la, tecx.0c 

addl 4(%eax, tedx,4),%ecx | load 4(%eax, tedx.0, 4) 
addl t.1lb, %tecx.la 

addl 8 (%eax, edx,4),%ecx | load 8(%eax, %edx.0, 4) 
addl t.lc, %tecx.1b 

addl %edx,3 addl %edx.0, 3 

cmpl %Sesi, sedax cmpl %Sesi, %tedx.1 

jl .L49 jl-taken cc.1 


os 
os 
一 
一 
— 
— 
— 
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As mentioned earlier, loop unrolling by itself will only help the performance of the code for the case of 
integer sum, since our other cases are limited by the latency of the functional units. For integer sum, three- 
way unrolling allows us to combine three elements with six integer/branch operations, as shown in Figure 
5.20. With two functional units for these operations, we could potentially achieve a CPE of 1.0. Figure 5.21 
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Figure 5.21: Scheduling of Operations for Three-Way Unrolled Integer Sum with Bounded Resource 
Constraints. In principle, the procedure can achieve a CPE of 1.0. The measured CPE, however, is 1.33. 
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shows that once we reach iteration 3 (i = 6), the operations would follow a regular pattern. The operations 
of iteration 4 (i = 9) have the same timings, but shifted by three cycles. This would indeed yield a CPE of 
1.0. 


Our measurement for this function shows a CPE of 1.33, that is, we require four cycles per iteration. Evi- 
dently some resource constraint we did not account for in our analysis delays the computation by one addi- 
tional cycle per iteration. Nonetheless, this performance represents an improvement over the code without 
loop unrolling. 


Measuring the performance for different degrees of unrolling yields the following values for the CPE 


Vector Length Degree of Unrolling 
1 2 3 4 8 


16 


| CPE 1200 1.50 1.33 1.50 1.25 1.06 


As these measurements show, loop unrolling can reduce the CPE. With the loop unrolled by a factor of two, 
each iteration of the main loop requires three clock cycles, giving a CPE of 3/2 = 1.5. As we increase 
the degree of unrolling, we generally get better performance, nearing the theoretical CPE limit of 1.0. It 
is interesting to note that the improvement is not monotonic—unrolling by three gives better performance 
than unrolling by four. Evidently the scheduling of operations on the execution units is less efficient for the 
latter case. 


Our CPE measurements do not account for overhead factors such as the cost of the procedure call and of 
setting up the loop. With loop unrolling, we introduce a new source of overhead—the need to finish any 
remaining elements when the vector length is not divisible by the degree of unrolling. To investigate the 
impact of overhead, we measure the net CPE for different vector lengths. The net CPE is computed as 
the total number of cycles required by the procedure divided by the number of elements. For the different 
degrees of unrolling, and for two different vector lengths we obtain the following: 


Vector Length Degree of Unrolling 


1 2 3 4 8 16 
| CPE [200 1.50 133 1.50 1.25 1.06 | 1.50 1.33 1.50 1.25 1.06 


CE i 3.57 3.39 3.84 3.91 3.66 
1024 Net CPE | 2.06 1.56 140 1.56 1.31 1.12 


The distinction between CPE and net CPE is minimal for long vectors, as seen with the measurements for 
length 1024, but the impact is significant for short vectors, as seen with the measurements for length 31. 
Our measurements of the net CPE for a vector of length 31 demonstrate one drawback of loop unrolling. 
Even with no unrolling, the net CPE of 4.02 is considerably higher than the 2.06 measured for long vectors. 
The overhead of starting and completing the loop becomes far more significant when the loop is executed 
a smaller number of times. In addition, the benefit of loop unrolling is less significant. Our unrolled code 
must start and stop two loops, and it must complete the final elements one at a time. The overhead decreases 
with increased loop unrolling, while the number of operations performed in the final loop increases. With a 
vector length of 1024, performance generally improves as the degree of unrolling increases. With a vector 
length of 31, the best performance is achieved by unrolling the loop by only a factor of three. 


A second drawback of loop unrolling is that it increases the amount of object code generated. The object 
code for combine4 requires 63 bytes, whereas the object code with the loop unrolled by a factor of 16 
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requires 142 bytes. In this case, that seems like a small price to pay for code that runs nearly twice as fast. 
In other cases, however, the optimum position in this time-space tradeoff is not so clear. 


5.9 Converting to Pointer Code 


Before proceeding further, let us attempt one more transformation that can sometimes improve program 
performance, at the expense of program readability. One of the unique features of C is the ability to create 
and reference pointers to arbitrary program objects. Pointer arithmetic, in fact, has a close connection to 
array referencing. The combination of pointer arithmetic and referencing given by the expression * (a+i) 
is exactly equivalent to the array reference a [i]. At times, we can improve the performance of a program 
by using pointers rather than arrays. 


Figure 5.22 shows an example of converting the procedures combine4 and combineS5 to pointer code, 
giving procedures combine4p and combine5p, respectively. Instead of keeping pointer data fixed at 
the beginning of the vector, we move it with each iteration. The vector elements are then referenced by a 
fixed offset (between 0 and 2) of data. Most significantly, we can eliminate the iteration variable i from 
the procedure. To detect when the loop should terminate, we compute a pointer dend to be an upper bound 
on pointer data. 


Comparing the performance of these procedures to their array counterparts yields mixed results: 


combine4 219 | Accumulate in temporary | 2.00 4.00 | 3.00 5.00 
combine4p 239 | Pointer version 3.00 4.00 | 3.00 5.00 


combine5 234 | Unroll loop x3 1.33 4.00 | 3.00 5.00 
combine5x4 Unroll loop x4 1.50 4.00 | 3.00 5.00 


For most of the cases, the array and pointer versions have the exact same performance. With pointer code, the 
CPE for integer sum with no unrolling actually gets worse by one cycle. This result is somewhat surprising, 
since the inner loops for the pointer and array versions are very similar, as shown in Figure 5.23. It is hard to 
imagine why the pointer code requires an additional clock cycle per iteration. Just as mysteriously, versions 
of the procedures with four-way loop unrolling yield a one-cycle-per-iteration improvement with pointer 
code, giving a CPE of 1.25 (five cycles per iteration) rather then 1.5 (six cycles per iteration). 


In our experience, the relative performance of pointer versus array code depends on the machine, the com- 
piler, and even the particular procedure. We have seen compilers that apply very advanced optimizations 
to array code but only minimal optimizations to pointer code. For the sake of readability, array code is 
generally preferable. 


Practice Problem 5.3: 


At times, GCC does its own version of converting array code to pointer code. For example, with integer 
data and addition as the combining operation, it generates the following code for the inner loop of a 
variant of combine5S that uses eight-way loop unrolling: 
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code/opt/combine.c 


1 /* Accumulate in local variable, pointer version */ 
2 void combine4p(vec_ptr v, data_t *dest) 

3 f 

int length = vec_length (v); 

data_t *data = get_vec_start(v); 

data_t *dend = datatlength; 

data_t x = IDENT; 


wo OAD oO Bb 


for (; data < dend; datatt) 
10 x = x OPER *data; 

11 *dest = x; 

12 } 


code/opt/combine.c 


(a) Pointer version of combine4. 
code/opt/combine.c 


/* Unroll loop by 3, pointer version */ 
void combine5p(vec_ptr v, data_t *dest) 
{ 
data_t *data = get_vec_start(v); 
data_t *dend datatvec_length (v); 
data_t *dlimit = dend-2; 
data_t x = IDENT; 


/* Combine 3 elements at a time */ 
for (; data < dlimit; data += 3) { 
x = x OPER data[0] OPER data[1] OPER data[2]; 


/* Finish any remaining elements */ 
for (; data < dend; data++) { 
x = x OPER data[0]; 


Oo OAT DO BUNE CO WO DAA HD oO BP WY PB 


code/opt/combine.c 


(b) Pointer version of combine5 


Figure 5.22: Converting Array Code to Pointer Code. In some cases, this can lead to improved perfor- 
mance. 
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combine4: type=INT, OPER = ’+’ 


data in teax, x in %ecx, i in %edx, length in tesi 


1 .L24: loop: 
2 addl (%eax,%edx,4),%eECxK Add data[i] to x 
3 incl %edx itt 
4 cmpl %Sesi, sedx Compare i:length 
5 jl .L24 If <, goto loop 
(a) Array code 
combine4p: type=INT, OPER = ’+’ 
data in %eax, x in %ecx, dend in %edx 
1 .L30: loop: 
2 addl (%eax),%ecx Add data[0] to x 
3 addl $4, %eax data++ 
4 cmpl %edx, seax Compare data:dend 
5 J6? L30 If <, goto loop 


(b) Pointer code 


Figure 5.23: Pointer Code Performance Anomaly. Although the two programs are very similar in struc- 
ture, the array code requires two cycles per iteration, while the pointer code requires three. 


1 .L6: 

2 addl (%eax) , sedx 

3 addl 4(%eax) , sedx 
4 addl 8(%eax) , sedx 
5 addl 12(%eax) , Sedx 
6 addl 16(%eax) , sedx 
7 addl 20(%eax) , sedx 
8 addl 24 (%eax) , Sedx 
9 addl 28 (%eax) ,edx 
10 addl $32,%eax 

11 addl $8, %ecx 

12 cmpl %esi, %ecx 

13 jl .L6 


Observe how register eax is being incremented by 32 on each iteration. 


Write C code for a procedure combine5px8 that shows how pointers, loop variables, and termination 
conditions are being computed by this code. Show the general form with arbitrary data and combining 
operation in the style of Figure 5.19. Describe how it differs from our handwritten pointer code (Figure 
5.22). 
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code/opt/combine.c 


1 /* Unroll loop by 2, 2-way parallelism */ 
2 void combine6(vec_ptr v, data_t *dest) 


3-4 

4 int length = vec_length (v); 

5 int limit = length-1; 

6 data_t *data = get_vec_start(v); 

7 data_t x0 = IDENT; 

8 data_t xl = IDENT; 

9 ant. a: 

0 

1 /* Combine 2 elements at a time */ 
2 for (i = 0; i < limit; it=2) { 

3 x0 = x0 OPER data[i]; 

4 xl = x1 OPER data[it+l]; 

5 } 

6 

7 /* Finish any remaining elements */ 
8 for (; i < length; i++) { 

9 x0 = x0 OPER datal[i]; 

20 } 

21 *dest = x0 OPER x1; 

22 } 


code/opt/combine.c 


Figure 5.24: Unrolling Loop by 2 and Using Two-Way Parallelism. This approach makes use of the 
pipelining capability of the functional units. 


5.10 Enhancing Parallelism 


At this point, our programs are limited by the latency of the functional units. As the third column in Figure 
5.12 shows, however, several functional units of the processor are pipelined, meaning that they can start on 
a new operation before the previous one is completed. Our code cannot take advantage of this capability, 
even with loop unrolling, since we are accumulating the value as a single variable x. We cannot compute a 
new value of x until the preceding computation has completed. As a result, the processor will stall, waiting 
to begin a new operation until the current one has completed. This limitation shows clearly in Figures 5.15 
and 5.17. Even with unbounded processor resources, the multiplier can only produce a new result every four 
clock cycles. Similar limitations occur with floating-point addition (three cycles) and multiplication (five 
cycles). 


5.10.1 Loop Splitting 


For a combining operation that is associative and commutative, such as integer addition or multiplication, we 
can improve performance by splitting the set of combining operations into two or more parts and combining 
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sedx.0 


Execution Unit Operations 


load (%eax, %tedx.0, 4) 
imull t.la, %ecx.0 
load 4(%eax, %Sedx.0, 4) 


imull t.1b, %tebx.0 
addl $2, %edx.0 
cmpl %Sesi, %edx.1 
jl-taken cc.1 


Figure 5.25: Operations for First Iteration of Inner Loop of Two-Way Unrolled, Two-Way Parallel 
Integer Multiplication. The two multiplication operations are logically independent. 


the results at the end. For example, let P, denote the product of elements ao, a1,..-,@n—1: 
n-1 
Pa = I] ay 
i=0 


Assuming n is even, we can also write this as P, = PE, x PO,, where P Enp is the product of the elements 
with even indices, and PO,, is the product of the elements with odd indices: 


n/2—2 
PE, = I] aj 
i=0 
n/2—2 
POn = II A241 
i=0 


Figure 5.24 shows code that uses this method. It uses both two-way loop unrolling to combine more ele- 
ments per iteration, and two-way parallelism, accumulating elements with even index in variable x0, and 
elements with odd index in variable x1. As before, we include a second loop to accumulate any remaining 
array elements for the case where the vector length is not a multiple of 2. We then apply the combining 
operation to x0 and x1 to compute the final result. 


To see how this code yields improved performance, let us consider the translation of the loop into operations 
for the case of integer multiplication: 
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Assembly Instructions Execution Unit Operations 


-L151: 
imull (%eax, Sedx, 4), Secx load (%eax, tedx.0, 4) 
imull t.la, %tecx.0 


imull 4 (%eax, tedx,4),%ebx | load 4(%eax, %Sedx.0, 4) 
imull t.1lb, %ebx.0 

addl $2, %edx addl $2, %edx.0 

cmpl %Sesi, sedax cmpl %Sesi, %edx.1 

JL LDL jl-taken cc.1 


Figure 5.25 shows a graphical representation of these operations for the first iteration (i = 0). As this 
diagram illustrates, the two multiplications in the loop are independent of each other. One has register 
%ecx as its source and destination (corresponding to program variable x0), while the other has register 
%ebx as its source and destination (corresponding to program variable x1). The second multiplication can 
start just one cycle after the first. This makes use of the pipelining capabilities of both the load unit and the 
integer multiplier. 


Figure 5.26 shows a graphical representation of the first three iterations (i = 0, 2, and 4) for integer multi- 
plication. For each iteration, the two multiplications must wait until the results from the previous iteration 
have been computed. Still, the machine can generate two results every four clock cycles, giving a theoretical 
CPE of 2.0. In this figure we do not take into account the limited set of integer functional units, but this 
does not prove to be a limitation for this particular procedure. 


Comparing loop unrolling alone to loop unrolling with two-way parallelism, we obtain the following per- 
formance: 


= 
Unroll x2 1.50 4.00 | 3.00 5.00 
combineé | 241 | Unroll x2, Parallelism x2 | 1.50 2.00 | 2.00 2.50 


For integer sum, parallelism does not help, as the latency of integer addition is only one clock cycle. For 
integer and floating-point product, however, we reduce the CPE by a factor of two. We are essentially 
doubling the use of the functional units. For floating-point sum, some other resource constraint is limiting 
our CPE to 2.0, rather than the theoretical value of 1.5. 


We have seen earlier that two’s complement arithmetic is commutative and associative, even when overflow 
occurs. Hence for an integer data type, the result computed by combine 6 will be identical to that computed 
by combine5 under all possible conditions. Thus, an optimizing compiler could potentially convert the 
code shown in combineé first to a two-way unrolled variant of combine5 by loop unrolling, and then 
to that of combineé6 by introducing parallelism. This is referred to as iteration splitting in the optimizing 
compiler literature. Many compilers do loop unrolling automatically, but relatively few do iteration splitting. 


On the other hand, we have seen that floating-point multiplication and addition are not associative. Thus, 
combine5 and combineé could potentially produce different results due to rounding or overflow. Imag- 
ine, for example, a case where all the elements with even indices were numbers with very large absolute 
value, while those with odd indices were very close to 0.0. Then product PE,, might overflow, or PO, 
might underflow, even though the final product P„ does not. In most real-life applications, however, such 
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Iteration 1 


10 Cycle 


Iteration 2 


15 


16 


Iteration 3 


Figure 5.26: Scheduling of Operations for Two-Way Unrolled, Two-Way Parallel Integer Multiplica- 
tion with Unlimited Resources. The multiplier can now generate two values every 4 cycles. 


5.10. ENHANCING PARALLELISM 245 


patterns are unlikely. Since most physical phenomena are continous, numerical data tend to be reasonably 
smooth and well-behaved. Even when there are discontinuities, they do not generally cause periodic patterns 
that lead to a condition such as that sketched above. It is unlikely that summing the elements in strict order 
gives fundamentally better accuracy than does summing two groups independently and then adding those 
sums together. For most applications, achieving a performance gain of 2X outweighs the risk of generating 
different results for strange data patterns. Nevertheless, a program developer should check with potential 
users to see if there are particular conditions that may cause the revised algorithm to be unacceptable. 


Just as we can unroll loops by an arbitrary factor k, we can also increase the parallelism to any factor p such 
that k is divisible by p. The following are some results for different degrees of unrolling and parallelism: 


Method Monting = 


= 


nroll x2 
nroll x2, Parallelism x2 
nroll x4 
nroll x4, Parallelism x2 
nroll x8 
nroll x8, Parallelism x2 
nroll x8, Parallelism x4 
nroll x8, Parallelism x8 
nroll x9, Parallelism x3 


7 
ú 
7 
hl 
U 
U 
ii 
i 


As this table shows, increasing the degree of loop unrolling and the degree of parallelism helps program 
performance up to some point, but it yields diminishing improvement or even worse performance when 
taken to an extreme. In the next section, we will describe two reasons for this phenomenon. 


5.10.2 Register Spilling 


The benefits of loop parallelism are limited by the ability to express the computation in assembly code. In 
particular, the IA32 instruction set only has a small number of registers to hold the values being accumulated. 
If we have a degree of parallelism p that exceeds the number of available registers, then the compiler will 
resort to spilling, storing some of the temporary values on the stack. Once this happens, the performance 
drops dramatically. This occurs for our benchmarks when we attempt to have p = 8. Our measurements 
show the performance for this case is worse than that for p = 4. 


For the case of the integer data type, there are only eight total integer registers available. Two of these (% ebp 
and %esp) point to regions of the stack. With the pointer version of the code, one of the remaining six holds 
the pointer data, and one holds the stopping position dend. This leaves only four integer registers for 
accumulating values. With the array version of the code, we require three registers to hold the loop index i, 
the stopping index limit, and the array address data. This leaves only three registers for accumulating 
values. For the floating-point data type, we need two of eight registers to hold intermediate values, leaving 
six for accumulating values. Thus, we could have a maximum parallelism of six before register spilling 
occurs. 


This limitation to eight integer and eight floating-point registers is an unfortunate artifact of the [A32 instruc- 
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tion set. The renaming scheme described previously eliminates the direct correspondence between register 
names and the actual location of the register data. In a modern processor, register names serve simply to 
identify the program values being passed between the functional units. [A32 provides only a small number 
of such identifiers, constraining the amount of parallelism that can be expressed in programs. 


The occurrence of spilling can be seen by examining the assembly code. For example, within the first loop 
for the code with eight-way parallelism we see the following instruction sequence: 


type=INT, OPER = ’*’ 


x6 in -12(%ebp), datati in %eax 


1 movl -12(%ebp) , sedi Get x6 from stack 
2 imull 24 (%eax) , sedi Multiply by data[i+6] 
3 movl %edi,-12 (%ebp) Put x6 back 


In this code, a stack location is being used to hold x6, one of the eight local variables used to accumulate 
sums. The code loads it into a register, multiplies it by one of the data elements, and stores it back to the 
same stack location. As a general rule, any time a compiled program shows evidence of register spilling 
within some heavily used inner loop, it might be preferable to rewrite the code so that fewer temporary 
values are required. These include explicitly declared local variables as well as intermediate results being 
saved to avoid recomputation. 


Practice Problem 5.4: 


The following shows the code generated from a variant of combine 6 that uses eight-way loop unrolling 
and four-way parallelism. 


1 «Ll52% 

2 addl (%eax), %ecx 

3 addl 4(%eax),%esi 
4 addl 8(%eax) , %edi 
5 addl 12(%eax) ,%ebx 
6 addl 16(%eax) ,%ecx 
7 addl 20(%eax),%esi 
8 addl 24 (%eax) , Sedi 
9 addl 28 (%eax) , Sebx 


10 addl $32,%eax 

11 addl $8, %edx 

12 cmpl -8 (%ebp) , sedx 
13 J&L B152 


A. What program variable has being spilled onto the stack? 


B. At what location on the stack? 


C. Why is this a good choice of which value to spill? 


With floating-point data, we want to keep all of the local variables in the floating-point register stack. We 
also need to keep the top of stack available for loading data from memory. This limits us to a degree of 
parallelism less than or equal to 7. 
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Method Hoag = 


combinel Abstract unoptimized 
combinel Abstract -O2 
combine2 Move vec_length 
combine3 Direct data access 
combine4 Accumulate in temporary 
combine5 Unroll x4 
Unroll x16 
combineé Unroll x2, Parallelism x2 
Unroll x4, Parallelism x2 
Unroll x8, Parallelism x4 


397 335| 27.6 %00 


Figure 5.27: Comparative Result for All Combining Routines. The best performing version is shown in 
bold face. 


5.10.3 Limits to Parallelism 


For our benchmarks, the main performance limitations are due to the capabilities of the functional units. 
As Figure 5.12 shows, the integer multiplier and the floating-point adder can only initiate a new operation 
every clock cycle. This, plus a similar limitation on the load unit limits these cases to a CPE of 1.0. The 
floating-point multiplier can only initiate a new operation every two clock cycles. This limits this case to a 
CPE of 2.0. Integer sum is limited to a CPE of 1.0, due to the limitations of the load unit. This leads to the 
following comparison between the achieved performance versus the theoretical limits: 


Method Floating Point 
+ * + * 


Achieved 1.06 1.25 | 1.50 2.00 

Theoretical Limit | 1.00 1.00 | 1.00 2.00 
In this table, we have chosen the combination of unrolling and parallelism that achieves the best perfor- 
mance for each case. We have been able to get close to the theoretical limit for integer sum and product 


and for floating-point product. Some machine-dependent factor limits the achieved CPE for floating-point 
multiplication to 1.50 rather than the theoretical limit of 1.0. 


5.11 Putting it Together: Summary of Results for Optimizing Combining 
Code 


We have now considered six versions of the combining code, some of which had multiple variants. Let us 
pause to take a look at the overall effect of this effort, and how our code would do on a different machine. 


Figure 5.27 shows the measured performance for all of our routines plus several other variants. As can 
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be seen, we achieve maximum performance for the integer sum by simply unrolling the loop many times, 
whereas we achieve maximum performance for the other operations by introducing some, but not too much, 
parallelism. The overall performance gain of 27.6X and better from our original code is quite impressive. 


5.11.1 Floating-Point Performance Anomaly 


One of the most striking features of Figure 5.27 is the dramatic drop in the cycle time for floating-point 
multiplication when we go from combine3, where the product is accumulated in memory, to combine4 
where the product is accumulated in a floating-point register. By making this small change, the code sud- 
denly runs 23.4 times faster. When an unexpected result such as this one arises, it is important to hypothesize 
what could cause this behavior and then devise a series of tests to evaluate this hypothesis. 


Examining the table, it appears that something strange is happening for the case of floating-point multipli- 
cation when we accumulate the results in memory. The performance is far worse than for floating-point 
addition or integer multiplication, even though the number of cycles for the functional units are comparable. 
On an IA32 processor, all floating-point operations are performed in extended 80-bit) precision, and the 
floating-point registers store values in this format. Only when the value in a register is written to memory is 
it converted to 32-bit (float) or 64-bit (double) format. 


Examining the data used for our measurements, the source of the problem becomes clear. The measurements 
were performed on a vector of length 1024 having element 7 equal to 1 + 1. Hence, we are attempting to 
compute 1024!, which is approximately 5.4 x 107°, Such a large number can be represented in the 
extended-precision floating-point format (it can represent numbers up to around 104932), but it far exceeds 
what can be represented as a single precision (up to around 1038) or double precision (up to around 10308). 
The single precision case overflows when we reach 1 = 34, while the double precision case overflows when 
we reach ¿ = 171. Once we reach this point, every execution of the statement 


*dest = *dest OPER val; 


in the inner loop of combine3 requires reading the value +oo, from dest, multiplying this by val to 
get 十 co and then storing this back at dest. Evidently, some part of this computation requires much longer 
than the normal five clock cycles required by floating-point multiplication. In fact, running measurements 
on this operation we find it takes between 110 and 120 cycles to multiply a number by infinity. Most likely, 
the hardware detected this as a special case and issued a trap that caused a software routine to perform the 
actual computation. The CPU designers felt such an occurrence would be sufficiently rare that they did not 
need to deal with it as part of the hardware design. Similar behavior could happen with underflow. 


When we run the benchmarks on data for which every vector element equals 1.0, combine3 achieves a 
CPE of 10.00 cycles for both double and single precision. This is much more in line with the times measured 
for the other data types and operations, and comparable to the time for combine4. 


This example illustrates one of the challenges of evaluating program performance. Measurements can be 
strongly affected by characteristics of the data and operating conditions that initially seem insignificant. 
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Method outing a 


combinel Abstract unoptimized 
combinel Abstract -O2 
combine2 Move vec_length 
combine3 Direct data access 


combine4 Accumulate in temporary 
combine5 Unroll x4 
Unroll x 16 


combineé Unroll x4, Parallelism x2 
Unroll x8, Parallelism x4 
Unroll x8, Parallelism x8 


362 4| 23 267 


Figure 5.28: Comparative Result for All Combining Routines Running on a Compaq Alpha 21164 
Processor. The same general optimization techniques are useful on this machine as well. 


5.11.2 Changing Platforms 


Although we presented our optimization strategies in the context of a specific machine and compiler, the 
general principles also apply to other machine and compiler combinations. Of course, the optimal strategy 
may be very machine dependent. As an example, Figure 5.28 shows performance results for a Compaq 
Alpha 21164 processor for conditions comparable to those for a Pentium III shown in Figure 5.27. These 
measurements were taken for code generated by the Compaq C compiler, which applies more advanced 
optimizations than GCC. Observe how the cycle times generally decline as we move down the table, just 
as they did for the other machine. We see that we can effectively exploit a higher (eight-way) degree of 
parallelism, because the Alpha has 32 integer and 32 floating-point registers. As this example illustrates, the 
general principles of program optimization apply to a variety of different machines, even if the particular 
combination of features leading to optimum performance depend on the specific machine. 


5.12 Branch Prediction and Misprediction Penalties 


As we have mentioned, modern processors work well ahead of the currently executing instructions, read- 
ing new instructions from memory, and decoding them to determine what operations to perform on what 
operands. This instruction pipelining works well as long as the instructions follow in a simple sequence. 
When a branch is encountered, however, the processor must guess which way the branch will go. For the 
case of a conditional jump, this means predicting whether or not the branch will be taken. For an instruction 
such as an indirect jump (as we saw in the code to jump to an address specified by a jump table entry) or 
a procedure return, this means predicting the target address. In this discussion, we focus on conditional 
branches. 


In a processor that employs speculative execution, the processor begins executing the instructions at the 
predicted branch target. It does this in a way that avoids modifying any actual register or memory locations 


250 CHAPTER 5. OPTIMIZING PROGRAM PERFORMANCE 


1 absval: 
2 pushl %ebp 
3 movl sesp, sebp 
de/opt/absval 4 movl 8(%ebp), %eax Get val 
COQRLOPYQOSKARG 5 testl %eax, teax Test it 
1 int absval(int val) i jge -L3 TE >07: gotoend 
2 { 7 negl %eax Else, negate it 
3 return (val<0) ? -val : val; S aes end: 
4} 9 movl sebp, sesp 
10 popl %ebp 
code/opt/absval.c at ret 
(a) C code. (b) Assembly code. 


Figure 5.29: Absolute Value Code We use this to measure the cost of branch misprediction. 


until the actual outcome has been determined. If the prediction is correct, the processor simply “commits” 
the results of the speculatively executed instructions by storing them in registers or memory. If the prediction 
is incorrect, the processor must discard all of the speculatively executed results, and restart the instruction 
fetch process at the correct location. A significant branch penalty is incurred in doing this, because the 
instruction pipeline must be refilled before useful results are generated. 


Once upon a time, the technology required to support speculative execution was considered too costly and 
exotic for all but the most advanced supercomputers. Since around 1998, integrated circuit technology has 
made it possible to put so much circuitry on one chip that some can be dedicated to supporting branch 
prediction and speculative execution. At this point, almost every processor in a desktop or server machine 
supports speculative execution. 


In optimizing our combining procedure, we did not observe any performance limitation imposed by the loop 
structure. That is, it appeared that the only limiting factor to performance was due to the functional units. 
For this procedure, the processor was generally able to predict the direction of the branch at the end of the 
loop. In fact, if it predicted the branch will always be taken, the processor would be correct on all but the 
final iteration. 


Many schemes have been devised for predicting branches, and many studies have been made on their per- 
formance. A common heuristic is to predict that any branch to a lower address will be taken, while any 
branch to a higher address will not be taken. Branches to lower addresses are used to close loops, and since 
loops are usually executed many times, predicting these branches as being taken is generally a good idea. 
Forward branches, on the other hand, are used for conditional computation. Experiments have shown that 
the backward-taken, forward-not-taken heuristic is correct around 65% of the time. Predicting all branches 
as being taken, on the other other hand, has a success rate of only around 60%. Far more sophisticated 
strategies have been devised, requiring greater amounts of hardware. For example, the Intel Pentium II and 
II processors use a branch prediction strategy that is claimed to be correct between 90% and 95% of the 
time [29]. 


We can run experiments to test the branch predication capability of a processor and the cost of a mispredic- 
tion. We use the absolute value routine shown in Figure 5.29 as our test case. This figure also shows the 
compiled form. For nonnegative arguments, the branch will be taken to skip over the negation instruction. 
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We time this function computing the absolute value of every element in an array, with the array consisting 
of various patterns of of +1s and —1s. For regular patterns (e.g., all +1s, all —1s, or alternating +1 and 
—1s), we find the function requires between 13.01 and 13.41 cycles. We use this as our estimate of the 
performance with perfect branch condition. On an array set to random patterns of +1s and —1s, we find 
that the function requires 20.32 cycles. One principle of random processes is that no matter what strategy 
one uses to guess a sequence of values, if the underlying process is truly random, then we will be right only 
50% of the time. For example, no matter what strategy one uses to guess the outcome of a coin toss, as long 
as the coin toss is fair, our probability of success is only 0.5. Thus, we can see that a mispredicted branch 
with this processor incurs a penalty of around 14 clock cycles, since a misprediction rate of 50% causes the 
function to run an average of 7 cycles slower. This means that calls to absval require between 13 and 27 
cycles depending on the success of the branch predictor. 


This penalty of 14 cycles is quite large. For example, if our prediction accuracy were only 65%, then the 
processor would waste, on average, 14 x 0.35 = 4.9 cycles for every branch instruction. Even with the 90 
to 95% prediction accuracy claimed for the Pentium II and HI, around one cycle is wasted for every branch 
due to mispredictions. Studies of actual programs show that branches constitute around 14 to 16% of all 
executed instructions in typical “integer” programs (i.e., those that do not process numeric data), and around 
3 to 12% of all executed instructions in typical numeric programs[31, Sect. 3.5]. Thus, any wasted time due 
to inefficient branch handling can have a significant effect on processor performance. 


Many data dependent branches are not at all predictable. For example, there is no basis for guessing whether 
an argument to our absolute value routine will be positive or negative. To improve performance on code 
involving conditional evaluation, many processor designs have been extended to include conditional move 
instructions. These instructions allow some forms of conditionals to be implemented without any branch 
instructions. 

With the [A32 instruction set, a number of different cmov instructions were added starting with the Pen- 


tiumPro. These are supported by all recent Intel and Intel-compatible processors. These instructions perform 
an operation similar to the C code: 


if (COND) 


a Ve 


where y is the source operand and x is the destination operand. The condition COND determining whether 
the copy operation takes place is based on some combination of condition code values, similar to the test and 
conditional jump instructions. As an example, the cmov11 instruction performs a copy when the condition 
codes indicate a value less than zero. Note that the first ‘1’ of this instruction indicates “less,” while the 
second is the GAS suffix for long word. 


The following assembly code shows how to implement absolute value with conditional move. 


al movl 8(%ebp), seax Get val as result 
2 movl %eax, Sedx Copy to %edx 

3 negl %edx Negate %edx 

4 testl Seax, Seax Test val 


Conditionally move 人 eax to %eax 
5 cmovll %edx, eax If < 0, copy %edx to result 
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As this code shows, the strategy is to set val as a return value, compute -val, and conditionally move it to 
register eax to change the return value when val is negative. Our measurements of this code shows that 
it runs for 13.7 cycles regardless of the data patterns. This clearly yields better overall performance than a 
procedure that requires between 13 and 27 cycles. 


Practice Problem 5.5: 


A friend of yours has written an optimizing compiler that makes use of conditional move instructions. 
You try compiling the following C code: 


1 /* Dereference pointer or return 0 if null */ 
2 int deref(int *xp) 

3 { 

4 return xp ? *xp : 0; 
5 


The compiler generates the following code for the body of the procedure. 


1 movl 8(%ebp) , sedx Get xp 

2 movl (%edx) ,%eax Get *xp as result 

3 testl %edx, tedx Test xp 

4 cmovll %edx, Seax If 0, copy 0 to result 


Explain why this code does not provide a valid implementation of deref 


The current version of GCC does not generate any code using conditional moves. Due to a desire to remain 
compatible with earlier 486 and Pentium processors, the compiler does not take advantage of these new 
features. In our experiments, we used the handwritten assembly code shown above. A version using GCC’s 
facility to embed assembly code within a C program (Section 3.15) required 17.1 cycles due to poorer 
quality code generation. 


Unfortunately, there is not much a C programmer can do to improve the branch performance of a program, 
except to recognize that data-dependent branches incur a high cost in terms of performance. Beyond this, 
the programmer has little control over the detailed branch structure generated by the compiler, and it is hard 
to make branches more predictable. Ultimately, we must rely on a combination of good code generation by 
the compiler to minimize the use of conditional branches, and effective branch prediction by the processor 
to reduce the number of branch mispredictions. 


5.13 Understanding Memory Performance 


All of the code we have written, and all the tests we have run, require relatively small amounts of memory. 
For example, the combining routines were measured over vectors of length 1024, requiring no more than 
8,096 bytes of data. All modern processors contain one or more cache memories to provide fast access to 
such small amounts of memory. All of the timings in Figure 5.12 assume that the data being read or written 
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code/opt/list.c 


typedef struct ELE { 
struct ELE *next; 
int data; 

} list_ele, *list_ptr; 


static int list_len(list_ptr ls) 
{ 


int len = 0; 


for (; ls; ls = ls->next) 
aul len++; 
12 return len; 


code/opt/list.c 


Figure 5.30: Linked List Functions. These illustrate the latency of the load operation. 


is contained in cache. In Chapter 6, we go into much more detail about how caches work and how to write 
code that makes best use of the cache. 


In this section, we will further investigate the performance of load and store operations while maintaining 
the assumption that the data being read or written are held in cache. As Figure 5.12 shows, both of these 
units have a latency of 3, and an issue time of 1. All of our programs so far have used only load operations, 
and they have had the property that the address of one load depended on incrementing some register, rather 
than as the result of another load. Thus, as shown in Figures 5.15 to 5.18, 5.21 and 5.26, the load operations 
could take advantage of pipelining to initiate new load operations on every cycle. The relatively long latency 
of the load operation has not had any adverse affect on program performance. 


5.13.1 Load Latency 


As an example of code whose performance is constrained by the latency of the load operation, consider the 
function 1ist_len, shown in Figure 5.30. This function computes the length of a linked list. In the loop 
of this function, each successive value of variable 1s depends on the value read by the pointer reference 
ls->next. Our measurements show that function 1ist_len has a CPE of 3.00, which we claim is a 
direct reflection of the latency of the load operation. To see this, consider the assembly code for the loop, 
and the translation of its first iteration into operations: 


Assembly Instructions Execution Unit Operations 


sL2 T: 
incl %eax incl seax.0 — %Seax.1 


movl (%edx),%edx | load (%edx.0) > tedx.1 
testl %Sedx, Sedx testl %tedx.1,%edx.1 — cc.1 
jne .L27 jne-taken cc.1 
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sedx.o) v + 
1 * incl ) Seax.1 
2 load Seax.2 } 
3 GESI tee. 
Sedx.1 [> 
4 cerl Ja 
5 ( jne W 0 load | 
6 lteration 1 | 
Vv Sedx.2 
testl 
7 Sere 
jne ill 
8 
9 lteration2 | 
10 Cycle meee 
jne Cec | 
11 
Iteration 3 


Figure 5.31: Scheduling of Operations for List Length Function. The latency of the load operation limits 
the CPE to a minimum of 3.0. 
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code/opt/copy.c 
1 /* Set element of array to 0 */ 
2 static void array_clear(int *src, int *dest, int n) 
3 
4 Int. a7 
5 
6 for (i = 0; i < n; itt) 
7 dest[i] = 0; 
8 } 
9 
0 /* Set elements of array to 0, unrolling by 8 */ 
1 static void array_clear_8(int *src, int *dest, int n) 
2 { 
3 int. a 
4 int len =n - 7; 
5 
6 for (i = 0; i < len; it=8) { 
7 dest[i] = 0; 
8 dest[i+1] = 0; 
9 dest [it+2] = 0; 
20 dest [it+3] = 0; 
21 dest [it4] = 0; 
22 dest [it+5] = 0; 
23 dest [it+6] = 0; 
24 dest [it+7] = 0; 
25 } 
26 for (; i < n; itt) 
vag) dest[i] = 0; 
28 } 
code/opt/copy.c 


Figure 5.32: Functions to Clear Array. These illustrate the pipelining of the store operation. 


Each successive value of register %edx depends on the result of a load operation having %edx as an operand. 
Figure 5.31 shows the scheduling of operations for the first three iterations of this function. As can be seen, 
the latency of the load operation limits the CPE to 3.0. 


5.13.2 Store Latency 


In all of our examples so far, we have interacted with the memory only by using the load operation to 
read from a memory location into a register. Its counterpart, the store operation, writes a register value to 
memory. As Figure 5.12 indicates, this operation also has a nominal latency of three cycles, and an issue 
time of one cycle. However, its behavior, and its interactions with load operations, involve several subtle 
issues. 


As with the load operation, in most cases the store operation can operate in a fully pipelined mode, beginning 
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code/opt/copy.c 
1 /* Write to dest, read from src */ 
2 static void write_read(int *src, int *dest, int n) 
3 
4 int cnt = n; 
5 int val = 0; 
6 
了 while (cnt--) { 
8 *dest = val; 
9 val = (*src)t+1; 
10 } 
11 } 
code/opt/copy.c 


Example A: write read(&a[0],é&a[1],3) 


Initial Iter. 1 lter. 2 Iter. 3 

ent 3 2 1 0 
al[-10] 17 ]||[-10] o |]\[-10] -9 ]}|[-10]| -9 | 

val 0 -9 -9 -9 


Example B: write read(&a[0],&a[0],3) 


Initial Iter. 1 lter. 2 lter. 3 

ent 3 2 1 0 
引 [-10| 17 | | 0 | 17 | | 1 az | 2 | 17 | 

val 0 1 2 3 


Figure 5.33: Code to Write and Read Memory Locations, Along with Illustrative Executions. This 
function highlights the interactions between stores and loads when arguments src and dest are equal. 


anew store on every cycle. For example, consider the functions shown in Figure 5.32 that set the elements 
of an array dest of length n to zero. Our measurements for the first version show a CPE of 2.00. Since 
each iteration requires a store operation, it is clear that the processor can begin a new store operation at 
least once every two cycles. To probe further, we try unrolling the loop eight times, as shown in the code 
for array_clear_8. For this one we measure a CPE of 1.25. That is, each iteration requires around ten 
cycles and issues eight store operations. Thus, we have nearly achieved the optimum limit of one new store 
operation per cycle. 


Unlike the other operations we have considered so far, the store operation does not affect any register values. 
Thus, by their very nature a series of store operations must be independent from each other. In fact, only 
a load operation is affected by the result of a store operation, since only a load can read back the memory 
location that has been written by the store. The function write_read shown in Figure 5.33 illustrates 
the potential interactions between loads and stores. This figure also shows two example executions of this 
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Load Unit Store Unit 
Store Buffer 
Address Data 
m 


Address 


Data Cache 


Figure 5.34: Detail of Load and Store Units. The store unit maintains a buffer of pending writes. The load 
unit must check its address with those in the store unit to detect a write/read dependency. 


function, when it is called for a two-element array a, with initial contents —10 and 17, and with argument 
cnt equal to 3. These executions illustrate some subtleties of the load and store operations. 


In example A of Figure 5.33, argument src is a pointer to array element a [0], while dest is a pointer 
to array element a [1]. In this case, each load by the pointer reference *src will yield the value —10. 
Hence, after two iterations, the array elements will remain fixed at —10 and —9, respectively. The result of 
the read from src is not affected by the write to dest. Measuring this example, but over a larger number 
of iterations, gives a CPE of 2.00. 


In example B of Figure 5.33(a), both arguments src and dest are pointers to array element a [0] . In this 
case, each load by the pointer reference *src will yield the value stored by the previous execution of the 
pointer reference *dest. As a consequence, a series of ascending values will be stored in this location. In 
general, if function write_read is called with arguments src and dest pointing to the same memory 
location, and with argument cnt having some value n > 0, the net effect is to set the location to n — 1. 
This example illustrates a phenomenon we will call write/read dependency—the outcome of a memory read 
depends on a very recent memory write. Our performance measurements show that example B has a CPE 
of 6.00. The write/read dependency causes a slowdown in the processing. 


To see how the processor can distinguish between these two cases and why one runs slower than another, 
we must take a more detailed look at the load and store execution units, as shown in Figure 5.34. The store 
unit contains a store buffer containing the addresses and data of the store operations that have been issued 
to the store unit, but have not yet been completed, where completion involves updating the data cache. This 
buffer is provided so that a series of store operations can be executed without having to wait for each one to 
update the cache. When a load operation occurs, it must check the entries in the store buffer for matching 
addresses. If it finds a match, it retrieves the corresponding data entry as the result of the load operation. 


The assembly code for the inner loop, and its translation into operations during the first iteration, is as 
follows: 
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Seax.0 
Sedx.0] vy 
1 FE] decl )|seax.1 
icc. 

— | store|| store heed L | 一 
2 data || addr ae Joc Ea decl )| seax.2 

o] store gi d 
3 load jnc 

= Sedx.la addr J | 
4 incl 

| Sedx.1b vy 2a DA = 
5 Iteration 1 incl 

store sedx.2b > 
6 Cycle data 
7 
Iteration 2 


Figure 5.35: Timing of write_read for Example A. The store and load operations have different ad- 
dresses, and so the load can proceed without waiting for the store. 


Assembly Instructions Execution Unit Operations 


“L332 
movl %edx, (Secx) | storeaddr (%ecx) 
storedata %edx.0 


movl (%ebx),%edx | load (%ebx) > %Sedx.la 
incl %edx incl %Sedx.la > %Sedx.1b 
decl %eax decl Seax.0 > Seax.1 
jnc .L32 jnc-taken cc.1 


Observe that the instruction movl %edx, (%ecx) is translated into two operations: the storeaddr 
instruction computes the address for the store operation, creates an entry in the store buffer, and sets the 
address field for that entry. The st oredata instruction sets the data field for the entry. Since there is only 
one store unit, and store operations are processed in program order, there is no ambiguity about how the two 
operations match up. As we will see, the fact that these two computations are performed independently can 
be important to program performance. 


Figure 5.35 shows the timing of the operations for the first two iterations of write _read for the case of 
example A. As indicated by the dotted line between the storeaddr and load operations, the store- 
addr operation creates an entry in the store buffer, which is then checked by the load. Since these are 
unequal, the load proceeds to read the data from the cache. Even though the store operation has not been 
completed, the processor can detect that it will affect a different memory location than the load is trying to 
read. This process is repeated on the second iteration as well. Here we can see that the st oredata oper- 
ation must wait until the result from the previous iteration has been loaded and incremented. Long before 
this, the st oreaddr operation and the load operations can match up their adddresses, determine they are 
different, and allow the load to proceed. In our computation graph, we show the load for the second iteration 
beginning just one cycle after the load from the first. If continued for more iterations, we would find the 
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Figure 5.36: Timing of write_read for Example B. The store and load operations have the same address, 
and hence the load must wait until it can get the result from the store. 


graph indicates a CPE of 1.0. Evidentally, some other resource constraint limits the actual performance to a 
CPE of 2.0. 


Figure 5.36 shows the timing of the operations for the first two iterations of write_read for the case 
of example B. Again, the dotted line between the storeaddr and load operations indicates that the 
the storeaddr operation creates an entry in the store buffer which is then checked by the load. Since 
these are equal, the load must wait until the storedata operation has completed, and then it gets the data 
from the store buffer. This waiting is indicated in the graph by a much more elongated box for the load 
operation. In addition, we show a dashed arrow from the st oredata to the load operations to indicate 
that the result of the storedata is passed to the load as its result. Our timings of these operations are 
drawn to reflect the measured CPE of 6.0. Exactly how this timing arises is not totally clear, however, and 
so these figures are intended to be more illustrative than factual. In general, the processor/memory interface 
is one of the most complex portions of a processor design. Without access to detailed documentation and 
machine analysis tools, we can only give a hypothetical description of the actual behavior. 


As these two examples show, the implementation of memory operations involves many subtleties. With 
operations on registers, the processor can determine which instructions will affect which others as they are 
being decoded into operations. With memory operations, on the other hand, the processor cannot predict 
which will affect which others until the load and store addresses have been computed. Since memory 


200 CHAPTER 5. OPTIMIZING PROGRAM PERFORMANCE 


operations make up a significant fraction of the program, the memory subsystem is optimized to run with 
greater parallelism for independent memory operations. 


Practice Problem 5.6: 


As another example of code with potential load-store interactions, consider the following function to 
copy the contents of one array to another: 


1 static void copy_array(int *src, int *dest, int n) 
2 { 

3 ine- ‘dis 

4 

5 for (i = 0; i < n; itt) 

6 dest[i] = src[i]; 

7 


} 


Suppose a is an array of length 1000 initialized so that each element a [2] equals 2. 


A. What would be the effect of the call copy_array (a+1,a, 999)? 
B. What would be the effect of the call copy_array (a,a+1, 999)? 


C. Our performance measurements indicate that the call of part A has a CPE of 3.00, while the call 
of part B has a CPE of 5.00. To what factor do you attribute this performance difference? 


D. What performance would you expect for the call copy_array (a,a, 999)? 


5.14 Life in the Real World: Performance Improvement Techniques 


Although we have only considered a limited set of applications, we can draw important lessons on how to 
write efficient code. We have described a number of basic strategies for optimizing program performance: 


1. High-level design. Choose appropriate algorithms and data structures for the problem at hand. Be es- 
pecially vigilant to avoid algorithms or coding techniques that yield asymptotically poor performance. 


2. Basic coding principles. Avoid optimization blockers so that a compiler can generate efficient code. 


(a) Eliminate excessive function calls. Move computations out of loops when possible. Consider 
selective compromises of program modularity to gain greater efficiency. 

(b) Eliminate unnecessary memory references. Introduce temporary variables to hold intermediate 
results. Store a result in an array or global variable only when the final value has been computed. 


3. Low-level optimizations. 


(a) Try various forms of pointer versus array code. 
(b) Reduce loop overhead by unrolling loops. 


(c) Find ways to make use of the pipelined functional units by techniques such as iteration splitting. 
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A final word of advice to the reader is to be careful to avoid expending effort on misleading results. One 
useful technique is to use checking code to test each version of the code as it is being optimized to make sure 
no bugs are introduced during this process. Checking code applies a series of tests to the program and makes 
sure it obtains the desired results. It is very easy to make mistakes when one is introducing new variables, 
changing loop bounds, and making the code more complex overall. In addition, it is important to notice any 
unusual or unexpected changes in performance. As we have shown, the selection of the benchmark data can 
make a big difference in performance comparisons due to performance anomalies, and because we are only 
executing short instruction sequences. 


5.15 Identifying and Eliminating Performance Bottlenecks 


Up to this point, we have only considered optimizing small programs, where there is some clear place in the 
program that requires optimization. When working with large programs, even knowing where to focus our 
optimizations efforts can be difficult. In this section we describe how to use code profilers, analysis tools 
that collect performance data about a program as it executes. We also present a general principle of system 
optimization known as Amdahl’s Law. 


5.15.1 Program Profiling 


Program profiling involves running a version of a program in which instrumentation code has been incor- 
porated to determine how much time the different parts of the program require. It can be very useful for 
identifying the parts of a program on which we should focus our optimization efforts. One strength of 
profiling is that it can be performed while running the actual program on realistic benchmark data. 


Unix systems provide the profiling program GPROF. This program generates two forms of information. 
First, it determines how much CPU time was spent for each of the functions in the program. Second, it 
computes a count of how many times each function gets called, categorized by which function performs the 
call. Both forms of information can be quite useful. The timings give a sense of the relative importance of 
the different functions in determining the overall run time. The calling information allows us to understand 
the dynamic behavior of the program. 


Profiling with GPROF requires three steps. We show this for a C program prog.c, to be running with 
command line argument file.txt: 


1. The program must be compiled and linked for profiling. With GCC (and other C compilers) this 
involves simply including the run-time flag ‘-pg’ on the command line: 


unix> gcc -02 -pg prog.c -oO prog 
2. The program is then executed as usual: 
unix> ./prog file.txt 


It runs slightly (up to a factor of two) slower than normal, but otherwise the only difference is that it 
generates a file gmon . out. 
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3. GPROF is invoked to analyze the data in gmon . out. 
unix> gprof prog 


The first part of the profile report lists the times spent executing the different functions, sorted in descending 
order. As an example, the following shows this part of the report for the first three functions in a program: 


% cumulative self self total 

time seconds seconds calls ms/call ms/call name 

85.62 7.80 7.80 1 7800.00 7800.00 sort_words 
6.59 8.40 0.60 946596 0.00 0.00 find_ele_rec 
4.50 8.81 0.41 946596 0.00 0.00 lowerl 


Each row represents the time spent for all calls to some function. The first column indicates the percentage 
of the overall time spent on the function. The second shows the cumulative time spent by the functions up 
to and including the one on this row. The third shows the time spent on this particular function, and the 
fourth shows how many times it was called (not counting recursive calls). In our example, the function 
sort_words was called only once, but this single call required 7.80 seconds, while the function lower1 
was called 946,596 times, requiring a total of 0.41 seconds. 


The second part of the profile report shows the calling history of the function. The following is the history 
for a recursive function find_ele_rec: 


4872758 find_ele_rec [5] 
0.60 0.01 946596/946596 insert_string [4] 
[5] 6.7 0.60 0.01 946596+4872758 find_ele_rec [5] 
0.00 0.01 26946/26946 save_string [9] 
0.00 0.00 26946/26946 new_ele [11] 
4872758 find_ele_rec [5] 


This history shows both the functions that called find_ele_rec, as well as the functions that it called. In 

the upper part, we find that the function was actually called 5,819,354 times (shown as “946596+4872758”)— 
4,872,758 times by itself, and 946,596 times by function insert_string (which itself was called 
946,596 times). Function £ind_ele_recin turn called two other functions: save_string and new_ele, 
each a total of 26,946 times. 


From this calling information, we can often infer useful information about the program behavior. For exam- 
ple, the function find_ele_rec is a recursive procedure that scans a linked list looking for a particular 
string. Given that the ratio of recursive to top-level calls was 5.15, we can infer that it required scanning an 
average of around 6 elements each time. 


Some properties of GPROF are worth noting: 


e The timing is not very precise. It is based on a simple interval counting scheme, as will be discussed 
in Chapter 9. In brief, the compiled program maintains a counter for each function recording the 
time spent executing that function. The operating system causes the program to be interrupted at 
some regular time interval ô. Typical values of ô range between 1.0 and 10.0 milliseconds. It then 
determines what function the program was executing when the interrupt occurs and increments the 
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counter for that function by 6. Of course, it may happen that this function just started executing and 
will shortly be completed, but it is assigned the full cost of the execution since the previous interrupt. 
Some other function may run between two interrupts and therefore not be charged any time at all. 


Over a long duration, this scheme works reasonably well. Statistically, every function should be 
charged according to the relative time spent executing it. For programs that run for less than around 
one second, however, the numbers should be viewed as only rough estimates. 


The calling information is quite reliable. The compiled program maintains a counter for each combi- 
nation of caller and callee. The appropriate counter is incremented every time a procedure is called. 


By default, the timings for library functions are not shown. Instead, these times are incorporated into 
the times for the calling functions. 


5.15.2 Using a Profiler to Guide Optimization 


As an example of using a profiler to guide program optimization, we created an application that involves 
several different tasks and data structures. This application reads a text file, creates a table of unique words 
and how many times each word occurs, and then sorts the words in descending order of occurrence. As 
a benchmark, we ran it on a file consisting of the complete works of William Shakespeare. From this, we 
determined that Shakespeare wrote a total of 946,596 words, of which 26,946 are unique. The most common 
word was “the,” occurring 29,801 times. The word “love” occurs 2249 times, while “death” occurs 933. 


Our program consists of the following parts. We created a series of versions, starting with naive algorithms 
for the different parts, and then replacing them with more sophisticated ones: 


1. 


Each word is read from the file and converted to lower case. Our initial version used the function 
lowerl (Figure 5.7), which we know to have quadratic complexity. 


. A hash function is applied to the string to create a number between 0 and s — 1, for a hash table with 


s buckets. Our initial function simply summed the ASCII codes for the characters modulo s. 


. Each hash bucket is organized as a linked list. The program scans down this list looking for a matching 


entry. If one is found, the frequency for this word is incremented. Otherwise, a new list element is 
created. Our initial version performed this operation recursively, inserting new elements at the end of 
the list. 


. Once the table has been generated, we sort all of the elements according to the frequencies. Our initial 


version used insertion sort. 


Figure 5.37 shows the profile results for different versions of our word-frequency analysis program. For 
each version, we divide the time into five categories: 


Sort Sorting the words by frequency. 


List Scanning the linked list for a matching word, inserting a new element if necessary. 


Lower Converting the string to lower case. 
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CPU Secs. 


O- NOO A OONO OO 


Initial Quicksort lter First Iter Last Big Table Better Hash Linear Lower 


(a) All versions. 


CPU Seconds 
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0.8 
0.6 
0.4 
0.2 
0 


Quicksort Iter First Iter Last Big Table Better Hash Linear Lower 


(b) All but the slowest version. 


Figure 5.37: Profile Results for Different Version of Word Frequency Counting Program. Time is 
divided according to the different major operations in the program. 
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Hash Computing the hash function. 


Rest The sum of all other functions. 


As part (a) of the figure shows, our initial version requires over 9 seconds, with most of the time spent 
sorting. This is not surprising, since insertion sort has quadratic complexity, and the program sorted nearly 
27,000 values. 


In our next version, we performed sorting using the library function qsort, which is based on the quicksort 
algorithm. This version is labeled “Quicksort” in the figure. The more efficient sorting algorithm reduces 
the time spent sorting to become negligible, and the overall run time to around 1.2 seconds. Part (b) of the 
figure shows the times for the remaining version on a scale where we can see them better. 


With improved sorting, we now find that list scanning becomes the bottleneck. Thinking that the inefficiency 
is due to the recursive structure of the function, we replaced it by an iterative one, shown as “Iter First.” 
Surprisingly, the run time increases to around 1.8 seconds. On closer study, we find a subtle difference 
between the two list functions. The recursive version inserted new elements at the end of the list, while the 
iterative one inserted them at the front. To maximize performance, we want the most frequent words to occur 
near the beginnings of the lists. That way, the function will quickly locate the common cases. Assuming 
words are spread uniformly throughout the document, we would expect the first occurrence of a frequent 
one come before that of a less frequent one. By inserting new words at the end, the first function tended to 
order words in descending order of frequency, while the second function tended to do just the opposite. We 
therefore created a third list scanning function that uses iteration but inserts new elements at the end of this 
list. With this version, shown as “Iter Last,” the time dropped to around 1.0 seconds, just slightly better than 
with the recursive version. 


Next, we consider the hash table structure. The initial version had only 1021 buckets (typically, the num- 
ber of buckets is chosen to be a prime number to enhance the ability of the hash function to distribute 
keys uniformly among the buckets). For a table with 26,946 entries, this would imply an average load 
of 26946/1007 = 26.4. That explains why so much of the time is spent performing list operations—the 
searches involve testing a significant number of candidate words. It also explains why the performance is so 
sensitive to the list ordering. We then increased the number of buckets to 10,007, reducing the average load 
to 2.70. Oddly enough, however, our overall run time increased to 1.11 seconds. The profile results indicate 
that this additional time was mostly spent with the lower-case conversion routine, although this is highly 
unlikely. Our run times are sufficiently short that we cannot expect very high accuracy with these timings. 


We hypothesized that the poor performance with a larger table was due to a poor choice of hash function. 
Simply summing the character codes does not produce a very wide range of values and does not differentiate 
according to the ordering of the characters. For example, the words “god” and “dog” would hash to location 
147 + 157 + 144 = 448, since they contain the same characters. The word “foe” would also hash to this 
location, since 146 + 157 + 145 = 448. We switched to a hash function that uses shift and EXCLUSIVE-OR 
operations. With this version, shown as “Better Hash,” the time drops to 0.84 seconds. A more systematic 
approach would be to study the distribution of keys among the buckets more carefully, making sure that it 
comes close to what one would expect if the hash function had a uniform output distribution. 


Finally, we have reduced the run time to the point where one half of the time is spent performing lower-case 
conversion. We have already seen that function lower1 has very poor performance, especially for long 
strings. The words in this document are short enough to avoid the disasterous consequences of quadratic pe- 


266 CHAPTER 5. OPTIMIZING PROGRAM PERFORMANCE 


formance; the longest word (“honorificabilitudinitatibus”’) is 27 characters long. Still, switching to lower2, 
shown as “Linear Lower’ yields a significant performance, with the overall time dropping to 0.52 seconds. 


With this exercise, we have shown that code profiling can help drop the time required for a simple application 
from 9.11 seconds down to 0.52—a factor of 17.5 improvement. The profiler helps us focus our attentionon 
the most time-consuming parts of the program and also provides useful information about the procedure call 
structure. 


We can see that profiling is a useful tool to have in the toolbox, but it should not be the only one. The 
timing measurements are imperfect, especially for shorter (under one second) run times. The results apply 
only to the particular data tested. For example, if we had run the original function on data consisting of a 
smaller number of longer strings, we would have found that the lower-case conversion routine was the major 
performance bottleneck. Even worse, if only profiled documents with short words, we might never never 
detect hidden performance killers such as the quadratic performance of lower1. In general, profiling can 
help us optimize for typical cases, assuming we run the program on representative data, but we should also 
make sure the program will have respectable performance for all possible cases. This is mainly involves 
avoiding algorithms (such as insertion sort) and bad programming practices (such as Lower1) that yield 
poor asymptotic performance. 


5.15.3 Amdahl’s Law 


Gene Amdahl, one of the early pioneers in computing, made a simple, but insightful observation about the 
effectiveness of improving the performance of one part of a system. This observation is therefore called 
Amdahl’s Law. The main idea is that when we speed up one part of a system, the effect on the overall 
system performance depends on both how significant this part was and how much it sped up. Consider a 
system where executing some application requires time To1g. Suppose, some part of the system requires 
a fraction a of this time, and that we improve its performance by a factor of k. That is, the component 
originally required time a7oid, and it now requires time (WT oq) /k. The overall execution time will be: 


Trew = (1 = a)T od Tp (aT oa) /Ek 
= Toull — a) +a/k]. 


From this, we can compute the speedup 9 = Tota /Tnew as: 


1 


As an example, consider the case where a part of the system that initially consumed 60% of the time 
(a = 0.6) is sped up by a factor of 3 (k = 10). Then we get a speedup of 1/[0.4 + 0.6/3] = 1.67. 
Thus, even though we made a substantial improvement to a major part of the system, our net speedup was 
significantly less. This is the major insight of Amdahl’s Law—to significantly speed up the entire system, 
we must improve the speed of a very large fraction of the overall system. 


Practice Problem 5.7: 


The marketing department at your company has promised your customers that the next software re- 
lease will show a 2X performance improvement. You have been assigned the task of delivering on that 
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promise. You have determined that only 80% of the system can be improved. How much (i.e., what 
value of k) would you need to improve this part to meet the overall performance target? 


One interesting special case of Amdahl’s Law is to consider the case where k = oo. That is, we are able 
to take some part of the system and speed it up to the point where it takes a negligible amount of time. We 
then get 


1 

So, for example, if we can speed up 60% of the system to the point where it requires close to no time, our net 
speedup will still only be 1/0.4 = 2.5. We saw this performance with our dictionary program as we replaced 
insertion sort by quicksort. The initial version spent 7.8 of its 9.1 seconds performing insertion sort, giving 
a = .86. With quicksort, the time spent sorting becomes negligible, giving a predicted speedup of 7.1. In 
fact the actual speedup was higher: 9.11/1.22 = 7.5, due to inaccuracies in the profiling measurements for 
the initial version. We were able to gain a large speedup because sorting constituted a very large fraction of 
the overall execution time. 


Amdahl’s Law describes a general principle for improving any process. In addition to applying to speeding 
up computer systems, it can guide company trying to reduce the cost of manufacturing razor blades, or to 
a student trying to improve his or her gradepoint average. Perhaps it is most meaningful in the world of 
computers, where we routinely improve performance by factors of two or more. Such high factors can only 
be obtained by optimizing a large part of the system. 


5.16 Summary 


Although most presentations on code optimization describe how compilers can generate efficient code, much 
can be done by an application programmer to assist the compiler in this task. No compiler can replace an 
inefficient algorithm or data structure by a good one, and so these aspects of program design should remain 
a primary concern for programmers. We have also see that optimization blockers, such as memory aliasing 
and procedure calls, seriously restrict the ability of compilers to perform extensive optimizations. Again, 
the programmer must take primary responsibility in eliminating these. 


Beyond this, we have studied a series of techniques, including loop unrolling, iteration splitting, and pointer 
arithmetic. As we get deeper into the optimization, it becomes important to study the generated assembly 
code, and to try to understand how the computation is being performed by the machine. For execution on 
a modern, out-of-order processor, much can be gained by analyzing how the program would execute on a 
machine with unlimited processing resources, but where the latencies and the issue times of the functional 
units match those of the target processor. To refine this analysis, we should also consider such resource 
constraints as the number and types of functional units. 


Programs that involve conditional branches or complex interactions with the memory system are more 
difficult to analyze and optimize than the simple loop programs we first considered. The basic strategy 
is to try to make loops more predictable and to try to reduce interactions between store and load operations. 


When working with large programs, it becomes important to focus our optimization efforts on the parts that 
consume the most time. Code profilers and related tools can help us systematically evaluate and improve 
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program performance. We described GPROF, a standard Unix profiling tool. More sophisticated profilers 
are available, such as the VTUNE program development system from Intel. These tools can break down the 
execution time below the procedure level, to measure performance of each basic block of the program. A 
basic block is a sequence of instructions with no conditional operations. 


Amdahl’s Law provides a simple, but powerful insight into the performance gains obtained by improving 
just one part of the system. The gain depends both on how much we improve this part and how large a 
fraction of the overall time this part originally required. 


Bibliographic Notes 


Many books have been written about compiler optimization techniques. Muchnick’s book is considered the 
most comprehensive [52]. Wadleigh and Crawford’s book on software optimization [81] covers some of the 
material we have, but also describes the process of getting high performance on parallel machines. 


Our presentation of the operation of an out-of-order processor is fairly brief and abstract. More complete 
descriptions of the general principles can be found in advanced computer architecture textbooks, such as 
the one by Hennessy and Patterson [31, Ch. 4]. Shriver and Smith give a detailed presentation of an AMD 
processor [65] that bears many similarities to the one we have described. 


Amdahl’s Law is presented in most books on computer architecture. With its major focus on quantitative 
system evaluation, Hennessy and Patterson’s book [31] provides a particularly good treatment. 


Homework Problems 


Homework Problem 5.8 [Category 2]: 


Suppose that we wish to write a procedure that computes the inner product of two vectors. An abstract 
version of the function has a CPE of 54 for both integer and floating-point data. By doing the same sort of 
transformations we did to transform the abstract program combinel into the more efficient combine4, 
we get the following code: 


1 /* Accumulate in temporary */ 
2 void inner4(vec_ptr u, vec_ptr v, data_t *dest) 


3 { 

4 VIE: aes 

5 int length = vec_length(u) ; 

6 data_t *udata = get_vec_start (u); 
7 data_t *vdata = get_vec_start(v); 
8 data_t sum = (data_t) 0; 

9 

10 for (i = 0; i < length; i++) { 

11 sum = sum + udata[i] * vdata[i]; 
12 } 

13 *dest = sum; 


5.16. SUMMARY 269 


Our measurements show that this function requires 3.11 cycles per iteration for integer data. The assembly 
code for the inner loop is: 


udata in tesi, vdata in gebx i in geax sum in %ecx, length in %edi 


1 .L24: loop: 

2 movl (%esi, %edx, 4) ,%eax Get udata[i] 

3 imull (%ebx, tedx, 4), %eax Multiply by vdata[i] 
4 addl %eax, Secx Add to sum 

5 incl %Sedx itt 

6 cmpl %edi, Sedx Compare i:length 

7 jl .L24 If <, goto loop 


Assume that integer multiplication is performed by the general integer functional unit and that this unit is 
pipelined. This means that one cycle after a multiplication has started, a new integer operation (multiplica- 
tion or otherwise) can begin. Assume also that the Integer/Branch function unit can perform simple integer 
operations. 


A. Show a translation of these lines of assembly code into a sequence of operations. The mov1 instruc- 
tion translates into a single Load operation. Register $eax gets updated twice in the loop. Label the 
different versions %eax .1a and Seax.1b. 


B. Explain how the function can go faster than the number of cycles required for integer multiplication. 
C. Explain what factor limits the performance of this code to at best a CPE of 2.5. 


D. For floating-point data, we get a CPE of 3.5. Without needing to examine the assembly code, describe 
a factor that will limit the performance to at best 3 cycles per iteration. 


Homework Problem 5.9 [Category 1]: 
Write a version of the inner product procedure described in Problem 5.8 that uses four-way loop unrolling. 


Our measurements for this procedure give a CPE of 2.20 for integer data and 3.50 for floating point. 


A. Explain why any version of any inner product procedure cannot achieve a CPE better than 2. 


B. Explain why the performance for floating point did not improve with loop unrolling. 


Homework Problem 5.10 [Category 1]: 


Write a version of the inner product procedure described in Problem 5.8 that uses four-way loop unrolling 
and two-way parallelism. 


Our measurements for this procedure give a CPE of 2.25 for floating-point data. Describe two factors that 
limit the performance to a CPE of at best 2.0. 


Homework Problem 5.11 [Category 2]: 
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You’ve just joined a programming team that is trying to develop the world’s fastest factorial routine. Starting 
with recursive factorial, they’ve converted the code to use iteration: 


return result; 


1 int fact (int n) 

2 { 

3 int i; 

4 int result = 1; 

5 

6 for (i =n; i > OF i--) 
7 result = result * i; 
8 

9 


} 


By doing so, they have reduced the number of CPE for the function from 63 to 4, measured on an Intel 
Pentium HMI (really!). Still, they would like to do better. 
One of the programmers heard about loop unrolling. She generated the following code: 
1 int fact_u2 (int n) 
24 
3 Int I 
4 int result = 1; 
5 for (i = n; i > 0; i-=2) { 
6 result = (result * i) * (i-1); 
7 } 
8 
9 


return result; 


} 


Unfortunately, the team discovered that this code returns 0 for some values of argument n. 


A. For what values of n will fact_u2 and fact return different values? 


B. Show how to fix fact_u2. Note that there is a special trick for this procedure that involves just 
changing a loop bound. 


C. Benchmarking fact_u2 shows no improvement in performance. How would you explain that? 
D. You modify the line inside the loop to read: 
7 result = result * (i * (i - 1)); 
To everyone’s astonishment, the measured performance now has a CPE of 2.5. How do you explain 


this performance improvement? 


Homework Problem 5.12 [Category 1]: 


Using the conditional move instruction, write assembly code for the body of the following function: 


5.16. SUMMARY 271 


/* Return maximum of x and y */ 
int max(int x, int y) 
{ 


return (x < y) ? y : x; 


Oa be WN H 


Homework Problem 5.13 [Category 2]: 


Using conditional moves, the general technique for translating a statement of the form: 


val = cond-expr ?  then-expr : else-expr; 


is to generate code of the form: 


val = then-expr; 

temp = else-expr; 

test = cond-expr; 

if (test) val = temp; 


where the last line is implemented with a conditional move instruction. Using the example of Practice 
Problem 5.5 as a guide, state the general requirements for this translation to be valid. 


Homework Problem 5.14 [Category 2]: 


The following function computes the sum of the elements in a linked list: 


sum += ls-—>data; 
return sum; 


1 static int list_sum(list_ptr ls) 
2 { 

3 int sum = 0; 

4 

5 for (; ls; ls = l1s->next) 

6 

7 

8 


-一 


The assembly code for the loop, and its translation of the first iteration into operations yields the following: 


Assembly Instructions Execution Unit Operations 


-L43: 
addl 4(%edx),%eax | movl 4(%edx.0) 
addl t.1,%eax.0 


movl (%edx), %edx load (%edx.0) 
testl %Sedx, tedx testl %Sedx.1, tedx.1 
jne .L43 jne-taken cc.1 
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A. Draw a graph showing the scheduling of operations for the first three iterations of the loop, in the 
style of Figure 5.31. Recall that there is just one load unit. 


B. Our measurements for this function give a CPE of 4.00. Is this consistent with the graph you drew in 
part A? 


Homework Problem 5.15 [Category 2]: 


The following function is a variant on the list sum function shown in Problem 5.14: 


1 static int list_sum2(list_ptr ls) 
2 { 

3 int sum = 0; 

4 list_ptr old; 

5 

6 while (ls) { 

7 old = ls; 

8 ls = ls->next; 

9 sum += old->data; 
10 } 

1I return sum; 

12 } 


This code is written in such a way that the memory access to fetch the next list element comes before the 
one to retrieve the data field from the current element. 


The assembly code for the loop, and its translation of the first iteration into operations yields the following: 


Assembly Instructions Execution Unit Operations 


-L48: 
movl %edx, secx 
movl (%edx), %edx load (%tedx.0) 


addl 4(%ecx),%eax | movl 4(%edx.0) 

addl t.1,%eax.0 
testl %Sedx, tedx testl %Sedx.1, tedx.1 
jne .L48 jne-taken cc.1 


Note that the register move operation movl %edx, secx does not require any operations to implement. 
It is handled by simply associating the tag edx.0 with register %ecx, so that the later instruction add1 
4 (Secx) , eax is translated to use edx . 0 as its source operand. 


A. Draw a graph showing the scheduling of operations for the first three iterations of the loop, in the 
style of Figure 5.31. Recall that there is just one load unit. 
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B. Our measurements for this function give a CPE of 3.00. Is this consistent with the graph you drew in 
part A? 


C. How does this function make better use of the load unit than did the function of Problem 5.14? 
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Chapter 0 


The Memory Hierarchy 


To this point in our study of systems, we have relied on a simple model of a computer system as a CPU 
that executes instructions and a memory system that holds instructions and data for the CPU. In our simple 
model, the memory system is a linear array of bytes, and the CPU can access each memory location in a 
constant amount of time. While this is an effective model as far as it goes, it does not reflect the way that 
modern systems really work. 


In practice, a memory system is a hierarchy of storage devices with different capacities, costs, and access 
times. Registers in the CPU hold the most frequently used data. Small, fast cache memories near the CPU 
act as staging areas for a subset of the data and instructions stored in the relatively slow main memory. The 
main memory stages data stored on large, slow disks, which in turn often serve as staging areas for data 
stored on the disks or tapes of other machines connected by networks. 


Memory hierarchies work because programs tend to access the storage at any particular level more fre- 
quently than they access the storage at the next lower level. So the storage at the next level can be slower, 
and thus larger and cheaper per bit. The overall effect is a large pool of memory that costs as much as the 
cheap storage near the bottom of the hierarchy, but that serves data to programs at the rate of the fast storage 
near the top of the hierarchy. 


In contrast to the uniform access times in our simple system model, memory access times on a real system 
can vary by factors of ten, or one hundred, or even one million. Unwary programmers who assume a 
flat, uniform memory risk significant and inexplicable performance slowdowns in their programs. On the 
other hand, wise programmers who understand the hierarchical nature of memory can use relatively simple 
techniques to produce efficient programs with fast average memory access times. 


In this chapter, we look at the most basic storage technologies of SRAM memory, DRAM memory, and 
disks. We also introduce a fundamental property of programs known as locality and show how locality 
motivates the organization of memory as a hierarchy of devices. Finally, we focus on the design and per- 
formance impact of the cache memories that act as staging areas between the CPU and main memory, and 
show you how to use your understanding of locality and caching to make your programs run faster. 
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6.1 Storage Technologies 


Much of the success of computer technology stems from the tremendous progress in storage technology. 
Early computers had a few kilobytes of random-access memory. The earliest IBM PCs didn’t even have a 
hard disk. That changed with the introduction of the IBM PC-XT in 1982, with its 10-megabyte disk. By the 
year 2000, typical machines had 1000 times as much disk storage and the ratio was increasing by a factor 
of 10 every two or three years. 


6.1.1 Random-Access Memory 


Random-access memory (RAM) comes in two varieties—static and dynamic. Static RAM (SRAM) is faster 
and significantly more expensive than Dynamic RAM (DRAM). SRAM is used for cache memories, both 
on and off the CPU chip. DRAM is used for the main memory plus the frame buffer of a graphics system. 
Typically, a desktop system will have no more than a few megabytes of SRAM, but hundreds or thousands 
of megabytes of DRAM. 


Static RAM 
SRAM stores each bit in a bistable memory cell. Each cell is implemented with a six-transistor circuit. This 
circuit has the property that it can stay indefinitely in either of two different voltage configurations, or states. 


Any other state will be unstable—starting from there, the circuit will quickly move toward one of the stable 
states. Such a memory cell is analogous to the inverted pendulum illustrated in Figure 6.1. 


Unstable 


Stable Left Stable Right 


Figure 6.1: Inverted pendulum. Like an SRAM cell, the pendulum has only two stable configurations, or 
states. 


The pendulum is stable when it is tilted either all the way to the left, or all the way to the right. From 
any other position, the pendulum will fall to one side or the other. In principle, the pendulum could also 
remain balanced in a vertical position indefinitely, but this state is metastable—the smallest disturbance 
would make it start to fall, and once it fell it would never return to the vertical position. 


Due to its bistable nature, an SRAM memory cell will retain its value indefinitely, as long as it is kept 
powered. Even when a disturbance, such as electrical noise, perturbs the voltages, the circuit will return to 
the stable value when the disturbance is removed. 
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Dynamic RAM 


DRAM stores each bit as charge on a capacitor. This capacitor is very small—typically around 30 femto- 
farads, that is, 30 x 10715 farads. Recall, however, that a farad is a very large unit of measure. DRAM 
storage can be made very dense—each cell consists of a capacitor and a single-access transistor. Unlike 
SRAM, however, a DRAM memory cell is very sensitive to any disturbance. When the capacitor voltage is 
disturbed, it will never recover. Exposure to light rays will cause the capacitor voltages to change. In fact, 
the sensors in digital cameras and camcorders are essentially arrays of DRAM cells. 


Various sources of leakage current cause a DRAM cell to lose its charge within a time period of around 10 to 
100 milliseconds. Fortunately, for computers operating with clock cycles times measured in nanoseconds, 
this retention time is quite long. The memory system must periodically refresh every bit of memory by 
reading it out and then rewriting it. Some systems also use error-correcting codes, where the computer 
words are encoded a few more bits (e.g., a 32-bit word might be encoded using 38 bits), such that circuitry 
can detect and correct any single erroneous bit within a word. 


Figure 6.2 summarizes the characteristics of SRAM and DRAM memory. SRAM is persistent as long as 
power is applied to them. Unlike DRAM, no refresh is necessary. SRAM can be accessed faster than 
DRAM. SRAM is not sensitive to disturbances such as light and electrical noise. The tradeoff is that SRAM 
cells use more transistors than DRAM cells, and thus have lower densities, are more expensive, and consume 
more power. 


Transistors Relative Relative 
per bit access time | Persistent? | Sensitive? Cost Applications 
SRAM 6 1X Yes No 100X | Cache memory 
DRAM 1 10X No Yes 1X Main mem, frame buffers 


Figure 6.2: Characteristics of DRAM and SRAM memory. 


Conventional DRAMs 


The cells (bits) in a DRAM chip are partitioned into d supercells, each consisting of w DRAM cells. A 
d x w DRAM stores a total of dw bits of information. The supercells are organized as a rectangular array 
with r rows and c columns, where rc = d. Each supercell has an address of the form (i, j), where 7 denotes 
the row, and 7 denotes the column. 


For example, Figure 6.3 shows the organization of a 16 x 8 DRAM chip with d = 16 supercells, w = 8 
bits per supercell, r = 4 rows, and c = 4 columns. The shaded box denotes the supercell at address (2, 1). 
Information flows in and out of the chip via external connectors called pins. Each pin carries a 1-bit signal. 
Figure 6.3 shows two of these sets of pins: 8 data pins that can transfer one byte in or out of the chip, and 
2 addr pins that carry 2-bit row and column supercell addresses. Other pins that carry control information 
are not shown. 


Aside: A note on terminology. 
The storage community has never settled on a standard name for a DRAM array element. Computer architects tend 
to refer to it as a “cell”, overloading the term with the DRAM storage cell. Circuit designers tend to refer to it as a 
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DRAM chip 


<> memory 


controller supercell 
(to CPU) 


(2,1) 


internal row buffer 


Figure 6.3: High level view of a 128-bit 16 x 8 DRAM chip. 


“word”, overloading the term with a word of main memory. To avoid confusion, we have adopted the unambiguous 
term “supercell”. End Aside. 


Each DRAM chip is connected to some circuitry, known as the memory controller, that can transfer w bits 
at a time to and from each DRAM chip. To read the contents of supercell (7, 7), the memory controller sends 
the row address 7 to the DRAM, followed by the column address j. The DRAM responds by sending the 
contents of supercell (i, j) back to the controller. The row address i is called a RAS (Row Access Strobe) 
request. The column address 7 is called a CAS (Column Access Strobe) request. Notice that the RAS and 
CAS requests share the same DRAM address pins. 


For example, to read supercell (2,1) from the 16 x 8 DRAM in Figure 6.3, the memory controller sends 
row address 2, as shown in Figure 6.4(a). The DRAM responds by copying the entire contents of row 2 
into an internal row buffer. Next, the memory controller sends column address 1, as shown in Figure 6.4(b). 
The DRAM responds by copying the 8 bits in supercell (2, 1) from the row buffer and sending them to the 
memory controller. 


DRANMICHD m GG DRAM CND CC CC 
| cols cols 
RAS = 2 CAS = 1 
i 0 5 0 
addr addr 
ee e. 
memory ! rows 1 memory fone 
controller 2 controller | supercell : 2 
' | (21) | 
8 | 3 ' 8 | 3 
penned ES ES HS | aoe 
: internal row buffer | | internal row buffer 
(a) Select row 2 (RAS request). (b) Select column 1 (CAS request). 


Figure 6.4: Reading the contents of a DRAM supercell. 


One reason circuit designers organize DRAM s as two-dimensional arrays instead of linear arrays is to reduce 
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the number of address pins on the chip. For example, if our example 128-bit DRAM were organized as a 
linear array of 16 supercells with addresses 0 to 15, then the chip would need four address pins instead 
of two. The disadvantage of the two-dimensional array organization is that addresses must be sent in two 
distinct steps, which increases the access time. 


Memory Modules 


DRAM chips are packaged in memory modules that plug into expansion slots on the main system board 
(motherboard). Common packages include the 168-pin Dual Inline Memory Module (DIMM), which trans- 
fers data to and from the memory controller in 64-bit chunks, and the 72-pin Single Inline Memory Module 
(SIMM), which transfers data in 32-bit chunks. 


Figure 6.5 shows the basic idea of a memory module. The example module stores a total of 64 MB 
(megabytes) using eight 64-Mbit 8M x 8 DRAM chips, numbered 0 to 7. Each supercell stores one byte of 
main memory, and each 64-bit doubleword! at byte address A in main memory is represented by the eight 
supercells whose corresponding supercell address is (1,7). In our example in Figure 6.5, DRAM 0 stores 
the first (lower-order) byte, DRAM 1 stores the next byte, and so on. 


addr (row = i, col = j) 


: supercell (i,j) 


64 MB 

memory module 
consisting of 

8 8Mx8 DRAMs 


63 56 55 4847 40 39 3231 


24 23 16 15 


Memory 
controller 


64-bit double word at main memory address A 


64-bit doubleword to CPU chip 


Figure 6.5: Reading the contents of a memory module. 


To retrieve a 64-bit doubleword at memory address A, the memory controller converts A to a supercell 
address (4, j) and sends it to the memory module, which then broadcasts 7 and j to each DRAM. In response, 
each DRAM outputs the 8-bit contents of its (i, j) supercell. Circuitry in the module collects these outputs 
and forms them into a 64-bit doubleword, which it returns to the memory controller. 


'TA32 would call this 64-bit quantity a “quadword.” 
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Main memory can be aggregated by connecting multiple memory modules to the memory controller. In this 
case, when the controller receives an address A, the controller selects the module k that contains A, converts 
A to its (i, j) form, and sends (i, j) to module k. 


Practice Problem 6.1: 


In the following, let r be the number of rows in a DRAM array, c the number of columns, by the number 
of bits needed to address the rows, and b, the number of bits needed to address the columns. For each 
of the following DRAMs, determine the power-of-two array dimensions that minimize max(b,., be), the 
maximum number of bits needed to address the rows or columns of the array. 


mwa |] | 
wa || [| 
mxs Th | 


ass | -| .| | 
| 1024x4 | | | | | | 


Enhanced DRAMs 


There are many kinds of DRAM memories, and new kinds appear on the market with regularity as man- 
ufacturers attempt to keep up with rapidly increasing processor speeds. Each is based on the conventional 
DRAM cell, with optimizations that improve the speed with which the basic DRAM cells can be accessed. 


e Fast page mode DRAM (FPM DRAM). A conventional DRAM copies an entire row of supercells into 


its internal row buffer, uses one, and then discards the rest. FPM DRAM improves on this by allowing 
consecutive accesses to the same row to be served directly from the row buffer. For example, to read 
four supercells from row 7 of a conventional DRAM, the memory controller must send four RAS/CAS 
requests, even though the row address % is identical in each case. To read supercells from the same 
row of an FPM DRAM, the memory controller sends an initial RAS/CAS request, followed by three 
CAS requests. The initial RAS/CAS request copies row 7 into the row buffer and returns the first 
supercell. The next three supercells are served directly from the row buffer, and thus more quickly 
than the initial supercell. 


Extended data out DRAM (EDO DRAM). An enhanced form of FPM DRAM that allows the individual 
CAS signals to be spaced closer together in time. 


Synchronous DRAM (SDRAM). Conventional, FPM, and EDO DRAMs are asynchronous in the sense 
that they communicate with the memory controller using a set of explicit control signals. SDRAM 
replaces many of these control signals with the rising edges of the same external clock signal that 
drives the memory controller. Without going into detail, the net effect is that an SDRAM can output 
the contents of its supercells at a faster rate than its asynchronous counterparts. 


Double Data-Rate Synchronous DRAM (DDR SDRAM). DDR SDRAM is an enhancement of SDRAM 
that doubles the speed of the DRAM by using both clock edges as control signals. 
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e Video RAM (VRAM). Used in the frame buffers of graphics systems. VRAM is similar in spirit to 
FPM DRAM. Two major differences are that (1) VRAM output is produced by shifting the entire 
contents of the internal buffer in sequence, and (2) VRAM allows concurrent reads and writes to the 
memory. Thus the system can be painting the screen with the pixels in the frame buffer (reads) while 
concurrently writing new values for the next update (writes). 


Aside: Historical popularity of DRAM technologies. 

Until 1995, most PC’s were built with FPM DRAMs. From 1996-1999, EDO DRAMs dominated the market while 
FPM DRAMs all but disappeared. SDRAMs first appeared in 1995 in high-end systems, and by 2001 most PC’s 
were built with SDRAMs. End Aside. 


Nonvolatile Memory 


DRAMs and SRAMs are volatile in the sense that they lose their information if the supply voltage is turned 
off. Nonvolatile memories, on the other hand, retain their information even when they are powered off. 
There are a variety of nonvolatile memories. For historical reasons, they are referred to collectively as 

read-only memories (ROMs), even though some types of ROMs can be written to as well as read. ROMs 
are distinguished by the number of times they can be reprogrammed (written to) and by the mechanism for 
reprogramming them. 


A programmable ROM (PROM) can be programmed exactly once. PROMs include a sort of fuse with each 
memory cell that can be blown once by zapping it with a high current. An erasable programmable ROM 
(EPROM) has a small transparent window on the outside of the chip that exposes the memory cells to outside 
light. The EPROM is reprogrammed by placing it in a special device that shines ultraviolet light onto the 
storage cells. An EPROM can be reprogrammed on the order of 1,000 times. An electrically-erasable 
PROM (EEPROM) is akin to an EPROM, but it has an internal structure that allows it to be reprogrammed 
electrically. Unlike EPROMs, EEPROMs do not require a physically separate programming device, and 
thus can be reprogrammed in-place on printed circuit cards. An EEPROM can be reprogrammed on the 
order of 10° times. Flash memory is a family of small nonvolatile memory cards, based on EEPROMs, that 
can be plugged in and out of a desktop machine, handheld device, or video game console. 


Programs stored in ROM devices are often referred to as firmware. When a computer system is powered up, 
it runs firmware stored ina ROM. Some systems provide a small set of primitive input and output functions 
in firmware, for example, a PC’s BIOS (basic input/output system) routines. Complicated devices such as 
graphics cards and disk drives also rely on firmware to translate I/O (input/output) requests from the CPU. 


Accessing Main Memory 


Data flows back and forth between the processor and the DRAM main memory over shared electrical con- 
duits called buses. Each transfer of data between the CPU and memory is accomplished with a series of 
steps called a bus transaction. A read transaction transfers data from the main memory to the CPU. A write 
transaction transfers data from the CPU to the main memory. 


A bus is a collection of parallel wires that carry address, data, and control signals. Depending on the 
particular bus design, data and address signals can share the same set of wires, or they can use different 
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sets. Also, more than two devices can share the same bus. The control wires carry signals that synchronize 
the transaction and identify what kind of transaction is currently being performed. For example, is this 
transaction of interest to the main memory, or to some other I/O device such as a disk controller? Is the 
transaction a read or a write? Is the information on the bus an address or a data item? 


Figure 6.6 shows the configuration of a typical desktop system. The main components are the CPU chip, 
a chipset that we will call an //O bridge (which includes the memory controller), and the DRAM memory 
modules that comprise main memory. These components are connected by a pair of buses: a system bus that 
connects the CPU to the I/O bridge, and a memory bus that connects the I/O bridge to the main memory. 


| register file 
ALU 
( System bus memory bus 
bus interi IO main 
US interiace bridge memory 


Figure 6.6: Typical bus structure that connects the CPU and main memory. 


The I/O bridge translates the electrical signals of the system bus into the electrical signals of the memory 
bus. As we will see, the I/O bridge also connects the system bus and memory bus to an I/O bus that is shared 
by I/O devices such as disks and graphics cards. For now, though, we will focus on the memory bus. 


Consider what happens when the CPU performs a load operation such as 
movl A, eax 


where the contents of address A are loaded into register Seax. Circuitry on the CPU chip called the bus 
interface initiates a read transaction on the bus. The read transaction consists of three steps. First, the 
CPU places the address A on the system bus. The I/O bridge passes the signal along to the memory bus 
(Figure 6.7(a)). Next, the main memory senses the address signal on the memory bus, reads the address 
from the memory bus, fetches the data word from the DRAM, and writes the data to the memory bus. The 
TO bridge translates the memory bus signal into a system bus signal, and passes it along to the system bus 
(Figure 6.7(b)). Finally, the CPU senses the data on the system bus, reads it from the bus, and copies it to 
register eax (Figure 6.7(c)). 


Conversely, when the CPU performs a store instruction such as 
movl %eax,A 


where the contents of register eax are written to address A, the CPU initiates a write transaction. Again, 
there are three basic steps. First, the CPU places the address on the system bus. The memory reads the 
address from the memory bus and waits for the data to arrive (Figure 6.8(a)). Next, the CPU copies the data 
word in eax to the system bus (Figure 6.8(b)). Finally, the main memory reads the data word from the 
memory bus and stores the bits in the DRAM (Figure 6.8(c)). 
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(a) CPU places address A on the memory bus. 
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(b) Main memory reads A from the bus, retrieves word x, and places it on the bus. 
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(c) CPU reads word x from the bus, and copies it into register eax. 


%eax 


main memory 


Figure 6.7: Memory read transaction for a load operation: movl A, Seax. 
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(a) CPU places address A on the memory bus. Main memory reads it and waits for the data word. 
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(b) CPU places data word y on the bus. 
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(c) Main memory reads data word y from the bus and stores it at address A. 


Figure 6.8: Memory write transaction for a store operation: movl %eax,A. 
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6.1.2 Disk Storage 


Disks are workhorse storage devices that hold enormous amounts of data, on the order of tens to hundreds 
of gigabytes, as opposed to the hundreds or thousands of megabytes in a RAM-based memory. However, 
it takes on the order of milliseconds to read information from a disk, a hundred thousand times longer than 
from DRAM and a million times longer than from SRAM. 


Disk Geometry 


Disks are constructed from platters. Each platter consists of two sides, or surfaces, that are coated with 
magnetic recording material. A rotating spindle in the center of the platter spins the platter at a fixed 
rotational rate, typically between 5400 and 15,000 revolutions per minute (RPM). A disk will typically 
contain one or more of these platters encased in a sealed container. 


Figure 6.9(a) shows the geometry of a typical disk surface. Each surface consists of a collection of con- 
centric rings called tracks. Each track is partitioned into a collection of sectors. Each sector contains an 
equal number of data bits (typically 512 bytes) encoded in the magnetic material on the sector. Sectors are 
separated by gaps where no data bits are stored. Gaps store formatting bits that identify sectors. 
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(a) Single-platter view. (b) Multiple-platter view. 


Figure 6.9: Disk geometry. 


A disk consists of one or more platters stacked on top of each other and encased in a sealed package, as 
shown in Figure 6.9(b). The entire assembly is often referred to as a disk drive, although we will usually 
refer to it as simply a disk. 


Disk manufacturers often describe the geometry of multiple-platter drives in terms of cylinders, where a 
cylinder is the collection of tracks on all the surfaces that are equidistant from the center of the spindle. 
For example, if a drive has three platters and six surfaces, and the tracks on each surface are numbered 
consistently, then cylinder k is the collection of the six instances of track k. 
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Disk Capacity 


The maximum number of bits that can be recorded by a disk is known as its maximum capacity, or simply 
capacity. Disk capacity is determined by the following technology factors: 


e Recording density (bits/in): The number of bits that can be squeezed into a one-inch segment of a 
track. 


e Track density (tracks /in): The number of tracks that can be squeezed into a one-inch segment of the 
radius extending from the center of the platter. 


e Areal density (bits /in?): The product of the recording density and the track density. 


Disk manufacturers work tirelessly to increase areal density (and thus capacity), and this is doubling every 
few years. The original disks, designed in an age of low areal density, partitioned every track into the 
same number of sectors, which was determined by the number of sectors that could be recorded on the 
innermost track. To maintain a fixed number of sectors per track, the sectors were spaced further apart on 
the outer tracks. This was a reasonable approach when areal densities were relatively low. However, as areal 
densities increased, the gaps between sectors (where no data bits were stored) became unacceptably large. 
Thus, modern high-capacity disks use a technique known as multiple zone recording, where the set of tracks 
is partitioned into disjoint subsets known as recording zones. Each zone contains a contiguous collection 
of tracks. Each track in a zone has the same number of sectors, which is determined by the number of 
sectors that can be packed into the innermost track of the zone. Note that diskettes (floppy disks) still use 
the old-fashioned approach, with a constant number of sectors per track. 


The capacity of a disk is given by the following: 


# bytes T average # sectors # tracks # surfaces # platters 


Disk capacity = E E ae x : 
ae sector track surface platter disk 


For example, suppose we have a disk with 5 platters, 512 bytes per sector, 20,000 tracks per surface, and an 
average of 300 sectors per track. Then the capacity of the disk is: 


512 bytes 时 300 sectors 20,000 tracks 2 surfaces 5 platters 


Disk ity = 
We sector track e surface i platter disk 
= 30,720,000,000 bytes 
= 30.72 GB. 


Notice that manufacturers express disk capacity in units of gigabytes (GB), where 1 GB = 10° bytes. 


Aside: How much is a gigabyte? 

Unfortunately, the meanings of prefixes such as kilo (K), mega (M) and giga (G) depend on the context. For 
measures that relate to the capacity of DRAMs and SRAMs, typically K = 2'°, M = 27° and G = 2°°. For 
measures related to the capacity of I/O devices such as disks and networks, typically K = 10°, M = 10° and 
G = 10°. Rates and throughputs usually use these prefix values as well. 


Fortunately, for the back-of-the-envelope estimates that we typically rely on, either assumption works fine in prac- 
tice. For example, the relative difference between 27° = 1,048,576 and 10° = 1,000,000 is small: (27° 一 
10°) /10° = 5%. Similarly for 2°° = 1,073, 741,824 and 10° = 1,000, 000, 000: (27° — 10°)/10° ~ 7%. End 
Aside. 
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Practice Problem 6.2: 


What is the capacity of a disk with 2 platters, 10,000 cylinders, an average of 400 sectors per track, and 
512 bytes per sector? 


Disk Operation 


Disks read and write bits stored on the magnetic surface using a read/write head connected to the end of 
an actuator arm, as shown in Figure 6.10(a). By moving the arm back and forth along its radial axis the 
drive can position the head over any track on the surface. This mechanical motion is known as a seek. Once 
the head is positioned over the desired track, then as each bit on the track passes underneath, the head can 
either sense the value of the bit (read the bit) or alter the value of the bit (write the bit). Disks with multiple 
platters have a separate read/write head for each surface, as shown in Figure 6.10(b). The heads are lined 
up vertically and move in unison. At any point in time, all heads are positioned on the same cylinder. 
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Figure 6.10: Disk dynamics. 


The read/write head at the end of the arm flies (literally) on a thin cushion of air over the disk surface at a 
height of about 0.1 microns and a speed of about 80 km/h. This is analogous to placing the Sears Tower on 
its side and flying it around the world at a height of 2.5 cm (1 inch) above the ground, with each orbit of the 
earth taking only 8 seconds! At these tolerances, a tiny piece of dust on the surface is a huge boulder. If the 
head were to strike one of these boulders, the head would cease flying and crash into the surface (a so-called 
head crash). For this reason, disks are always sealed in airtight packages. 


Disks read and write data in sector-sized blocks. The access time for a sector has three main components: 
seek time, rotational latency, and transfer time: 


e Seek time: To read the contents of some target sector, the arm first positions the head over the track 
that contains the target sector. The time required to move the arm is called the seek time. The seek 
time, Tseek, depends on the previous position of the head and the speed that the arm moves across the 
surface. The average seek time in modern drives, Tovg seek, Measured by taking the mean of several 
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thousand seeks to random sectors, is typically on the order of 6 to 9 ms. The maximum time for a 
single seek, Tmaz seek, can be as high as 20 ms. 


Rotational latency: Once the head is in position over the track, the drive waits for the first bit of 
the target sector to pass under the head. The performance of this step depends on the position of the 
surface when the head arrives at the target sector, and the rotational speed of the disk. In the worst 
case, the head just misses the target sector, and waits for the disk to make a full rotation. So the 
maximum rotational latency in seconds is: 


1 60 secs 
Tmax rotation 一 RPM x 


7 min 


The average rotational latency, Tavg rotation» is simply half of Taz rotation- 


Transfer time: When the first bit of the target sector is under the head, the drive can begin to read 
or write the contents of the sector. The transfer time for one sector depends on the rotational speed 
and the number of sectors per track. Thus, we can roughly estimate the average transfer time for one 
sector in seconds as: 

1 1 60 secs 
RPM ~ (average # sectors/track) * Tmin 


Tovg transfer 一 


We can estimate the average time to access a the contents of a disk sector as the sum of the average seek 
time, the average rotational latency, and the average transfer time. For example, consider a disk with the 
following parameters: 


Rotational rate 7,200 RPM 


Tovg seek 9 ms 
Average # sectors/track 400 


For this disk, the average rotational latency (in ms) is 


Tavg rotation — 1/2 x Tmax rotation 
1/2 x (60 secs / 7,200 RPM) x 1000 ms/sec 


4 ms. 


Q 


The average transfer time is 


Tovgtransfer = 60/7,200 RPM x 1/400 sectors/track x 1000 ms/sec 
0.02 ms. 


Q 


Putting it all together, the total estimated access time is 


Taccess = Tavg seek 十 Tavg rotation 十 Tavg transfer 
9 ms +4 ms + 0.02 ms 
= 13.02 ms. 


This example illustrates some important points: 
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e The time to access the 512 bytes in a disk sector is dominated by the seek time and the rotational 
latency. Accessing the first byte in the sector takes a long time, but the remaining bytes are essentially 
free. 


e Since the seek time and rotational latency are roughly the same, twice the seek time is a simple and 
reasonable rule for estimating disk access time. 


e The access time for a doubleword stored in SRAM is roughly 4 ns, and 60 ns for DRAM. Thus, the 
time to read a 512-byte sector-sized block from memory is roughly 256 ns for SRAM and 4000 ns for 
DRAM. The disk access time, roughly 10 ms, is about 40,000 times greater than SRAM, and about 
2,500 times greater than DRAM. The difference in access times is even more dramatic if we compare 
the times to access a single word. 


Practice Problem 6.3: 


Estimate the average time (in ms) to access a sector on the following disk: 


Rotational rate 15,000 RPM 


Tag seek 8 ms 
Average # sectors/track 500 


Logical Disk Blocks 


As we have seen, modern disks have complex geometries, with multiple surfaces and different recording 
zones on those surfaces. To hide this complexity from the operating system, modern disks present a simpler 
view of their geometry as a sequence of b sector-sized logical blocks, numbered 0,1,...,5 — 1. A small 
hardware/firmware device in the disk, called the disk controller, maintains the mapping between logical 
block numbers and actual (physical) disk sectors. 


When the operating system wants to perform an I/O operation such as reading a disk sector into main 
memory, it sends a command to the disk controller asking it to read a particular logical block number. 
Firmware on the controller performs a fast table lookup that translates the logical block number into a 
(surface, track, sector) triple that uniquely identifies the corresponding physical sector. Hardware on the 
controller interprets this triple to move the heads to the appropriate cylinder, waits for the sector to pass 
under the head, gathers up the bits sensed by the head into a small buffer on the controller, and copies them 
into main memory. 


Aside: Formatted disk capacity. 

Before a disk can be used to store data, it must be formatted by the disk controller. This involves filling in the 
gaps between sectors with information that identifies the sectors, identifying any cylinders with surface defects and 
taking them out of action, and setting aside a set of cylinders in each zone as spares that can be called into action if 
one of more cylinders in the zone goes bad during the lifetime of the disk. The formatted capacity quoted by disk 
manufacturers is less than the maximum capacity because of the existence of these spare cylinders. End Aside. 
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Accessing Disks 


Devices such as graphics cards, monitors, mice, keyboards, and disks are connected to the CPU and main 
memory using an J/O bus such as Intel’s Peripheral Component Interconnect (PCI) bus. Unlike the system 
bus and memory buses, which are CPU-specific, I/O buses such as PCI are designed to be independent of 
the underlying CPU. For example, PCs and Macintosh’s both incorporate the PCI bus. Figure 6.11 shows a 
typical I/O bus structure (modeled on PCI) that connects the CPU, main memory, and I/O devices. 
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Figure 6.11: Typical bus structure that connects the CPU, main memory, and I/O devices. 


Although the I/O bus is slower than the system and memory buses, it can accommodate a wide variety of 
third-party I/O devices. For example, the bus in Figure 6.11 has three different types of devices attached to 
it. 


e A Universal Serial Bus (USB) controller is a conduit for devices attached to the USB. A USB has a 
throughput of 12 Mbits/s and is designed for slow to moderate speed serial devices such as keyboards, 
mice, modems, digital cameras, joysticks, CD-ROM drives, and printers. 


e A graphics card (or adapter) contains hardware and software logic that is responsible for painting the 
pixels on the display monitor on behalf of the CPU. 


e A disk controller contains the hardware and software logic for reading and writing disk data on behalf 
of the CPU. 


Additional devices such as network adapters can be attached to the I/O bus by plugging the adapter into 
empty expansion slots on the motherboard that provide a direct electrical connection to the bus. 


While a detailed description of how I/O devices work and how they are programmed is outside our scope, 
we can give you a general idea. For example, Figure 6.12 summarizes the steps that take place when a CPU 
reads data from a disk. 
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(a) The CPU initiates a disk read by writing a command, logical block number, and destination memory 
address to the memory-mapped address associated with the disk. 
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(b) The disk controller reads the sector and performs a DMA transfer into main memory. 
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(c) When the DMA transfer is complete, the disk controller notifies the CPU with an interrupt. 


Figure 6.12: Reading a disk sector. 
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The CPU issues commands to I/O devices using a technique called memory-mapped I/O (Figure 6.12(a)). In 
a system with memory-mapped I/O, a block of addresses in the address space is reserved for communicating 
with I/O devices. Each of these addresses is known as an VO port. Each device is associated with (or 
mapped to) one or more ports when it is attached to the bus. 


As a simple example, suppose that the disk controller is mapped to port 0xa0. Then the CPU might initiate 
a disk read by executing three store instructions to address Oxa: The first of these instructions sends a 
command word that tells the disk to initiate a read, along with other parameters such as whether to interrupt 
the CPU when the read is finished. (We will discuss interrupts in Section 8.1). The second instruction 
indicates the number of the logical block that should be read. The third instruction indicates the main 
memory address where the contents of the disk sector should be stored. 


After it issues the request, the CPU will typically do other work while the disk is performing the read. 
Recall that a 1 GHz processor with a 1 ns clock cycle can potentially execute 16 million instructions in the 
16 ms it takes to read the disk. Simply waiting and doing nothing while the transfer is taking place would 
be enormously wasteful. 


After the disk controller receives the read command from the CPU, it translates the logical block number 
to a sector address, reads the contents of the sector, and transfers the contents directly to main memory, 
without any intervention from the CPU (Figure 6.12(b)). This process where a device performs a read or 
write bus transaction on its own, without any involvement of the CPU, is known as direct memory access 
(DMA). The transfer of data is known as a DMA transfer. 


After the DMA transfer is complete and the contents of the disk sector are safely stored in main memory, 
the disk controller notifies the CPU by sending an interrupt signal to the CPU (Figure 6.12(c)). The basic 
idea is that an interrupt signals an external pin on the CPU chip. This causes the CPU to stop what it is 
currently working on and to jump to an operating system routine. The routine records the fact that the I/O 
has finished and then returns control to the point where the CPU was interrupted. 


Aside: Anatomy of a commercial disk. 

Disk manufacturers publish a lot of high-level technical information on their Web pages. For example, if we visit 
the Web page for the IBM Ultrastar 36LZX disk, we can glean the geometry and performance information shown 
in Figure 6.13. 


Geometry attribute 


Platters 6 


Suftaces (heads) ls 
Sector'size are byes Rotational rate 10,000 RPM 


Zones 11 : 
Cylinders 15,110 Avg. rotational latency | 2.99 ms 


Avg. seek time 4.9 ms 


Recording density (max). 392000 Dits; Sustained transfer rate | 21-36 MBytes/s 


Track density 20,000 tracks/in. 
Areal density (max) 7040 Mbits/sq. in. 
Formatted capacity 36 GBbytes 


Figure 6.13: IBM Ultrastar 36LZX geometry and performance. Source: www.storage.ibm.com 


Disk manufacturers often neglect to publish detailed technical information about the geometry of the individual 
recording zones. However, storage researchers have developed a useful tool, called DIXtrac, that automatically 
discovers a wealth of low-level information about the geometry and performance of SCSI disks [64]. For example, 
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DIXtrac is able to discover the detailed zone geometry of our example IBM disk, which we’ve shown in Figure 6.14. 
Each row in the table characterizes one of the 11 zones on the disk surface, in terms of the number of sectors in the 
zone, the range of logical blocks mapped to the sectors in the zone, and the range and number of cylinders in the 
zone. 


(outer) 0 2,292,096 
2,292,097 11,949,751 

11,949,752 19,416,566 

19,416,567 36,409,689 

36,409,690 39,844,151 

39,844,152 46,287,903 


52,201,830 56,691,915 

56,691,916 60,087,818 11,240 12,046 
60,087,819 67,001,919 12,047 13,768 
67,001,920 71,687,339 13,769 15,042 


1 
2 
3 
4 
5 
6 46,287,904 52,201,829 
7 
8 
9 
0 


(inner) 1 


Figure 6.14: IBM Ultrastar 36LZX zone map. Source: DIXtrac automatic disk drive characterization 
tool [64]. 


The zone map confirms some interesting facts about the IBM disk. First, more tracks are packed into the outer zones 
(which have a larger circumference) than the inner zones. Second, each zone has more sectors than logical blocks 
(check this yourself). The unused sectors form a pool of spare cylinders. If the recording material on a sector goes 
bad, the disk controller will automatically and transparently remap the logical blocks on that cylinder to an available 
spare. So we see that the notion of a logical block not only provides a simpler interface to the operating system, it 
also provides a level of indirection that enables the disk to be more robust. This general idea of indirection is very 
powerful, as we will see when we study virtual memory in Chapter 10. End Aside. 


6.1.3 Storage Technology Trends 
There are several important concepts to take away from our discussion of storage technologies. 


e Different storage technologies have different price and performance tradeoffs. SRAM is somewhat 
faster than DRAM, and DRAM is much faster than disk. On the other hand, fast storage is always 
more expensive than slower storage. SRAM costs more per byte than DRAM. DRAM costs much 
more than disk. 


e The price and performance properties of different storage technologies are changing at dramatically 
different rates. Figure 6.15 summarizes the price and performance properties of storage technologies 
since 1980, when the first PCs were introduced. The numbers were culled from back issues of trade 
magazines. Although they were collected in an informal survey, the numbers reveal some interesting 
trends. 


Since 1980, both the cost and performance of SRAM technology have improved at roughly the same 
rate. Access times have decreased by a factor of about 100 and cost per megabyte by a factor of 200 
(Figure 6.15(a)). However, the trends for DRAM and disk are much more dramatic and divergent. 
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As we will see in Section 6.4, modern computers make heavy use of SRAM-based caches to try to bridge the 
processor-memory gap. This approach works because of a fundamental property of application programs 
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While the cost per megabyte of DRAM has decreased by a factor of 8000 (almost four orders of 
magnitude!), DRAM access times have decreased by only a factor of 6 or so (Figure 6.15(b)). Disk 
technology has followed the same trend as DRAM and in even more dramatic fashion. While the cost 
of a megabyte of disk storage has plummeted by a factor of 50,000 since 1980, access times have 
improved much more slowly, by only a factor of 10 or so (Figure 6.15(c)). These startling long-term 
trends highlight a basic truth of memory and disk technology: it is easier to increase density (and 
thereby reduce cost) than to decrease access time. 


Merc || 1980 | 1985 | 1950 | 1995 | 2000 | 200051980 | 


$/MB 19,200 | 2,900 | 320] 256 100 190 
Access (ns) 300 150 35 15 3 100 


(a) SRAM trends 


| Metric [|| 1980 | 1985 | 1990 | 1995 | 2000 | 2000:1980 
$/MB 8,000 880 | 100 30 1 8,000 
Access (ns) 375 200 100 70 60 6 
Typical size (MB) || 0.064 | 0.256 4 16 64 1,000 

(b) DRAM trends 

| Metric || 1980 | 1985 | 1990 | 1995 2000 | 2000:1980 
$/M 500 | 100 8 | 0.30 0.01 50,000 
ae time (ms) ý 75 28 10 8 11 
typical size (MB) 10 | 160 | 1,000 | 20,000 20,000 

(c) Disk trends 
| Metric J| 1980 | 1985 1990 1995 | 2000 | 2000:1980 


imei ff 8080 [80286 | 80386 | Pentium 一 | 


CPU clock rate (MHz) 1 6 20 150 | 600 600 
CPU cycle time (ns) 1,000 166 50 6 1.6 600 


(d) CPU trends 


Figure 6.15: Storage and processing technology trends. 


e DRAM and disk access times are lagging behind CPU cycle times. As we see in Figure 6.15(d), CPU 
cycle times improved by a factor of 600 between 1980 and 2000. While SRAM performance lags, it is 
roughly keeping up. However, the gap between DRAM and disk performance and CPU performance 
is actually widening. The various trends are shown quite clearly in Figure 6.16, which plots the access 
and cycle times from Figure 6.15 on a semi-log scale. 


known as locality, which we discuss next. 
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100,000,000 ae ee OT 
10,000,000 + 


1,000,000 
100,000 —¢- Disk seek time 
a 40.000 Æ- DRAM access time 
g i —4- SRAM access time 
—®- CPU cycle time 


1980 1985 1990 1995 2000 
Year 


Figure 6.16: The increasing gap between DRAM, disk, and CPU speeds. 


6.2 Locality 


Well-written computer programs tend to exhibit good locality. That is, they tend to reference data items that 
are near other recently referenced data items, or that were recently referenced themselves. This tendency, 
known as the principle of locality, is an enduring concept that has enormous impact on the design and 
performance of hardware and software systems. 


Locality is typically described as having two distinct forms: temporal locality and spatial locality. In a 
program with good temporal locality, a memory location that is referenced once is likely to be referenced 
again multiple times in the near future. In a program with good spatial locality, if a memory location is 
referenced once, then the program is likely to reference a nearby memory location in the near future. 


Programmers should understand the principle of locality because, in general, programs with good locality 
run faster than programs with poor locality. All levels of modern computer systems, from the hardware, to 
the operating system, to application programs, are designed to exploit locality. At the hardware level, the 
principle of locality allows computer designers to speed up main memory accesses by introducing small fast 
memories known as cache memories that hold blocks of the most recently referenced instructions and data 
items. At the operating system level, the principle of locality allows the system to use the main memory as 
a cache of the most recently referenced chunks of the virtual address space. Similarly, the operating system 
uses main memory to cache the most recently used disk blocks in the disk file system. The principle of 
locality also plays a crucial role in the design of application programs. For example, Web browsers exploit 
temporal locality by caching recently referenced documents on a local disk. High volume Web servers hold 
recently requested documents in front-end disk caches that satisfy requests for these documents without 
requiring any intervention from the server. 


6.2.1 Locality of References to Program Data 


Consider the simple function in Figure 6.17(a) that sums the elements of a vector. Does this function have 
good locality? To answer this question, we look at the reference pattern for each variable. In this example, 
the sum variable is referenced once in each loop iteration, and thus there is good temporal locality with 
respect to sum. On the other hand, since sum is a scalar, there is no spatial locality with respect to sum. 


290 CHAPTER 6. THE MEMORY HIERARCHY 


int sumvec(int v[N]) 


{ 
int i, sum = 0; 


1 

2 
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sum += v[i]; 
return sum; 


(a) (b) 


Figure 6.17: (a) A function with good locality. (b) Reference pattern for vector v (N = 8). Notice how 
the vector elements are accessed in the same order that they are stored in memory. 


As we see in Figure 6.17(b), the elements of vector v are read sequentially, one after the other, in the order 
they are stored in memory (we assume for convenience that the array starts at address 0). Thus, with respect 
to variable v, the function has good spatial locality, but poor temporal locality since each vector element is 
accessed exactly once. Since the function has either good spatial or temporal locality with respect to each 
variable in the loop body, we can conclude that the sumvec function enjoys good locality. 


A function such as sumvec that visits each element of a vector sequentially is said to have a stride-/ 
reference pattern (with respect to the element size). Visiting every kth element of a contiguous vector is 
called a stride-k reference pattern. Stride-1 reference patterns are a common and important source of spatial 
locality in programs. In general, as the stride increases, the spatial locality decreases. 


Stride is also an important issue for programs that reference multidimensional arrays. Consider the sumar- 
rayrows function in Figure 6.18(a) that sums the elements of a two-dimensional array. The doubly nested 
loop reads the elements of the array in row-major order. That is, the inner loop reads the elements of the first 
row, then the second row, and so on. The sumarrayrows function enjoys good spatial locality because 


int sumarrayrows (int a[M] [N]) 


{ 


int i, j, sum = 0; 
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sum += a[i][j]; 
return sum; 


} 


(a) (b) 


Figure 6.18: (a) Another function with good locality. (b) Reference pattern for array a (M = 2, 
N = 3). There is good spatial locality because the array is accessed in the same row-major order that it is 
stored in memory. 


it references the array in the same row-major order that the array is stored (Figure 6.18(b)). The result is a 
nice stride-1 reference pattern with excellent spatial locality. 
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Seemingly trivial changes to a program can have a big impact on its locality. For example, the sumar- 
raycols function in Figure 6.19(a) computes the same result as the sumarrayrows function in Fig- 
ure 6.18(a). The only difference is that we have interchanged the 2 and 7 loops. What impact does inter- 
changing the loops have on its locality? The sumarraycols function suffers from poor spatial locality 


int sumarraycols(int a[M] [N]) 
{ 


int i, j, sum = 0; 


1 
2 

3 

4 
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return sum; 


} 


(a) (b) 


Figure 6.19: (a) A function with poor spatial locality. (b) Reference pattern for array a (M = 2, 
N = 3). The function has poor spatial locality because it scans memory with a stride-(N x sizeof (int) 
reference pattern. 


because it scans the array column-wise instead of row-wise. Since C arrays are laid out in memory row-wise, 
the result is a stride-(NV x sizeof (int)) reference pattern, as shown in Figure 6.19(b). 


6.2.2 Locality of Instruction Fetches 


Since program instructions are stored in memory and must be fetched (read) by the CPU, we can also 
evaluate the locality of a program with respect to its instruction fetches. For example, in Figure 6.17 the 
instructions in the body of the for loop are executed in sequential memory order, and thus the loop enjoys 
good spatial locality. Since the loop body is executed multiple times, it also enjoys good temporal locality. 


An important property of code that distinguishes it from program data is that it can not be modified at 
runtime. While a program is executing, the CPU only reads its instructions from memory. The CPU never 
overwrites or modifies these instructions. 


6.2.3 Summary of Locality 


In this section we have introduced the fundamental idea of locality and we have identified some simple rules 
for qualitatively evaluating the locality in a program: 


e Programs that repeatedly reference the same variables enjoy good temporal locality. 


e For programs with stride-k reference patterns, the smaller the stride the better the spatial locality. Pro- 
grams with stride-1 reference patterns have good spatial locality. Programs that hop around memory 
with large strides have poor spatial locality. 
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e Loops have good temporal and spatial locality with respect to instruction fetches. The smaller the 
loop body and the greater the number of loop iterations, the better the locality. 


Later in this chapter, after we have learned about cache memories and how they work, we will show you 
how to quantify the idea of locality in terms of cache hits and misses. It will also become clear to you why 
programs with good locality typically run faster than programs with poor locality. Nonetheless, knowing 
how to glance at a source code and getting a high-level feel for the locality in the program is a useful and 
important skill for a programmer to master. 


Practice Problem 6.4: 


Permute the loops in the following function so that it scans the three-dimensional array a with a stride-1 
reference pattern. 


1 int sumarray3d(int a[N] [N] [N]) 
Za 
3 int i, j, k, sum = 0; 
4 
5 for (i = 0; i < N; i++) { 
6 for (J = 0; J < N; J++) { 
7 for (k = 0; k < N; k++) { 
8 sum += a[k] [i] [3]; 
9 } 
10 } 
ti } 
12 return sum; 
13 } 
Practice Problem 6.5: 


The three functions in Figure 6.20 perform the same operation with varying degrees of spatial locality. 
Rank-order the functions with respect to the spatial locality enjoyed by each. Explain how you arrived 
at your ranking. 


6.3 The Memory Hierarchy 


Sections 6.1 and 6.2 described some fundamental and enduring properties of storage technology and com- 


puter software: 


e Different storage technologies have widely different access times. Faster technologies cost more per 
byte than slower ones and have less capacity. The gap between CPU and main memory speed is 


widening. 


e Well-written programs tend to exhibit good locality. 
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#define N 1000 1 void clearl (point *p, int n) 
2 { 
typedef struct { 3 int i, 3; 
int vel[3]; 4 
int acc[3]; 5 for (i = 0; i < n; i++) { 
} point; 6 for (j = 0; j < 3; j++) 
7 pli]l.vel[j] = 0; 
point p[N]; 8 for (J = 0; J < 3; J++) 
9 pli].acc[j] = 0; 
10 } 
11 } 
(a) An array of structs. (b) The clear1 function. 
void clear2 (point *p, int n) 1 void clear3(point *p, int n) 
{ 2 { 
Ine aby J? 3 ine i; J? 
4 
for (i = 0; i < n; itt) { 5 for (G = 0; J < 3; jtt) f 
for (J = 0; J < 3; j++) { 6 for (i = 0; i < nj; itt) 
pli].vel[j] = 0; 7 plil]l.vel[j] = 0; 
pli]l.acc[j] = 0; 8 for (i = 0; i < n; itt) 
} 9 pli].acc[j] = 0; 
} 10 } 
} 11 } 
(a) The clear2 function. (b) The clear3 function. 


Figure 6.20: Code examples for Practice Problem 6.5. 
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In one of the happier coincidences of computing, these fundamental properties of hardware and software 
complement each other beautifully. Their complementary nature suggests an approach for organizing mem- 
ory systems, known as the memory hierarchy, that is used in all modern computer systems. Figure 6.21 
shows a typical memory hierarchy. In general, the storage devices get faster, cheaper, and larger as we move 


Smaller, 
faster, CPU registers hold words retrieved from 
and ; cache memory. 
costlier L1:/ on-chip L1 
rb 
eae cache (SRAM) | L1 cache holds cache lines retrieved 
from the L2 cache. 
devices ‘ 
off-chip L2 
cache (SRAM) L2 cache holds cache lines 
retrieved from memory. 
main memory 
(DRAM) 
Larger, Main memory holds disk 
slower, blocks retrieved from local 
and disks. 
er ie) local secondary storage 
storage (local disks) 
devices Local disks hold files 


retrieved from disks on 
remote network servers. 


remote secondary storage 
(distributed file systems, Web servers) 


Figure 6.21: The memory hierarchy. 


from higher to lower levels. At the highest level (LO) are a small number of fast CPU registers that the CPU 
can access in a single clock cycle. Next are one or more small to moderate-sized SRAM-based cache mem- 
ories that can be accessed in a few CPU clock cycles. These are followed by a large DRAM-based main 
memory that can be accessed in tens to hundreds of clock cycles. Next are slow but enormous local disks. 
Finally, some systems even include an additional level of disks on remote servers that can be accessed over 
a network. For example, distributed file systems such as the Andrew File System (AFS) or the Network 
File System (NFS) allow a program to access files that are stored on remote network-connected servers. 
Similarly, the World Wide Web allows programs to access remote files stored on Web servers anywhere in 
the world. 


Aside: Other memory hierarchies. 

We have shown you one example of a memory hierarchy, but other combinations are possible, and indeed common. 
For example, many sites back up local disks onto archival magnetic tapes. At some of these sites, human operators 
manually mount the tapes onto tape drives as needed. At other sites, tape robots handle this task automatically. 
In either case, the collection of tapes represents a level in the memory hierarchy, below the local disk level, and 
the same general principles apply. Tapes are cheaper per byte than disks, which allows sites to archive multiple 
snapshots of their local disks. The tradeoff is that tapes take longer to access than disks. End Aside. 
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6.3.1 Caching in the Memory Hierarchy 


In general, a cache (pronounced “cash”) is a small, fast storage device that acts as a staging area for the data 
objects stored in a larger, slower device. The process of using a cache is known as caching (pronounced 
“cashing”’). 


The central idea of a memory hierarchy is that for each k, the faster and smaller storage device at level k 
serves as a cache for the larger and slower storage device at level k + 1. In other words, each level in the 
hierarchy caches data objects from the next lower level. For example, the local disk serves as a cache for 
files (such as Web pages) retrieved from remote disks over the network, the main memory serves as a cache 
for data on the local disks, and so on, until we get to the smallest cache of all, the set of CPU registers. 


Figure 6.22 shows the general concept of caching in a memory hierarchy. The storage at level k + 1 is 
partitioned into contiguous chunks of data objects called blocks. Each block has a unique address or name 
that distinguishes it from other blocks. Blocks can be either fixed-size (the usual case) or variable-sized 
(e.g., the remote HTML files stored on Web servers). For example, the level-k + 1 storage in Figure 6.22 is 
partitioned into 16 fixed-sized blocks, numbered 0 to 15. 


Smaller, faster, more expensive 
Level k: 4 9 14 3 device at level k caches a 
subset of the blocks from level k+1 


A 


i | Data is copied between 
| | levels in block-sized transfer units 


0 1 2 3 
: 4 5 6 7 Larger, slower, cheaper storage 
ean device at level k+1 is partitioned 
8 9 10 11 into blocks. 
12 13 14 15 


Figure 6.22: The basic principle of caching in a memory hierarchy. 


Similarly, the storage at level k is partitioned into a smaller set of blocks that are the same size as the blocks 
at level k + 1. At any point in time, the cache at level k contains copies of a subset of the blocks from level 
k + 1. For example, in Figure 6.22, the cache at level k has room for four blocks and currently contains 
copies of blocks 4, 9, 14, and 3. 


Data is always copied back and forth between level k and level k + 1 in block-sized transfer units. It is 
important to realize that while the block size is fixed between any particular pair of adjacent levels in the 
hierarchy, other pairs of levels can have different block sizes. For example, in Figure 6.21, transfers between 
L1 and LO typically use 1-word blocks. Transfers between L2 and L1 (and L3 and L2) typically use blocks 
of 4 to 8 words. And transfers between L4 and L3 use blocks with hundreds or thousands of bytes. In 
general, devices lower in the hierarchy (further from the CPU) have longer access times, and thus tend to 
use larger block sizes in order to amortize these longer access times. 
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Cache Hits 


When a program needs a particular data object d from level k + 1, it first looks for d in one of the blocks 
currently stored at level k. If d happens to be cached at level k, then we have what is called a cache hit. The 
program reads d directly from level k, which by the nature of the memory hierarchy is faster than reading d 
from level k + 1. For example, a program with good temporal locality might read a data object from block 
14, resulting in a cache hit from level k. 


Cache Misses 


If, on the other hand, the data object d is not cached at level k, then we have what is called a cache miss. 
When there is a miss, the cache at level k fetches the block containing d from the cache at level k + 1, 
possibly overwriting an existing block if the level k cache is already full. 


This process of overwriting an existing block is known as replacing or evicting the block. The block that is 
evicted is sometimes referred to as a victim block. The decision about which block to replace is governed 
by the cache’s replacement policy. For example, a cache with a random replacement policy would choose a 
random victim block. A cache with a least-recently used (LRU) replacement policy would choose the block 
that was last accessed the furthest in the past. 


After the cache at level k has fetched the block from level k + 1, the program can read d from level k as 
before. For example, in Figure 6.22, reading a data object from block 12 in the level k cache would result 
in a cache miss because block 12 is not currently stored in the level k cache. Once it has been copied from 
level k + 1 to level k, block 12 will remain there in expectation of later accesses. 


Kinds of Cache Misses 


It is sometimes helpful to distinguish between different kinds of cache misses. If the cache at level k is 
empty, then any access of any data object will miss. An empty cache is sometimes referred to as a cold 
cache, and misses of this kind are called compulsory misses or cold misses. Cold misses are important 
because they are often transient events that might not occur in steady state, after the cache has been warmed 
up by repeated memory accesses. 


Whenever there is a miss, the cache at level k must implement some placement policy that determines where 
to place the block it has retrieved from level k + 1. The most flexible placement policy is to allow any block 
from level k + 1 to be stored in any block at level k. For caches high in the memory hierarchy (close to 
the CPU) that are implemented in hardware and where speed is at a premium, this policy is usually too 
expensive to implement because randomly placed blocks are expensive to locate. 


Thus, hardware caches typically implement a more restricted placement policy that restricts a particular 
block at level k + 1 to a small subset (sometimes a singleton) of the blocks at level k. For example, in 
Figure 6.22, we might decide that a block 7 at level k + 1 must be placed in block (2 mod 4) at level k. For 
example, blocks 0, 4, 8, and 12 at level k + 1 would map to block 0 at level k, blocks 1, 5, 9, and 13 would 
map to block 1, and so on. Notice that our example cache in Figure 6.22 uses this policy. 


Restrictive placement policies of this kind lead to a type of miss known as a conflict miss, where the cache 
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is large enough to hold the referenced data objects, but because they map to the same cache block, the cache 
keeps missing. For example, in Figure 6.22, if the program requests block 0, then block 8, then block 0, 
then block 8, and so on, each of the references to these two blocks would miss in the cache at level k, even 
though this cache can hold a total of 4 blocks. 


Programs often run as a sequence of phases (e.g., loops) where each phase accesses some reasonably con- 
stant set of cache blocks. For example, a nested loop might access the elements of the same array over 
and over again. This set of blocks is called the working set of the phase. When the size of the working set 
exceeds the size of the cache, the cache will experience what are known as capacity misses. In other words, 
the cache is just too small to handle this particular working set. 


Cache Management 


As we have noted, the essence of the memory hierarchy is that the storage device at each level is a cache 
for the next lower level. At each level, some form of logic must manage the cache. By this we mean that 
something has to partition the cache storage into blocks, transfer blocks between different levels, decide 
when there are hits and misses, and then deal with them. The logic that manages the cache can be hardware, 
software, or a combination of the two. 


For example, the compiler manages the register file, the highest level of the cache hierarchy. It decides when 
to issue loads when there are misses, and determines which register to store the data in. The caches at levels 
L1 and L2 are managed entirely by hardware logic built into the caches. In a system with virtual memory, 
the DRAM main memory serves as a cache for data blocks stored on disk, and is managed by a combination 
of operating system software and address translation hardware on the CPU. For a machine with a distributed 
file system such as AFS, the local disk serves as a cache that is managed by the AFS client process running 
on the local machine. In most cases, caches operate automatically and do not require any specific or explicit 
actions from the program. 


6.3.2 Summary of Memory Hierarchy Concepts 


To summarize, memory hierarchies based on caching work because slower storage is cheaper than faster 
storage and because programs tend to exhibit locality. 


e Exploiting temporal locality. Because of temporal locality, the same data objects are likely to be 
reused multiple times. Once a data object has been copied into the cache on the first miss, we can 
expect a number of subsequent hits on that object. Since the cache is faster than the storage at the 
next lower level, these subsequent hits can be served much faster than the original miss. 


e Exploiting spatial locality. Blocks usually contain multiple data objects. Because of spatial locality, 
we can expect that the cost of copying a block after a miss will be amortized by subsequent references 
to other objects within that block. 


Caches are used everywhere in modern systems. As you can see from Figure 6.23, caches are used in CPU 
chips, operating systems, distributed file systems, and on the World-Wide Web. They are built from and 
managed by various combinations of hardware and software. Note that there are a number of terms and 
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acronyms in Figure 6.23 that we haven’t covered yet. We include them here to demonstrate how common 
caches are. 


(Type J Whacwhed Where cached | Latency (cles) | Managed by | 
CPU registers 4-byte word On-chip CPU registers Compiler 
TLB Address translations | On-chip TLB Hardware 
L1 cache 32-byte block On-chip L1 cache Hardware 
L2 cache 32-byte block Off-chip L2 cache 10 | Hardware 
Virtual memory 4-KB page Main memory 100 | Hardware + OS 


Buffer cache Parts of files Main memory 100 | OS 

Network buffer cache || Parts of files Local disk 10,000,000 | AFS/NFS client 
Browser cache Web pages Local disk 10,000,000 | Web browser 
Web cache Web pages Remote server disks 1,000,000,000 | Web proxy server 


Figure 6.23: The ubiquity of caching in modern computer systems. Acronyms: TLB: Translation Looka- 
side Buffer, MMU: Memory Management Unit, OS: Operating System, AFS: Andrew File System, NFS: 
Network File System. 


6.4 Cache Memories 


The memory hierarchies of early computer systems consisted of only three levels: CPU registers, main 
DRAM memory, and disk storage. However, because of the increasing gap between CPU and main memory, 
system designers were compelled to insert a small SRAM memory, called an L/ cache (Level 1 cache), 
between the CPU register file and main memory. In modern systems, the L1 cache is located on the CPU 
chip (i.e., itis an on-chip cache), as shown in Figure 6.24. The L1 cache can be accessed nearly as fast as 
the registers, typically in one or two clock cycles. 


As the performance gap between the CPU and main memory continued to increase, system designers re- 
sponded by inserting an additional cache, called an L2 cache, between the L1 cache and the main memory, 
that can be accessed in a few clock cycles. The L2 cache can be attached to the memory bus, or it can be 
attached to its own cache bus, as shown in Figure 6.24. Some high-performance systems, such as those 
based on the Alpha 21164, will even include an additional level of cache on the memory bus, called an L3 
cache, which sits between the L2 cache and main memory in the hierarchy. While there is considerable 
variety in the arrangements, the general principles are the same. 


C 


:| ut 
: [cache 


Ne | l Pá bus wait bus 
L2cacheK 省 bus interface VO K= 
: j bridge 


Figure 6.24: Typical bus structure for L1 and L2 caches. 
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6.4.1 Generic Cache Memory Organization 


Consider a computer system where each memory address has m bits that form M = 2” unique addresses. 
As illustrated in Figure 6.25(a), a cache for such a machine is organized as an array of S = 2° cache sets. 
Each set consists of E cache lines. Each line consists of a data block of B = 2° bytes, a valid bit that 
indicates whether or not the line contains meaningful information, and t = m — (b+ s) tag bits (a subset of 
the bits from the current block’s memory address) that uniquely identify the block stored in the cache line. 


1 valid bit ttag bits B = bytes 


per line per line per cache block 
C bh 
valid tag 0 | 1 | … |B 
set 0: pk E lines per set 
valid tag 0 | 1 {ee |B 
valid tag 0 |1|... |B1 
set 1: ae 
S= 2 sets { valid] | tag 0 | 1|…' [B 
valid tag 0 | 1 | ，。 |B 
set S-1: el 
valid tag 0 | 1] …… |B 


Cache size: C = B x E x S data bytes 


(a) 
t bits s bits b bits 
Address: | 
m-1 0 
\ JN J \ J 
yY Y Y 
tag set index block offset 
(b) 


Figure 6.25: General organization of cache (S, E, B,m). (a) A cache is an array of sets. Each set 
contains one or more lines. Each line contains a valid bit, some tag bits, and a block of data. (b) The cache 
organization induces a partition of the m address bits into ¢ tag bits, s set index bits, and b block offset bits. 


In general, a cache’s organization can be characterized by the tuple (S, E, B, m). The size (or capacity) of a 
cache, C’, is stated in terms of the aggregate size of all the blocks. The tag bits and valid bit are not included. 
Thus, C = S x E x B. 


When the CPU is instructed by a load instruction to read a word from address A of main memory, it sends 
the address A to the cache. If the cache is holding a copy of the word at address A, it sends the word 
immediately back to the CPU. So how does the cache know whether it contains a copy of the word at 
address A? The cache is organized so that it can find the requested word by simply inspecting the bits of the 
address, similar to a hash table with an extremely simple hash function. Here is how it works. 
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The parameters S and B induce a partitioning of the m address bits into the three fields shown in Fig- 
ure 6.25(b). The s set index bits in A form an index into the array of 9 sets. The first set is set 0, the second 
set is set 1, and so on. When interpreted as an unsigned integer, the set index bits tell us which set the word 
must be stored in. Once we know which set the word must be contained in, the ¢ tag bits in A tell us which 
line (if any) in the set contains the word. A line in the set contains the word if and only if the valid bit is set 
and the tag bits in the line match the tag bits in the address A. Once we have located the line identified by 
the tag in the set identified by the set index, then the b block offset bits give us the offset of the word in the 
B-byte data block. 


As you may have noticed, descriptions of caches use a lot of symbols. Figure 6.26 summarizes these 
symbols for your reference. 


Fundamental parameters 
Parameter [Description ee 


Ce Number of sets 


E Number of lines per set 


B = 2 Block size (bytes) 
m = loga (M) Number of physical (main memory) address bits 


Derived quantities 
Paame [Description OOOO 


Maximum number of unique memory addresses 
Number of set index bits 
Number of block offset bits 


Number of tag bits 
Cache size (bytes) not including overhead such as the valid and tag bits 


Figure 6.26: Summary of cache parameters. 


Practice Problem 6.6: 


The following table gives the parameters for a number of different caches. For each cache, determine 
the number of cache sets (S), tag bits (t), set index bits (s), and block offset bits (b). 


mm CT BTFETS][?#][-] 5] 
一 [zh 
[232 [ots [4] | | |_| 


| 3. | 32 [1024|32 | 32] | {| | 


6.4.2 Direct-Mapped Caches 


Caches are grouped into different classes based on Æ, the number of cache lines per set. A cache with 
exactly one line per set (Æ = 1) is known as a direct-mapped cache (see Figure 6.27). Direct-mapped 
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set 0: | valid tag cache block } E=1 lines per set 
set 1:| |valid tag cache block 
set S-1:| |valid tag cache block 


Figure 6.27: Direct-mapped cache (E = 1). There is exactly one line per set. 


caches are the simplest both to implement and to understand, so we will use them to illustrate some general 
concepts about how caches work. 


Suppose we have a system with a CPU, a register file, an L1 cache, and a main memory. When the CPU 
executes an instruction that reads a memory word w, it requests the word from the L1 cache. If the L1 cache 
has a cached copy of w, then we have an L1 cache hit, and the cache quickly extracts w and returns it to 
the CPU. Otherwise, we have a cache miss and the CPU must wait while the L1 cache requests a copy of 
the block containg w from the main memory. When the requested block finally arrives from memory, the 
L1 cache stores the block in one of its cache lines, extracts word w from the stored block, and returns it to 
the CPU. The process that a cache goes through of determining whether a request is a hit or a miss, and 
then extracting the requested word consists of three steps: (1) set selection, (2) line matching, and (3) word 
extraction. 


Set Selection in Direct-Mapped Caches 


In this step, the cache extracts the s set index bits from the middle of the address for w. These bits are 
interpreted as an unsigned integer that corresponds to a set number. In other words, if we think of the cache 
as a one-dimensional array of sets, then the set index bits form an index into this array. Figure 6.28 shows 
how set selection works for a direct-mapped cache. In this example, the set index bits 000012 are interpreted 
as an integer index that selects set 1. 


set 0: | |valid tag cache block 
selected set > set 1: | |valid tag cache block 
Tbs 0 5 brs 1] bbits set S-1:| |valid tag cache block 
™ tag set index block offset ° 


Figure 6.28: Set selection in a direct-mapped cache. 


Line Matching in Direct-Mapped Caches 


Now that we have selected some set 2 in the previous step, the next step is to determine if a copy of the 
word w is stored in one of the cache lines contained in set 7. In a direct-mapped cache, this is easy and fast 
because there is exactly one line per set. A copy of w is contained in the line if and only if the valid bit is 
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set and the tag in the cache line matches the tag in the address of w. 


Figure 6.29 shows how line matching works in a direct-mapped cache. In this example, there is exactly one 
cache line in the selected set. The valid bit for this line is set, so we know that the bits in the tag and block 
are meaningful. Since the tag bits in the cache line match the tag bits in the address, we know that a copy 
of the word we want is indeed stored in the line. In other words, we have a cache hit. On the other hand, if 
either the valid bit were not set or the tags did not match, then we would have had a cache miss. 


=1? (1) The valid bit must be set 


selected set (i): 


(2) The tag bits in the cache i 
line must match the 


4 5 6 d 
[wo | w| wa | ws | 


(3) If (1) and (2), then 


ae z cache hit, 
tag bits in the address and block offset 
t bits s bits b bits Selects 
0110 | i 100 starting byte. 
mi tag set index block offset ° 


Figure 6.29: Line matching and word selection in a direct-mapped cache. Within the cache block, wo 
denotes the low-order byte of the word w, w the next byte, and so on. 


Word Selection in Direct-Mapped Caches 


Once we have a hit, we know that w is somewhere in the block. This last step determines where the desired 
word starts in the block. As shown in Figure 6.29, the block offset bits provide us with the offset of the first 
byte in the desired word. Similar to our view of a cache as an array of lines, we can think of a block as an 
array of bytes, and the byte offset as an index into that array. In the example, the block offset bits of 1002 
indicate that the copy of w starts at byte 4 in the block. (We are assuming that words are 4 bytes long.) 


Line Replacement on Misses in Direct-Mapped Caches 


If the cache misses, then it needs to retrieve the requested block from the next level in the memory hierarchy 
and store the new block in one of the cache lines of the set indicated by the set index bits. In general, if the 
set is full of valid cache lines, then one of the existing lines must be evicted. For a direct-mapped cache, 
where each set contains exactly one line, the replacement policy is trivial: the current line is replaced by the 
newly fetched line. 


Putting it Together: A Direct-Mapped Cache in Action 


The mechanisms that a cache uses to select sets and identify lines are extremely simple. They have to be, 
because the hardware must perform them in only a few nanoseconds. However, manipulating bits in this 
way can be confusing to us humans. A concrete example will help clarify the process. Suppose we have a 
direct-mapped cache where 

(S,E,B,m) = (4,1, 2,4) 
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In other words, the cache has four sets, one line per set, 2 bytes per block, and 4-bit addresses. We will also 
assume that each word is a single byte. Of course, these assumptions are totally unrealistic, but they will 
help us keep the example simple. 


When you are first learning about caches, it can be very instructive to enumerate the entire address space 
and partition the bits, as we’ve done in Figure 6.30 for our 4-bit example. There are some interesting things 


Address [Address 人 


(decimal Tag bits | Index bits | Offset bits Block 
equivalent) || (t = 1) (s = 2) (b= 1) number 


© 
© 
© 
j=) 


oo ~ 上 WP 一 


0 
0 
0 
0 
0 
0 
0 
1 
1 
1 
1 
1 
1 
1 
1 


FS Or Or OeFR OF OF Or Or 
NYAANDAUNNFHWBWNNKK CO 


Figure 6.30: 4-bit address for example direct-mapped cache 
to notice about this enumerated space. 


e The concatenation of the tag and index bits uniquely identifies each block in memory. For example, 
block 0 consists of addresses 0 and 1, block 1 consists of addresses 2 and 3, block 2 consists of 
addresses 4 and 5, and so on. 


e Since there are eight memory blocks but only four cache sets, multiple blocks map to the same cache 
set (i.e., they have the same set index). For example, blocks 0 and 4 both map to set 0, blocks 1 and 5 
both map to set 1, and so on. 


e Blocks that map to the same cache set are uniquely identified by the tag. For example, block 0 has a 
tag bit of 0 while block 4 has a tag bit of 1, block 1 has a tag bit of 0 while block 5 has a tag bit of 1. 


Let’s simulate the cache in action as the CPU performs a sequence of reads. Remember that for this example, 
we are assuming that the CPU reads 1-byte words. While this kind of manual simulation is tedious and you 
may be tempted to skip it, in our experience, students do not really understand how caches work until they 
work their way through a few of them. 


Initially, the cache is empty (i.e., each valid bit is 0). 
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[set [valid [tag [ blockToT | blockTi | 


1 ; 
2 0 
3 0 


Each row in the table represents a cache line. The first column indicates the set that the line belongs to, but 
keep in mind that this is provided for convenience and is not really part of the cache. The next three columns 
represent the actual bits in each cache line. Now let’s see what happens when the CPU performs a sequence 
of reads: 


1. Read word at address 0. Since the valid bit for set 0 is zero, this is a cache miss. The cache fetches 
block 0 from memory (or a lower-level cache) and stores the block in set 0. Then the cache returns 
m[0] (the contents of memory location 0) from block[0] of the newly fetched cache line. 


[set [valid [tag [ blockI0T | block 


m[1] 


2. Read word at address 1. This is a cache hit. The cache immediately returns m[1] from block[1] of 
the cache line. The state of the cache does not change. 


3. Read word at address 13. Since the cache line in set 2 is not valid, this is a cache miss. The cache 
loads block 6 into set 2 and returns m[13] from block[1] of the new cache line. 


[set [valid [tag [ blockI0T | block 


4. Read word at address 8. This is a miss. The cache line in set 0 is indeed valid, but the tags do not 
match. The cache loads block 4 into set 0 (replacing the line that was there from the read of address 
0) and returns m[8] from block[0] of the new cache line. 


[set [valid [tag [ block OT | brock 


5. Read word at address 0. This is another miss, due to the unfortunate fact that we just replaced block 
0 during the previous reference to address 8. This kind of miss, where we have plenty of room in the 
cache but keep alternating references to blocks that map to the same set, is an example of a conflict 
miss. 
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Conflict Misses in Direct-Mapped Caches 


Conflict misses are common in real programs and can cause baffling performance problems. Conflict misses 
in direct-mapped caches typically occur when programs access arrays whose sizes are a power of two. For 
example, consider a function that computes the dot product of two vectors: 


sum += x[i] * yl[i]; 
return sum; 


1 float dotprod(float x[8], float y[8]) 
2 { 

3 float sum = 0.0; 

4 int i; 

5 

6 for (i = 0; i < 8; itt) 

7 

8 

9 


} 


This function has good spatial locality with respect to x and y, and so we might expect it to enjoy a good 
number of cache hits. Unfortunately, this is not always true. 


Suppose that floats are 4 bytes, that x is loaded into the 32 bytes of contiguous memory starting at address 
0, and that y starts immediately after x at address 32. For simplicity, suppose that a block is 16 bytes (big 
enough to hold four floats) and that the cache consists of two sets, for a total cache size of 32 bytes. We 
will assume that the variable sum is actually stored in a CPU register and thus doesn’t require a memory 
reference. Given these assumptions, each x [i] and y[i] will map to the identical cache set: 


eset [Ae [Sete [let | ee | Seine 


At runtime, the first iteration of the loop references x [0], a miss that causes the block containing x [0] — 
x [3] to be loaded into set 0. The next reference is to y [0], another miss that causes the block containing 
y [0]-y [3] to be copied into set 0, overwriting the values of x that were copied in by the previous refer- 
ence. During the next iteration, the reference to x [1] misses, which causes the x [0]—x[3] block to be 
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loaded back into set 0, overwriting the y [0 ]—y [3] block. So now we have a conflict miss, and in fact each 
subsequent reference to x and y will result in a conflict miss as we thrash back and forth between blocks 
of x and y. The term thrashing describes any situation where a cache is repeatedly loading and evicting the 
same sets of cache blocks. 


The bottom line is that even though the program has good spatial locality and we have room in the cache to 
hold the blocks for both x [i] and y [i], each reference results in a conflict miss because the blocks map 
to the same cache set. It is not unusual for this kind of thrashing to result in a slowdown by a factor of 2 or 
3. And be aware that even though our example is extremely simple, the problem is real for larger and more 
realistic direct-mapped caches. 


Luckily, thrashing is easy for programmers to fix once they recognize what is going on. One easy solution 
is to put B bytes of padding at the end of each array. For example, instead of defining x to be float 
x [8], we define it to be float x[12]. Assuming y starts immediately after x in memory, we have the 
following mapping of array elements to sets: 


[Element [Address [ Set index || Element | Address | Set index | 

0 0 y[0] 48 1 
y[1] 
y[2] 
y[3] 
y[4] 


y[5] 
y[6] 
y[7] 


With the padding at the end of x, x [i] and y [i] now map to different sets, which eliminates the thrashing 
conflict misses. 


Practice Problem 6.7: 


In the previous dot prod example, what fraction of the total references to x and y will be hits once we 
have padded array x? 


Why Index With the Middle Bits? 


You may be wondering why caches use the middle bits for the set index instead of the high order bits. There 
is a good reason why the middle bits are better. Figure 6.31 shows why. 


If the high-order bits are used as an index, then some contiguous memory blocks will map to the same 
cache set. For example, in the figure, the first four blocks map to the first cache set, the second four blocks 
map to the second set, and so on. If a program has good spatial locality and scans the elements of an array 
sequentially, then the cache can only hold a block-sized chunk of the array at any point in time. This is an 
inefficient use of the cache. 


Contrast this with middle-bit indexing, where adjacent blocks always map to different cache lines. In this 
case, the cache can hold an entire C-sized chunk of the array, where C is the cache size. 
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High-Order Middle-Order 
Bit Indexing Bit Indexing 


set index bits 


Figure 6.31: Why caches index with the middle bits. 


Practice Problem 6.8: 


In general, if the high-order s bits of an address are used as the set index, contiguous chunks of memory 
blocks are mapped to the same cache set. 


A. How many blocks are in each of these contiguous array chunks? 


B. Consider the following code that runs on a system with a cache of the form (S, E, B,m) = 
(512, 1, 32, 32): 


int array[4096]; 


for (i = 0; i < 4096; i++) 
sum += array[il]; 


What is the maximum number of array blocks that are stored in the cache at any point in time? 


6.4.3 Set Associative Caches 
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The problem with conflict misses in direct-mapped caches stems from the constraint that each set has exactly 
one line (or in our terminology, E&E = 1). A set associative cache relaxes this constraint so each set holds 
more than one cache line. A cache with 1 < E < C/B is often called an E-way set associative cache. We 
will discuss the special case, where Æ = C/B, in the next section. Figure 6.32 shows the organization of a 


two-way Set associative cache. 
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valid tag cache block 
set 0: z E=2 lines per set 
valid tag cache block 
valid tag cache block 
set 1: 
valid tag cache block 
valid tag cache block 
set S-1: 
valid tag cache block 


Figure 6.32: Set associative cache (1 < E < C/B). In a set associative cache, each set contains more than 
one line. This particular example shows a 2-way set associative cache. 


Set Selection in Set Associative Caches 


Set selection is identical to a direct-mapped cache, with the set index bits identifying the set. Figure 6.33 
summarizes this. 


valid tag cache block 


set 0: 


valid tag cache block 


Selected set cache block 


set 1: 


cache block 


valid tag cache block 
j i ; -1 : 
t bits = ir | bbits _ setS varia] tag cache block 
™ fag set index block offset ° 


Figure 6.33: Set selection in a set associative cache. 


Line Matching and Word Selection in Set Associative Caches 


Line matching is more involved in a set associative cache than in a direct-mapped cache because it must 
check the tags and valid bits of multiple lines in order to determine if the requested word is in the set. A 
conventional memory is an array of values that takes an address as input and returns the value stored at that 
address. An associative memory, on the other hand, is an array of (key,value) pairs that takes as input the 
key and returns a value from one of the (key,value) pairs that matches the input key. Thus, we can think of 
each set in a set associative cache as a small associative memory where the keys are the concatenation of 
the tag and valid bits, and the values are the contents of a block. 


Figure 6.34 shows the basic idea of line matching in an associative cache. An important idea here is that 
any line in the set can contain any of the memory blocks that map to that set. So the cache must search each 
line in the set, searching for a valid line whose tag matches the tag in the address. If the cache finds such a 
line, then we have a hit and the block offset selects a word from the block as before. 
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selected set (i); tono |] 


(2) The tag bits in one | | 
of the cache lines must = 
match the tag bits in 
the address 


(3) If (1) and (2), then 
cache hit, and 
block offset selects 
starting byte. 


t bits S bits b bits 
0110 i 100 
mi tag setindex block offset ° 


Figure 6.34: Line matching and word selection in a set associative cache. 


Line Replacement on Misses in Set Associative Caches 


If the word requested by the CPU is not stored in any of the lines in the set, then we have a cache miss, and 
the cache must fetch the block that contains the word from memory. However, once the cache as retrieved 
the block, which line should it replace? Of course, if there is an empty line, then it would be a good 
candidate. But if there are no empty lines in the set, then we must choose one of them and hope that the 
CPU doesn’t reference the replaced line anytime soon. 


It is very difficult for programmers to exploit knowledge of the cache replacement policy in their codes, so 
we will not go into much detail. The simplest replacement policy is to choose the line to replace at random. 
Other more sophisticated policies draw on the principle of locality to try to minimize the probability that the 
replaced line will be referenced in the near future. For example, a least-frequently-used (LFU) policy will 
replace the line that has been referenced the fewest times over some past time window. A least-recently-used 
(LRU) policy will replace the line that was last accessed the furthest in the past. All of these policies require 
additional time and hardware. But as we move further down the memory hierarchy, away from the CPU, 
the cost of a miss becomes more expensive and it becomes more worthwhile to minimize misses with good 
replacement policies. 


6.4.4 Fully Associative Caches 


A fully associative cache consists of a single set (i.e., Æ = C/B) that contains all of the cache lines. 
Figure 6.35 shows the basic organization. 


valid tag cache block 
set 0: valid tag cache block E = C/B lines in 
f ae the one and only set 
valid tag cache block 


Figure 6.35: Fully set associative cache (E = C/B). In a fully associative cache, a single set contains all 
of the lines. 
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Set Selection in Fully Associative Caches 


Set selection in a fully associative cache is trivial because there is only one set. Figure 6.36 summarizes. 
Notice that there are no set index bits in the address, which is partitioned into only a tag and a block offset. 


cache block 
The entire cache is one set, so 
by default set 0 is always selected. Set 0: cache block 
t bits b bits cache block 
mi tag block offset ° 


Figure 6.36: Set selection in a fully associative cache. Notice that there are no set index bits 


Line Matching and Word Selection in Fully Associative Caches 


Line matching and word selection in a fully associative cache work the same as with an associated cache, 
as we show in Figure 6.37. The difference is mainly a question of scale. Because the cache circuitry 


=1? (1) The valid bit must be set. 
AAAA 
0 1 2 3 4 5 6 7 
1 1001 
0 0110 
entire cache 
| 1 | 0110 Wo | Wil Wo | Ws | 
0 1110 
w 
(2) The tag bits in one of the =? (3) If (1) and (2), then 
cache lines must match the tag cache hit, and block 
bits in the address offset selects 
t bits b bits starting'byte. 
0110 100 
mi tag block offset ° 


Figure 6.37: Line matching and word selection in a fully associative cache. 


must search for many matching tags in parallel, it is difficult and expensive to build an associative cache 
that is both large and fast. As a result, fully associative caches are only appropriate for small caches, 


such as the translation lookaside buffers (TLBs) in virtual memory systems that cache page table entries 
(Section 10.6.2). 


Practice Problem 6.9: 


The following problems will help reinforce your understanding of how caches work. Assume the fol- 
lowing: 


e The memory is byte addressable. 


e Memory accesses are to 1-byte words (not 4-byte words). 
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e Addresses are 13 bits wide. 


e The cache is 2-way set associative (Æ = 2), with a 4-byte block size (B = 4) and 8 sets (9 = 8). 


The contents of the cache are as follows. All numbers are given in hexadecimal notation. 


2-way Set Associative Cache 


| 
Seer | Te EO Hye TVET] Ty vB ye eT re THES 
09 86 30 3F 10 00 

45 60 4F EO 23 38 
EB OB 
06 32 
C7 05 


71 6E 
91 FO 
46 DE 


The box below shows the format of an address (one bit per box). Indicate (by labeling the diagram) the 
fields that would be used to determine the following: 


CO The cache block offset 
CI The cache set index 
CT The cache tag 


12 11 10 9 8 7 6 5 4 3 2 I Ọ 


Practice Problem 6.10: 


Suppose a program running on the machine in Problem 6.9 references the 1-byte word at address 
0x0E34. Indicate the cache entry accessed and the cache byte value returned in hex. Indicate whether 
a cache miss occurs. If there is a cache miss, enter “—” for “Cache byte returned”. 


A. Address format (one bit per box): 


12 11 10 9 8 7 6 5 4 3 2 1 0 


B. Memory reference: 


Cache hit? (Y/N) | | 
Cache byte returned 
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Practice Problem 6.11: 
Repeat Problem 6.10 for memory address 0x0DD5. 


A. Address format (one bit per box): 


12 11 10 9 8 7 6 5 4 3 2 1 0 


B. Memory reference: 


Cache hit? (Y/N) 
Cache byte returned 


Practice Problem 6.12: 
Repeat Problem 6.10 for memory address 0x1FE4. 


A. Address format (one bit per box): 


12 11 10 9 8 7 6 5 4 3 2 1 0 


B. Memory reference: 


Cache hit? (Y/N) 
Cache byte returned 


Practice Problem 6.13: 


For the cache in Problem 6.9, list all of the hex memory addresses that will hit in Set 3. 


6.4.5 Issues with Writes 


As we have seen, the operation of a cache with respect to reads is straightforward. First, look for a copy of 
the desired word w in the cache. If there is a hit, return word w to the CPU immediately. If there is a miss, 
fetch the block that contains word w from memory, store the block in some cache line (possibly evicting a 
valid line), and then return word w to the CPU. 
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The situation for writes is a little more complicated. Suppose the CPU writes a word w that is already 
cached (a write hit). After the cache updates its copy of w, what does it do about updating the copy of 
w in memory? The simplest approach, known as write-through, is to immediately write w’s cache block 
to memory. While simple, write-through has the disadvantage of causing a write transaction on the bus 
with every store instruction. Another approach, known as write-back, defers the memory update as long as 
possible by writing the updated block to memory only when it is evicted from the cache by the replacement 
algorithm. Because of locality, write-back can significantly reduce the number of bus transactions, but it has 
the disadvantage of additional complexity. The cache must maintain an additional dirty bit for each cache 
line that indicates whether or not the cache block has been modified. 


Another issue is how to deal with write misses. One approach, known as write-allocate, loads the corre- 
sponding memory block into the cache and then updates the cache block. Write-allocate tries to exploit 
spatial locality of writes, but has the disadvantage that every miss results in a block transfer from memory to 
cache. The alternative, known as no-write-allocate, bypasses the cache and writes the word directly to mem- 
ory. Write-through caches are typically no-write-allocate. Write-back caches are typically write-allocate. 


Optimizing caches for writes is a subtle and difficult issue, and we are only touching the surface here. The 
details vary from system to system and are often proprietary and poorly documented. To the programmer 
trying to write reasonably cache-friendly programs, we suggest adopting a mental model that assumes write- 
back write-allocate caches. There are several reasons for this suggestion. 


As a rule, caches at lower levels of the memory hierarchy are more likely to use write-back instead of 
write-through because of the larger transfer times. For example, virtual memory systems (which use main 
memory as acache for the blocks stored on disk) use write-back exclusively. But as logic densities increase, 
the increased complexity of write-back is becoming less of an impediment and we are seeing write-back 
caches at all levels of modern systems. So this assumption matches current trends. Another reason for 
assuming a write-back write-allocate approach is that it is symmetric to the way reads are handled, in that 
write-back write-allocate tries to exploit locality. Thus, we can develop our programs at a high level to 
exhibit good spatial and temporal locality rather than trying to optimize for a particular memory system. 


6.4.6 Instruction Caches and Unified Caches 


So far, we have assumed that caches hold only program data. But in fact, caches can hold instructions as 
well as data. A cache that holds instructions only is known as an i-cache. A cache that holds program data 
only is known as a d-cache. A cache that holds both instructions and data is known as a unified cache. A 
typical desktop systems includes an L1 i-cache and an L1 d-cache on the CPU chip itself, and a separate 
off-chip L2 unified cache. Figure 6.38 summarizes the basic setup. 


Regs KL! d-cache L2 Main 
: i Unified Memor == 
| L1 i-cache — Cache y 


Figure 6.38: A typical multi-level cache organization. 
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Some higher-end systems, such as those based on the Alpha 21164, put the L1 and L2 caches on the CPU 
chip and have an additional off-chip L3 cache. Modern processors include separate on-chip i-caches and 
d-caches in order to improve performance. With two separate caches, the processor can read an instruction 
word and a data word during the same cycle. To our knowledge, no system incorporates an L4 cache, 
although as processor and memory speeds continue to diverge, it is likely to happen. 


Aside: What kind of cache organization does a real system have? 

Intel Pentium systems use the cache organization shown in Figure 6.38, with an on-chip L1 i-cache, an on-chip 
L1 d-cache, and an off-chip unified L2 cache. Figure 6.39 summarizes the basic parameters of these caches. End 
Aside. 


Cache type || Associativity (Æ) | —_ (E) | Associativity (Æ) | Block size (B) Sets (S) Cache size (C) 
on-chip L1 i-cache 128 16 KB 
on-chip L1 d-cache 128 16 KB 


off-chip L2 unified cache 1024-16384 | 128 KB-2 MB 


Figure 6.39: Intel Pentium cache organization. 


6.4.7 Performance Impact of Cache Parameters 
Cache performance is evaluated with a number of metrics: 


e Miss rate. The fraction of memory references during the execution of a program, or a part of a 
program, that miss. It is computed as # misses /# references. 


Hit rate. The fraction of memory references that hit. It is computed as 1 — miss rate. 


e Hit time. The time to deliver a word in the cache to the CPU, including the time for set selection, line 
identification, and word selection. Hit time is typically 1 to 2 clock cycle for L1 caches. 


e Miss penalty. Any additional time required because of a miss. The penalty for L1 misses served from 
L2 is typically 5 to 10 cycles. The penalty for L1 misses served from main memory is typically 25 to 
100 cycles. 


Optimizing the cost and performance trade-offs of cache memories is a subtle exercise that requires exten- 
sive simulation on realistic benchmark codes and is beyond our scope. However, it is possible to identify 
some of the qualitative tradeoffs. 


Impact of Cache Size 


On the one hand, a larger cache will tend to increase the hit rate. On the other hand, it is always harder to 
make big memories run faster. So larger caches tend to decrease the hit time. This is especially important 
for on-chip L1 caches that must have a hit time of one clock cycle. 
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Impact of Block Size 


Large blocks are a mixed blessing. On the one hand, larger blocks can help increase the hit rate by exploiting 
any spatial locality that might exist in a program. However, for a given cache size, larger blocks imply a 
smaller number of cache lines, which can hurt the hit rate in programs with more temporal locality than 
spatial locality. Larger blocks also have a negative impact on the miss penalty, since larger blocks cause 
larger transfer times. Modern systems usually compromise with cache blocks that contain 4 to 8 words. 


Impact of Associativity 


The issue here is the impact of the choice of the parameter Æ, the number of cache lines per set. The 
advantage of higher associativity (i.e., larger values of EF) is that it decreases the vulnerability of the cache 
to thrashing due to conflict misses. However, higher associativity comes at a significant cost. Higher 
associativity is expensive to implement and hard to make fast. It requires more tag bits per line, additional 
LRU state bits per line, and additional control logic. Higher associativity can increase hit time, because 
of the increased complexity, and can also increase the miss penalty because of the increased complexity of 
choosing a victim line. 


The choice of associativity ultimately boils down to a trade-off between the hit time and the miss penalty. 
Traditionally, high-performance systems that pushed the clock rates would opt for direct-mapped L1 caches 
(where the miss penalty is only a few cycles) and a small degree of associativity (say 2 to 4) for the lower 
levels. But there are no hard and fast rules. In Intel Pentium systems, the L1 and L2 caches are all four-way 
set associative. In Alpha 21164 systems, the L1 instruction and data caches are direct-mapped, the L2 cache 
is three-way set associative, and the L3 cache is direct-mapped. 


Impact of Write Strategy 


Write-through caches are simpler to implement and can use a write buffer that works independently of the 
cache to update memory. Furthermore, read misses are less expensive because they do not trigger a memory 
write. On the other hand, write-back caches result in fewer transfers, which allows more bandwidth to 
memory for I/O devices that perform DMA. Further, reducing the number of transfers becomes increasingly 
important as we move down the hierarchy and the transfer times increase. In general, caches further down 
the hierarchy are more likely to use write-back than write-through. 


Aside: Cache lines, sets, and blocks: What's the difference? 
It is easy to confuse the distinction between cache lines, sets, and blocks. Let’s review these ideas and make sure 
they are clear: 


e A block is a fixed sized packet of information that moves back and forth between a cache and main memory 
(or a lower level cache). 


e A line is a container in a cache that stores a block, as well as other information such as the valid bit and the 
tag bits. 


e A set is a collection of one or more lines. Sets in direct-mapped caches consist of a single line. Sets in set 
associative and fully associative caches consist of multiple lines. 
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In direct-mapped caches, sets and lines are indeed equivalent. However, in associative caches, sets and lines are 
very different things and the terms cannot be used interchangeably. 


Since a line always stores a single block, the terms “line” and “block” are often used interchangeably. For example, 
systems professionals usually refer to the “line size” of a cache, when what they really mean is the block size. This 
usage is very common, and shouldn’t cause any confusion, so long as you understand the distinction between blocks 
and lines. End Aside. 


6.5 Writing Cache-friendly Code 


In Section 6.2 we introduced the idea of locality and talked in general terms about what constitutes good 
locality. But now that we understand how cache memories work, we can be more precise. Programs with 
better locality will tend to have lower miss rates, and programs with lower miss rates will tend to run faster 
than programs with higher miss rates. Thus, good programmers should always try to write code that is 
cache-friendly, in the sense that it has good locality. Here is the basic approach we use to try to ensure that 
our code is cache-friendly. 


1. Make the common case go fast. Programs often spend most of their time in a few core functions. 
These functions often spend most of their time in a few loops. So focus on the inner loops of the core 
functions and ignore the rest. 


2. Minimize the number of cache misses in each inner loop. All other things being equal, such as the 
total number of loads and stores, loops with better miss rates will run faster. 


To see how this works in practice, consider the sumvec function from Section 6.2. 


int sumvec(int v[N]) 


{ 


int i, sum = 0; 


1 
2 
3 
4 
5 for (i = 0; i < N; itt) 
6 sum += v[i]; 

7 return sum; 

8 } 


Is this function cache-friendly? First, notice that there is good temporal locality in the loop body with 
respect to the local variables i and sum. In fact, because these are local variables, any reasonable optimizing 
compiler will cache them in the register file, the highest level of the memory hierarchy. Now consider the 
stride-1 references to vector v. In general, if a cache has a block size of B bytes, then a stride-k reference 
pattern (where k is in expressed in words) results in an average of min (1, (wordsize x k)/B) misses per 
loop iteration. This is minimized for k = 1, so the stride-1 references to v are indeed cache-friendly. For 
example, suppose that v is block-aligned, words are 4-bytes, cache blocks are 4 words, and the cache is 
initially empty (a cold cache). Then regardless of the cache organization, the references to v will result in 
the following pattern of hits and misses: 
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In this example, the reference to v [0] misses and the corresponding block, which contains v [0]-v [3], 
is loaded into the cache from memory. Thus, the next three references are all hits. The reference to v[4] 
causes another miss as a new block is loaded into the cache, the next three references are hits, and so on. In 
general, three out of four references will hit, which is the best we can do in this case with a cold cache. 


To summarize, our simple sumvec example illustrates two important points about writing cache-friendly 
code: 


e Repeated references to local variables are good because the compiler can cache them in the register 
file (temporal locality). 


e Stride-1 reference patterns are good because caches at all levels of the memory hierarchy store data 
as contiguous blocks (spatial locality). 


Spatial locality is especially important in programs that operate on multidimensional arrays. For example, 
consider the sumarrayrows function from Section 6.2 that sums the elements of a two-dimensional array 
in row-major order. 


int sumarrayrows (int a[M] [N]) 
{ 


int i, j, sum = 0; 


1 
2 
3 
4 
5 for (i = 0; i < M; itt) 
6 for (j = 0; j < N; j++) 
7 sum += a[i][j]; 

8 return sum; 

9 } 


Since C stores arrays in row-major order, the inner loop of this function has the same desirable stride-1 
access pattern as sumvec. For example, suppose we make the same assumptions about the cache as for 
sumvec. Then the references to the array a will result in the following pattern of hits and misses: 


[a o a | A 6 eT 


i=0 


But consider what happens if we make the seemingly innocuous change of permuting the loops: 
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int sumarraycols(int a[M] [N]) 
{ 


int i, j, sum = 0; 


for (j = 0; J < N; J++) 
for (i = 0; i < M; i++) 
sum += a[i][j]; 
return sum; 


W 00 可- nan oO F&F WYN EF 


In this case we are scanning the array column by column instead of row by row. If we are lucky and the 
entire array fits in the cache, then we will enjoy the same miss rate of 1/4. However, if the array is larger 
than the cache (the more likely case), then each and every access of a [i] [j] will miss! 


Higher miss rates can have a significant impact on running time. For example, on our desktop machine, 
sumarraycols runs in about 20 clock cycles per iteration, while sumarrayrows runs in about 10 
cycles per iteration. To summarize, programmers should be aware of locality in their programs and try to 
write programs that exploit it. 


Practice Problem 6.14: 


Transposing the rows and columns of a matrix is an important problem in signal processing and scientific 
computing applications. It is also interesting from a locality point of view because its reference pattern 
is both row-wise and column-wise. For example, consider the following transpose routine: 


typedef int array[2][2]; 


void transposel(array dst, array src) 
{ 


int i, j; 


for (i = 0; i < 2; i++) { 
for (j = 0; j < 2; j++) { 
dst[j] [i] = sre[i][j]; 


Oo DOAN Do PF WN KB 


10 } 
11 } 
12 } 


Assume this code runs on a machine with the following properties: 


e sizeof (int) == 4. 
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The src array starts at address 0 and the dst array starts at address 16 (decimal). 


There is a single L1 data cache that is direct-mapped, write-through, and write-allocate, with a 
block size of 8 bytes. 


The cache has a total size of 16 data bytes and the cache is initially empty. 


Accesses to the src and dst arrays are the only sources of read and write misses, respectively. 


A. For each row and col, indicate whether the access to src [row] [col] anddst [row] [col] 
is a hit (h) or a miss (m). For example, reading src [0] [0] is a miss and writing dst [0] [0] 
is also a miss. 

— [Too lor 
owo] m | }) [rwol m | 
prowl] | | prowl] | | 

B. Repeat the problem for a cache with 32 data bytes. 

Practice Problem 6.15: 


The heart of the recent hit game SimAquarium is a tight loop that calculates the average position of 256 
algae. You are evaluating its cache performance on a machine with a 1024-byte direct-mapped data 
cache with 16-byte blocks (B = 16). You are given the following definitions: 


aA DO FF WN BEB 


struct algae_position { 
int x; 
int y; 

}; 


struct algae_position grid[16] [16]; 
int total_x = 0, total_y = 0; 
ine ip JF 


You should also assume: 


sizeof (int) == 
grid begins at memory address 0. 
The cache is initially empty. 


The only memory accesses are to the entries of the array grid. Variables i, j, total-x, and 
total_y are stored in registers. 


Determine the cache performance for the following code: 


a e WN FB 


for (i = 0; i < 16; i++) { 
for (j = 0; J < 16; j++) { 
total_x += grid[i][j].x; 
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6 

7 for (i = 0; i < 16; i++) { 

8 for (Jj = 0; J < 16; J++) { 
9 total_y += grid[i][j].y; 
10 } 

ii } 


A. What is the total number of reads? 
B. What is the total number of reads that miss in the cache? 


C. What is the miss rate? 


Practice Problem 6.16: 


Given the assumptions of Problem 6.15, determine the cache performance of the following code: 


for (i = 0; i < 16; i++){ 
for (j = 0; j < 16; j++) { 
total_x += grid[j] [i].x; 
total_y += grid[j][il.y; 


no oO F WY BP 


} 


A. What is the total number of reads? 
B. What is the total number of reads that miss in the cache? 
C. What is the miss rate? 


D. What would the miss rate be if the cache were twice as big? 


Practice Problem 6.17: 


Given the assumptions of Problem 6.15, determine the cache performance of the following code: 


for (i = 0; i < 16; i++){ 
for (J = 0; J < 16; jt+t) { 
total_x += grid[i][j].x; 
total_y += grid[i][jl.y; 


nN oO F WY BP 


} 


A. What is the total number of reads? 
B. What is the total number of reads that miss in the cache? 
C. What is the miss rate? 


D. What would the miss rate be if the cache were twice as big? 


6.6. PUTTING IT TOGETHER: THE IMPACT OF CACHES ON PROGRAM PERFORMANCE 327 
6.6 Putting it Together: The Impact of Caches on Program Performance 


This section wraps up our discussion of the memory hierarchy by studying the impact that caches have on 
the performance of programs running on real machines. 


6.6.1 The Memory Mountain 


The rate that a program reads data from the memory system is called the read throughput, or sometimes the 
read bandwidth. If a program reads n bytes over a period of s seconds, then the read throughput over that 
period is n/s, typically expressed in units of MBytes per second (MB/s). 


If we were to write a program that issued a sequence of read requests from a tight program loop, then the 
measured read throughput would give us some insight into the performance of the memory system for that 
particular sequence of reads. Figure 6.40 shows a pair of functions that measure the read throughput for a 
particular read sequence. 


code/mem/mountain/mountain.c 


1 void test(int elems, int stride) /* The test function */ 

2 { 

3 int i, result = 0; 

4 volatile int sink; 

5 

6 for (i = 0; i < elems; i += stride) 

7 result += data[i]; 

8 sink = result; /* So compiler doesn’t optimize away the loop */ 

oy 

0 

1 /* Run test (elems, stride) and return read throughput (MB/s) */ 

2 double run(int size, int stride, double Mhz) 

3 { 

4 double cycles; 

5 int elems = size / sizeof(int); 

6 

7 test(elems, stride); /* warm up the cache */ 

8 cycles = fcyc2(test, elems, stride, 0); /* call test(elems,stride) */ 
9 return (size / stride) / (cycles / Mhz); /* convert cycles to MB/s */ 
20 } 


code/mem/mountain/mountain.c 


Figure 6.40: Functions that measure and compute read throughput. 


The test function generates the read sequence by scanning the first elems elements of an integer array 
with a stride of stride. The run function is a wrapper that calls the test function and returns the 
measured read throughput. The fcyc2 function in line 18 (not shown) estimates the running time of the 
test function, in CPU cycles, using the K-best measurement scheme described in Chapter 9. Notice that 
the size argument to the run function is in units of bytes, while the corresponding elems argument to 
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the test function is in units of words. Also, notice that line 19 computes MB/s as 10° bytes/s, as opposed 
to 220 bytes/s. 


The size and stride arguments to the run function allow us to control the degree of locality in the re- 
sulting read sequence. Smaller values of size result in a smaller working set size, and thus more temporal 
locality. Smaller values of st ride result in more spatial locality. If we call the run function repeatedly 
with different values of size and stride, then we can recover a two-dimensional function of read band- 
width versus temporal and spatial locality called the memory mountain. Figure 6.41 shows a program, called 
mountain, that generates the memory mountain. 


code/mem/mountain/mountain.c 


1 #include <stdio.h> 

2 #include "fcyc2.h" /* K-best measurement timing routines */ 

3 #include "clock.h" /* routines to access the cycle counter */ 

4 

5 #define MINBYTES (1 << 10) /* Working set size ranges from 1 KB */ 
6 #define MAXBYTES (1 << 23) /* ... up to 8 MB */ 

7 #define MAXSTRIDE 16 /* Strides range from 1 to 16 */ 

8 #define MAXELEMS MAXBYTES/sizeof (int) 

9 

0 int data [MAXELEMS]; /* The array we'll be traversing */ 

1 

2 int main() 

3 { 

4 int size; /* Working set size (in bytes) */ 

5 int stride; /* Stride (in array elements) */ 

6 double Mhz; /* Clock frequency */ 

7 

8 init_data(data, MAXELEMS); /* Initialize each element in data to 1 */ 
9 Mhz = mhz(0); /* Estimate the clock frequency */ 
20 for (size = MAXBYTES; size >= MINBYTES; size >>= 1) { 

21 for (stride = 1; stride <= MAXSTRIDE; stride++) { 

22 printf("%.1f\t", run(size, stride, Mhz)); 

23 } 

24 printf ("\n"); 

25 } 

26 exit (0); 

27 } 


code/mem/mountain/mountain.c 


Figure 6.41: mountain: A program that generates the memory mountain. 


The mountain program calls the run function with different working set sizes and strides. Working set 
sizes start at 1 KB, increasing by a factor of two, to a maximum of 8 MB. Strides range from 1 to 16. 
For each combination of working set size and stride, mountain prints the read throughout, in units of 
MB/s. The mhz function in line 19 (not shown) is a system-dependent routine that estimates the CPU clock 
frequency, using techniques described in Chapter 9. 
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Every computer has a unique memory mountain that characterizes the capabilities of its memory system. 
For example, Figure 6.42 shows the memory mountain for an Intel Pentium II Xeon system. 
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Figure 6.42: The memory mountain. 


The geography of the Xeon mountain reveals a rich structure. Perpendicular to the size axis are three 
ridges that correspond to the regions of temporal locality where the working set fits entirely in the L1 cache, 
the L2 cache, and main memory respectively. Notice that there is an order of magnitude difference between 
the highest peak of the L1 ridge, where the CPU reads at a rate of 1 GB/s, and the lowest point of the main 
memory ridge, where the CPU reads at a rate of 80 MB/s. 


There are two features of the L1 ridge that should be pointed out. First, for a constant stride, notice how 
the read throughput plummets as the working set size decreases from 16 KB to 1 KB (falling off the back 
side of the ridge). Second, for a working set size of 16 KB, the peak of the L1 ridge line decreases with 
increasing stride. Since the L1 cache holds the entire working set, these features do not reflect the true L1 
cache performance. They are artifacts of overheads of calling the test function and setting up to execute 
the loop. For the small working set sizes along the L1 ridge, these overheads are not amortized, as they are 
with the larger working set sizes. 


On the L2 and main memory ridges, there is a slope of spatial locality that falls downhill as the stride 
increases. This slope is steepest on the L2 ridge because of the large absolute miss penalty that the L2 cache 
suffers when it has to transfer blocks from main memory. Notice that even when the working set is too large 
to fit in either of the L1 or L2 caches, the highest point on the main memory ridge is a factor of two higher 
than its lowest point. So even when a program has poor temporal locality, spatial locality can still come to 
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the rescue and make a significant difference. 


If we take a slice through the mountain, holding the stride constant as in Figure 6.43, we can see quite 
clearly the impact of cache size and temporal locality on performance. For sizes up to and including 16 KB, 
the working set fits entirely in the L1 d-cache, and thus reads are served from L1 at the peak throughput of 
about 1 GB/s. For sizes up to and including 256 KB, the working set fits entirely in the unified L2 cache. 
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Figure 6.43: Ridges of temporal locality in the memory mountain. The graph shows a slice through 
Figure 6.42 with stride=1. 


Larger working set sizes are served primarily from main memory. The drop in read throughput between 256 
KB and 512 KB is interesting. Since the L2 cache is 512 KB, we might expect the drop to occur at 512 KB 
instead of 256 KB. The only way to be sure is to perform a detailed cache simulation, but we suspect the 
reason lies in the fact that the Pentium II L2 cache is a unified cache that holds both instructions and data. 
What we might be seeing is the effect of conflict misses between instructions and data in L2 that make it 
impossible for the entire array to fit in the L2 cache. 


Slicing through the mountain in the opposite direction, holding the working set size constant, gives us some 
insight into the impact of spatial locality on the read throughput. For example, Figure 6.44 shows the slice 
for a fixed working set size of 256 KB. This slice cuts along the L2 ridge in Figure 6.42, where the working 
set fits entirely in the L2 cache, but is too large for the L1 cache. Notice how the read throughput decreases 
steadily as the stride increases from | to 8 words. In this region of the mountain, a read miss in L1 causes 
a block to be transferred from L2 to L1. This is followed by some number of hits on the block in L1, 
depending on the stride. As the stride increases, the ratio of L1 misses to L1 hits increases. Since misses 
are served slower than hits, the read throughput decreases. Once the stride reaches 8 words, which on this 
system equals the block size, every read request misses in L1 and must be served from L2. Thus the read 
throughput for strides of at least 8 words is a constant rate determined by the rate that cache blocks can be 
transferred from L2 into L1. 


To summarize our discussion of the memory mountain: The performance of the memory system is not 
characterized by a single number. Instead, it is a mountain of temporal and spatial locality whose elevations 
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Figure 6.44: A slope of spatial locality. The graph shows a slice through Figure 6.42 with size=256 KB. 


can vary by over an order of magnitude. Wise programmers try to structure their programs so that they run 
in the peaks instead of the valleys. The aim is to exploit temporal locality so that heavily used words are 
fetched from the L1 cache, and to exploit spatial locality so that as many words as possible are accessed 
from a single L1 cache line. 


Practice Problem 6.18: 


The memory mountain in Figure 6.42 has two axes: stride and working set size. Which axis corresponds 
to spatial locality? Which axis corresponds to temporal locality? 


Practice Problem 6.19: 


As programmers who care about performance, it is important for us to know rough estimates of the 
access times to different parts of the memory hierarchy. Using the memory mountain in Figure 6.42, 
estimate the time, in CPU cycles, to read a 4-byte word from: 


A. The on-chip L1 d-cache. 
B. The off-chip L2 cache. 


C. Main memory. 


Assume that the read throughput at (size=16M, stride=16) is 80 MB/s. 


6.6.2 Rearranging Loops to Increase Spatial Locality 


Consider the problem of multiplying a pair of n x n matrices: C = AB. For example, if n = 2, then 


cu cl2 | | au ai bit b12 
C21 C22 a21 A22 b21 b22 
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where 
cll = Q11011 + a12b21 
cl2 = Q11012 十 Q12022 
c21 = Q21011 十 Q22021 
C22 = Qa21012 + Q22022 


Matrix multiply is usually implemented using three nested loops, which are identified by their indexes 2, j, 
and k. If we permute the loops and make some other minor code changes, we can create the six functionally 
equivalent versions of matrix multiply shown in Figure 6.45. Each version is uniquely identified by the 
ordering of its loops. 


At a high level, the six versions are quite similar. If addition is associative, then each version computes 
an identical result.? Each version performs O(n3) total operations and an identical number of adds and 
multiplies. Each of the n? elements of A and B is read n times. Each of the n? elements of C is computed 
by summing n values. However, if we analyze the behavior of the innermost loop iterations, we find that 
there are differences in the number of accesses and the locality. For the purposes of our analysis, let’s make 
the following assumptions: 


e Each array is ann x n array of double, with sizeof (double) == 8. 
e There is a single cache with a 32-byte block size (B = 32). 
e The array size n is so large that a single matrix row does not fit in the L1 cache. 


e The compiler stores local variables in registers, and thus references to local variables do not require 
any load or store instructions. 


Figure 6.46 summarizes the results of our inner loop analysis. Notice that the six versions pair up into 
three equivalence classes, which we denote by the pair of matrices that are accessed in the inner loop. For 
example, versions ijk and jik are members of Class AB because they reference arrays A and B (but not 
C) in their innermost loop. For each class, we have counted the number of loads (reads) and stores (writes) 
in each inner loop iteration, the number of references to A, B, and C that will miss in the cache in each loop 
iteration, and the total number of cache misses per iteration. 


The inner loops of the Class AB routines (Figure 6.45(a) and (b)) scan a row of array A with a stride of 
1. Since each cache block holds four doublewords, the miss rate for A is 0.25 misses per iteration. On the 
other hand, the inner loop scans a column of B with a stride of n. Since n is large, each access of array B 
results in a miss, for a total of 1.25 misses per iteration. 


The inner loops in the Class AC routines (Figure 6.45(c) and (d)) have some problems. Each iteration 
performs two loads and a store (as opposed to the Class AB routines, which perform 2 loads and no stores). 
Second, the inner loop scans the columns of A and C with a stride of n. The result is a miss on each load, for 

? As we learned in Chapter 2, floating-point addition is commutative, but in general not associative. In practice, if the matrices 


do not mix extremely large values with extremely small ones, as if often true when the matrices store physical properties, then the 
assumption of associativity is reasonable. 
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code/mem/matmult/mm.c 


for (i = 0; i < ny itt) 
for (j = 0; j< n; 
sum = 0.0; 
for (k = 0; k < n; k++) 
sum += A[i] [k]*B[k] [j]; 
Clil[j] += sum; 


gee) 4 


code/mem/matmult/mm.c 
(a) Version ijk. 
code/mem/matmult/mm.c 


for (j = 0; j < n; j++) 
for (k = 0; k< n; 
B[k] [j]; 
for (i = 0; i < n; i++) 
Cflil[j] +s Ali] [k]*r; 


k++) { 


r= 


code/mem/matmult/mm.c 
(c) Version jki. 


code/mem/matmult/mm.c 


for (k = 0; k < n; k++) 
for (i = 0; i < n; i++) { 
eA ERI 
for (j = 0; J < nj JFE) 
Cflilf[j] += r*B(k] [5]; 


code/mem/matmult/mm.c 


(e) Version kij. 
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code/mem/matmult/mm.c 


for (Jj = 0; j < ny J++) 
for (i = 0; i < n; i++) { 
sum = 0.0; 
for (k = 0; k < n; k++) 
sum += A[i][k]*B[k][jl; 
C[i] [j] += sum; 
} 
code/mem/matmult/mm.c 
(b) Version jik. 
code/mem/matmult/mm.c 
for (k = 0; k < n; k++) 
for (j = 0; 3 < n; Jjt+t) { 
r = BIk] [35]; 


for (i = 0; i < n; itt) 
Cli] [j] += Ali] [k]*r; 


code/mem/matmult/mm.c 
(d) Version kji. 


code/mem/matmult/mm.c 


for (i = 0; i < n; i++) 
for (k = 0; k < n; k++) { 
r = A[i] [k]; 
for (J = 0; j < nj Jtt) 
Cli] [3] += r*B(k] [5]; 


code/mem/matmult/mm.c 


(f) Version ikj. 


Figure 6.45: Six versions of matrix multiply. 


Matrix multiply | Loads | Stores misses misses | C misses | Total misses 
version (class) | per iter -一 iter | per iter per iter per iter per iter 


ijk & jik (AB) 
jki & kji (AC) 
kij & ikj (BC) 


2 
2 i 
2 1 


0.25 
1.00 
0.00 


1.25 
2.00 
0.50 


1.00 
0.00 
0.25 


0.00 
1.00 
0.25 


Figure 6.46: Analysis of matrix multiply inner loops. The six versions partition into three equivalence 
classes, denoted by the pair of arrays that are accessed in the inner loop. 
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a total of two misses per iteration. Notice that interchanging the loops has decreased the amount of spatial 
locality compared to the Class AB routines. 


The BC routines (Figure 6.45(e) and (f)) present an interesting tradeoff. With two loads and a store, they 
require one more memory operation than the AB routines. On the other hand, since the inner loop scans 
both B and C row-wise with a stride-1 access pattern, the miss rate on each array is only 0.25 misses per 
iteration, for a total of 0.50 misses per iteration. 


Figure 6.47 summarizes the performance of different versions of matrix multiply on a Pentium III Xeon 
system. The graph plots the measured number of CPU cycles per inner loop iteration as a function of array 


size (n). 
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Figure 6.47: Pentium III Xeon matrix multiply performance. Legend: kji and jki: Class AC; kij and 
ikj: Class BC; ijk and jik: Class AB 


There are a number of interesting points to notice about this graph: 


e For large n, the fastest version runs three times faster than the slowest version, even though each 
performs the same number of floating-point arithmetic operations. 


e Versions with the same number and locality of memory accesses have roughly the same measured 


performance. 


e The two versions with the worst memory behavior, in terms of the number of accesses and misses 
per iteration, run significantly slower than the other four versions, which have fewer misses or fewer 
accesses, or both. 


e The Class AB routines — 2 memory accesses and 1.25 misses per iteration — perform somewhat 
better on this particular machine than the Class BC routines — 3 memory accesses and 0.5 misses 
per iteration — which trade off an additional memory reference for a lower miss rate. The point is that 
cache misses are not the whole story when it comes to performance. The number of memory accesses 
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is also important, and in many cases, finding the best performance involves a tradeoff between the 
two. Problems 6.32 and 6.33 delve into this issue more deeply. 


6.6.3 Using Blocking to Increase Temporal Locality 


In the last section we saw how some simple rearrangements of the loops could increase spatial locality. 
But observe that even with good loop nestings, the time per loop iteration increases with increasing array 
size. What is happening is that as the array size increases, the temporal locality decreases, and the cache 
experiences an increasing number of capacity misses. To fix this, we can use a general technique called 
blocking. However, we must point out that, unlike the simple loop transformations for improving spatial lo- 
cality, blocking makes the code harder to read and understand. For this reason it is best suited for optimizing 
compilers or frequently executed library routines. Still, the technique is interesting to study and understand 
because it is a general concept that can produce big performance gains. 


The general idea of blocking is to organize the data structures in a program into large chunks called blocks. 
(In this context, the term “block” refers to an application-level chunk of data, not a cache block.) The 
program is structured so that it loads a chunk into the L1 cache, does all the reads and writes that it needs to 
on that chunk, then discards the chunk, loads in the next chunk, and so on. 


Blocking a matrix multiply routine works by partitioning the matrices into submatrices and then exploiting 
the mathematical fact that these submatrices can be manipulated just like scalars. For example, if n = 8, 
then we could partition each matrix into four 4 x 4 submatrices: 


Ci Co |_| Au A By Bie 
C21 C22 421 422 Ba B22 
where 
Cy, = AwyBy + Ai2B21 
Cig = AiiB12 + Ai2B22 
Co, = Agi By + A22 B21 
C22 = Ao Big + A22 B22 


Figure 6.48 shows one version of blocked matrix multiplication, which we call the bijk version. The basic 
idea behind this code is to partition A and C into 1 x bsize row slivers and to partition B into bsize x bsize 
blocks. The innermost (j, k) loop pair multiplies a sliver of A by a block of B and accumulates the result 
into a sliver of C. The 1 loop iterates through n row slivers of A and C, using the same block in B. 


Figure 6.49 gives a graphical interpretation of the blocked code from Figure 6.48. The key idea is that it 
loads a block of B into the cache, uses it up, and then discards it. References to A enjoy good spatial locality 
because each sliver is accessed with a stride of 1. There is also good temporal locality because the entire 
sliver is referenced bsize times in succession. References to B enjoy good temporal locality because the 
entire bsize x bsize block is accessed n times in succession. Finally, the references to C have good spatial 
locality because each element of the sliver is written in succession. Notice that references to C do not have 
good temporal locality because each sliver is only accessed one time. 
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void bijk (array A, 


int i, j, k, k 
double sum; 
int en = bsize 


for (i = 0; i 
for (j= 0 
Clillj 


for (kk = 0; k 

for (jj = 
for (i 
fo 
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code/mem/matmult/bmm.c 


array B, array C, int n, int bsize) 
k, jj; 
* (n/bsize); /* Amount that fits evenly into blocks */ 


< n; i++) 


; j < n; jtt) 
] = 0.0; 
k < en; kk += bsize) { 


0; jj < en; jj += bsize) { 
= 0; i < n; i++) { 
r (j = jj; j < jj + bsize; j++) { 
sum = C[i][j]; 
for (k = kk; k < kk + bsize; k++) { 
sum += A[i][k]*B[k] [j]; 


} 
C[i] [j] = sum; 


code/mem/matmult/bmm.c 


Figure 6.48: Blocked matrix multiply. A simple version that assumes that the array size (n) is an integral 
multiple of the block size (bsize). 


kk jj ji 
— 一 — 
i bsize bsize i bsize 
i kk bsize i 
A B C 
; i F > Update successive 
Use 1 x bsize row sliver Use bsize x bsize block P , 
- elements of 1 x bsize 
bsize times ntimes in succession 


row sliver 


Figure 6.49: Graphical interpretation of blocked matrix multiply The innermost (j, k) loop pair mul- 
tiplies a 1 x bsize sliver of A by a bsize x bsize block of B and accumulates into a 1 x bsize sliver of 


C. 
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Blocking can make code harder to read, but it can also pay big performance dividends. Figure 6.50 shows 
the performance of two versions of blocked matrix multiply on a Pentium III Xeon system (bsize = 25). 
Notice that blocking improves the running time by a factor of two over the best non-blocked version, from 
about 20 cycles per iteration down to about 10 cycles per iteration. The other interesting impact of blocking 
is that the time per iteration remains nearly constant with increasing array size. For small array sizes, the 
additional overhead in the blocked version causes it to run slower than the non-blocked versions. There is a 
crossover point, at about n = 100, after which the blocked version runs faster. 
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Figure 6.50: Pentium III Xeon blocked matrix multiply performance. Legend: bijk and bikj: two 
different versions of blocked matrix multiply. Performance of the unblocked versions from Figure 6.47 is 
shown for reference. 


Aside: Caches and streaming media workloads 

Applications that process network video and audio data in real time are becoming increasingly important. In these 
applications, the data arrive at the machine in a steady stream from some input device such as a microphone, a 
camera, or a network connection (see Chapter 12). As the data arrive, they are processed, sent to an output device, 
and eventually discarded to make room for newly arriving data. 


How well suited is the memory hierarchy for these streaming media workloads? Since the data are processed 
sequentially as they arrive, we able to derive some benefit from spatial locality, as with our matrix multiply example 
from Section 6.6. However, since the data are processed once and then discarded, the amount of temporal locality 
is limited. 


To address this problem, system designers and compiler writers have pursued a strategy known as prefetching. 
The idea is to hide the latency of cache misses by anticipating which blocks will be accessed in the near future, 
and then fetching these blocks into the cache beforehand using special machine instructions. If the prefetching is 
done perfectly, then each block is copied into the cache just before the program references it, and thus every load 
instruction results in a cache hit. Prefetching entails risks, though. Since prefetching traffic shares the bus with the 
DMA traffic that is streaming from an I/O device to main memory, too much prefetching might interfere with the 
DMA traffic and slow down overall system performance. Another potential problem is that every prefetched cache 
block must evict an existing block. If we do too much prefetching, we run the risk of polluting the cache by evicting 
a previously prefetched block that the program has not referenced yet, but will in the near future. End Aside. 
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6.7 Summary 


The memory system is organized as a hierarchy of storage devices, with smaller, faster devices towards the 
top and larger, slower devices towards the bottom. Because of this hierarchy, the effective rate that a program 
can access memory locations is not characterized by a single number. Rather, it is a wildly varying function 
of program locality (what we have dubbed the memory mountain) that can vary by orders of magnitude. 
Programs with good locality access most of their data from fast L1 and L2 cache memories. Programs with 
poor locality access most of their data from the relatively slow DRAM main memory. 


Programmers who understand the nature of the memory hierarchy can exploit this understanding to write 
more efficient programs, regardless of the specific memory system organization. In particular, we recom- 
mend the following techniques: 


e Focus your attention on the inner loops where the bulk of the computations and memory accesses 
occur. 


e Try to maximize the spatial locality in your programs by reading data objects sequentially, in the order 
they are stored in memory. 


e Try to maximize the temporal locality in your programs by using a data object as often as possible 
once it has been read from memory. 


e Remember that miss rates are only one (albeit important) factor that determines the performance 
of your code. The number of memory accesses also plays an important role, and sometimes it is 
necessary to trade off between the two. 


Bibliographic Notes 


Memory and disk technologies change rapidly. In our experience, the best sources of technical informa- 
tion are the Web pages maintained by the manufacturers. Companies such as Micron, Toshiba, Hyundai, 
Samsung, Hitachi, and Kingston Technology provide a wealth of current technical information on memory 
devices. The pages for IBM, Maxtor, and Seagate provide similarly useful information about disks. 


Textbooks on circuit and logic design provide detailed information about memory technology [36, 58]. IEEE 
Spectrum published a series of survey articles on DRAM [33]. The International Symposium on Computer 
Architecture (ISCA) is acommon forum for characterizations of DRAM memory performance [20, 21]. 


Wilkes wrote the first paper on cache memories [83]. Smith wrote a classic survey [68]. Przybylski wrote 
an authoritative book on cache design [56]. Hennessy and Patterson provide a comprehensive discussion of 
cache design issues [31]. 


Stricker introduced the idea of the memory mountain as a comprehensive characterization of the memory 
system in [78], and suggested the term “memory mountain” in later presentations of the work. Compiler 
researchers work to increase locality by automatically performing the kinds manual code transformations 
we discussed in Section 6.6 [13, 23, 42, 45, 51, 57, 85]. Carter and colleagues have proposed a cache- 
aware memory controller [10]. Seward developed an open-source cache profiler, called cacheprof, that 
characterizes the miss behavior of C programs on an arbitrary simulated cache (www. cacheprof.org). 
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There is a large body of literature on building and using disk storage. Many storage researchers look for ways 
to aggregate individual disks into larger, more robust, and more secure storage pools [11, 26, 27, 54, 86]. 
Others look for ways to use caches and locality to improve the performance of disk accesses [6, 12]. Systems 
such as Exokernel provide increased user-level control of disk and memory resources [35]. Systems such 
as the Andrew File System [50] and Coda [63] extend the memory hierarchy across computer networks and 
mobile notebook computers. Schindler and Ganger have developed an interesting tool that automatically 
characterizes the geometry and performance of SCSI disk drives [64]. 


Homework Problems 


Homework Problem 6.20 [Category 2]: 


Suppose you are asked to design a diskette where the number of bits per track is constant. You know that the 
number of bits per track is determined by the circumference of the innermost track, which you can assume 
is also the circumference of the hole. Thus, if you make the hole in the center of the diskette larger, the 
number of bits per track increases, but the total number of tracks decreases. If you let r denote the radius of 
the platter, and x - r the radius of the hole, what value of x maximizes the capacity of the diskette? 


Homework Problem 6.21 [Category 1]: 


The following table gives the parameters for a number of different caches. For each cache, determine the 
number of cache sets (S), tag bits (t), set index bits (s), and block offset bits (b). 


[cet mi e |e] ags 
~ie oaa a | | | 
a 4 | s 
Tas a S 


4 | 32 [1024| 8 [183] J p [ | 
| 5. | 32 [1024|32 |i P f ÙT | 
| 6 |32 |104| 32 |4] | | Ù | 


Homework Problem 6.22 [Category 1]: 


This problem concerns the cache in Problem 6.9. 


A. List all of the hex memory addresses that will hit in Set 1. 


B. List all of the hex memory addresses that will hit in Set 6. 


Homework Problem 6.23 [Category 2]: 


Consider the following matrix transpose routine: 


1 typedef int array[4][4]; 
2 
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3 void transpose2 (array dst, array src) 
4 { 

5 int i, J; 

6 

7 for (i = 0; i < 4; itt) { 

8 for (j = 0; j < 4; j++) { 

9 ast [j] [i] = srelil[j]; 

10 } 

11 } 

12 } 


Assume this code runs on a machine with the following properties: 


e sizeof (int) == 4. 
e The src array starts at address 0 and the dst array starts at address 64 (decimal). 


e There is a single L1 data cache that is direct-mapped, write-through, write-allocate,with a block size 
of 16 bytes. 


e The cache has a total size of 32 data bytes and the cache is initially empty. 
e Accesses to the src and dst arrays are the only sources of read and write misses, respectively. 
A. For each row and col, indicate whether the access to src [row] [col] and dst [row] [col] is 


a hit (h) or a miss (m). For example, reading src [0] [0] is a miss and writing dst [0] [0] is also 
a miss. 


dst array src array 


— pono on Toot fers} | eol colt [col [col 


Homework Problem 6.24 [Category 2]: 
Repeat Problem 6.23 for a cache with a total size of 128 data bytes. 


dst array src array 


[fet colt [oot Poots] [Pool | col t [ook [eats | 
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Homework Problem 6.25 [Category 1]: 


3M decides to make Post-Its by printing yellow squares on white pieces of paper. As part of the printing 
process, they need to set the CMYK (cyan, magenta, yellow, black) value for every point in the square. 
3M hires you to determine the efficiency of the following algorithms on a machine with a 2048-byte direct- 
mapped data cache with 32-byte blocks. You are given the following definitions: 


1 struct point_color { 
2 int c; 

3 int m; 

4 int y; 

5 int k; 

6 }F 

7 


8 struct point_color square[16] [16]; 
9 int i, j; 
Assume: 


e sizeof (int) == 4. 
e square begins at memory address 0. 
e The cache is initially empty. 


e The only memory accesses are to the entries of the array square. Variables i and j are stored in 
registers. 


Determine the cache performance of the following code: 


for (i = 0; i < 16; itt) { 
for (j = 0; J < 16; J++) { 
square[i][j].c = 0; 
square[i][j]. 
square[i][j]. 
square[i][j]. 


0; 
= J 
0 


r 
了 


0 ~q nA oO F WY BF 
ak 8 
| 


} 


A. What is the total number of writes? 
B. What is the total number of writes that miss in the cache? 


C. What is the miss rate? 


Homework Problem 6.26 [Category 1]: 


Given the assumptions in Problem 6.25, determine the cache performance of the following code: 
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for (i = 0; i < 16; itt) { 
for (J = 0; 3 < 16; JFF) f{ 
square[j][i].c = 0; 
square[j] [il]. 
square[j] [il]. 


0 
= 1: 
square[j] [il]. 0 


了 
r 
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A. What is the total number of writes? 
B. What is the total number of writes that miss in the cache? 


C. What is the miss rate? 


Homework Problem 6.27 [Category 1]: 


Given the assumptions in Problem 6.25, determine the cache performance of the following code: 


1 for (i = 0; i < 16; itt) { 

2 for (j = 0; J < 16; J++) { 
3 square[i][j].y = 1; 

4 } 

5 } 

6 for (i = 0; i < 16; itt) { 

7 for (j = 0; j < 16; j++) { 
8 square[i][j].c = 0; 

9 square[i][j].m = 0; 

10 square[i][j].k = 0; 

11 } 

12 } 


A. What is the total number of writes? 
B. What is the total number of writes that miss in the cache? 


C. What is the miss rate? 


Homework Problem 6.28 [Category 2]: 


You are writing a new 3D game that you hope will earn you fame and fortune. You are currently working 
on a function to blank the screen buffer before drawing the next frame. The screen you are working with is 
a 640 x 480 array of pixels. The machine you are working on has a 64 KB direct-mapped cache with 4-byte 
lines. The C structures you are using are: 
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struct pixel { 
char r; 
char g; 
char b; 
char a; 

}; 


struct pixel buffer[480] [640]; 
ine ip -J7 

10 char *cptr; 

11 int *iptr; 


wo OA n oO F&F WYN EF 


Assume: 


e sizeof(char) == landsizeof(int) == 4 
e buffer begins at memory address 0. 
e The cache is initially empty. 


e The only memory accesses are to the entries of the array buffer. Variables i, j, cotr, and iptr 
are stored in registers. 


What percentage of writes in the following code will miss in the cache? 


for (j = 0; j < 640; j++) { 
for (i = 0; i < 480; itt) { 
buffer[i][j].r = 0; 
buffer[i][j].g = 0; 
0 
0 


F 


buffer[i][j].b = 
buffer[i][j].a 
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Homework Problem 6.29 [Category 2]: 


Given the assumptions in Problem 6.28, what percentage of writes in the following code will miss in the 
cache? 


1 char *cptr = (char *) buffer; 
2 for (; cptr < (((char *) buffer) + 640 * 480 * 4); cptr++) 
3 *cptr = 0; 


Homework Problem 6.30 [Category 2]: 


Given the assumptions in Problem 6.28, what percentage of writes in the following code will miss in the 
cache? 
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1 int *iptr = (int *) buffer; 
2 for (; iptr < ((int *)buffer + 640*480); iptr++) 
3 *iptr = 0; 


Homework Problem 6.31 [Category 3]: 


Download the mount ain program from the CS:APP Web site and run it on your favorite PC/Linux system. 
Use the results to estimate the sizes of the L1 and L2 caches on your system. 


Homework Problem 6.32 [Category 4]: 


In this assignment you will apply the concepts you learned in Chapters 5 and 6 to the problem of optimizing 
code for a memory intensive application. Consider a procedure to copy and transpose the elements of an 
N x N matrix of type int. That is, for source matrix S and destination matrix D, we want to copy each 
element s; j to dj;i. This code can be written with a simple loop: 


1 void transpose(int *dst, int *src, int dim) 
2 { 

3 int i, J; 

4 

5 for (i = 0; i < dim; i++) 

6 for (Jj = 0; J < dim; J++) 

7 dst [j*dim + i] = src[i*dim + j]; 
8 


} 


where the arguments to the procedure are pointers to the destination (dst) and source (src) matrices, as 
well as the matrix size N (dim). Making this code run fast requires two types of optimizations. First, 
although the routine does a good job exploiting the spatial locality of the source matrix, it does a poor job 
for large values of N with the destination matrix. Second, the code generated by GCC is not very efficient. 
Looking at the assembly code, one sees that the inner loop requires 10 instructions, 5 of which reference 
memory—one for the source, one for the destination, and three to read local variables from the stack. Your 
job is to address these problems and devise a transpose routine that runs as fast as possible. 


Homework Problem 6.33 [Category 4]: 


This assignment is an intriguing variation of Problem 6.32. Consider the problem of converting a directed 
graph g into its undirected counterpart g’. The graph g’ has an edge from vertex u to vertex v iff there is an 
edge from u to v or from v to u in the original graph g. The graph g is represented by its adjacency matrix 
G as follows. If N is the number of vertices in g then G is an N x N matrix and its entries are all either 0 
or 1. Suppose the vertices of g are named vo, U1, V2, ..., un—1. Then Gfil[j] is 1 if there is an edge from v; 
to vj and 0 otherwise. Observe, that the elements on the diagonal of an adjacency matrix are always 1 and 
that the adjacency matrix of an undirected graph is symmetric. This code can be written with a simple loop: 


void col_convert (int *G, int dim) { 


int i, j; 


for (j = 0; j < dim; jt+) 


1 

2 

3 

4 for (i = 0; i < dim; i++) 

5 

6 G[j*dim + i] = G[j*dim + i] || G[itdim + jl; 
7 


} 
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Your job is to devise a conversion routine that runs as fast as possible. As before, you will need to apply 
concepts you learned in Chapters 5 and 6 to come up with a good solution. 
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Part II 


Running Programs on a System 
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Chapter 7 
Linking 


Linking is the process of collecting and combining the various pieces of code and data that a program needs 
in order to be loaded (copied) into memory and executed. Linking can be performed at compile time, when 
the source code is translated into machine code, at load time, when the program is loaded into memory 
and executed by the loader, and even at run time, by application programs. On early computer systems, 
linking was performed manually. On modern systems, linking is performed automatically by programs 
called linkers. 


Linkers play a crucial role in software development because they enable separate compilation. Instead 
of organizing a large application as one monolithic source file, we can decompose it into smaller, more 
manageable modules that can be modified and compiled separately. When we change one of these modules, 
we simply recompile it and relink the application, without having to recompile the other files. 


Linking is usually handled quietly by the linker, and is not an important issue for students who are building 
small programs in introductory programming classes. So why bother learning about linking? 


e Understanding linkers will help you build large programs. Programmers who build large programs 
often encounter linker errors caused by missing modules, missing libraries, or incompatible library 
versions. Unless you understand how a linker resolves references, what a library is, and how a linker 
uses a library to resolve references, these kinds of errors will be baffling and frustrating. 


e Understanding linkers will help you avoid dangerous programming errors. The decisions that Unix 
linkers make when they resolve symbol references can silently affect the correctness of your pro- 
grams. Programs that incorrectly define multiple global variables pass through the linker without any 
warnings in the default case. The resulting programs can exhibit baffling run-time behavior and are 
extremely difficult to debug. We will show you how this happens and how to avoid it. 


e Understanding linking will help you understand how language scoping rules are implemented. For 
example, what is the difference between global and local variables? What does it really mean when 
you define a variable or function with the static attribute? 


Understanding linking will help you understand other important systems concepts. The executable 
object files produced by linkers play key roles in important systems functions such as loading and 
running programs, virtual memory, paging, and memory mapping. 
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e Understanding linking will enable you to exploit shared libraries. For many years, linking was con- 
sidered to be fairly straightforward and uninteresting. However, with the increased importance of 
shared libraries and dynamic linking in modern operating systems, linking is a sophisticated process 
that provides the knowledgeable programmer with significant power. For example, many software 
products use shared libraries to upgrade shrink-wrapped binaries at run time. Also, most Web servers 
rely on dynamic linking of shared libraries to serve dynamic content. 


This chapter is a thorough discussion of all aspects of linking, from traditional static linking, to dynamic 
linking of shared libraries at load time, to dynamic linking of shared libraries at run time. We will describe 
the basic mechanisms using real examples, and we will identify situations where linking issues can affect 
the performance and correctness of your programs. To keep things concrete and understandable, we will 
couch our discussion in the context of an [A32 machine running a version of Unix, such as 


Linux or Solaris, that uses the standard ELF object file format. However, it is important to realize that the 
basic concepts of linking are universal, regardless of the operating system, the ISA, or the object file format. 
Details may vary, but the concepts are the same. 


7.1 Compiler Drivers 


Consider the C program in Figure 7.1. It consists of two source files, main.c and swap.c. Function 
main() calls swap, which swaps the two elements in the external global array buf. Granted, this is a 
strange way to swap two numbers, but it will serve as a small running example throughout this chapter that 
will allow us to make some important points about how linking works. 


Most compilation systems provide a compiler driver that invokes the language preprocessor, compiler, as- 
sembler, and linker, as needed on behalf of the user. For example, to build the example program using the 
GNU compilation system, we might invoke the GCC driver by typing the following command to the shell: 
unix> gcc -02 -g -o p main.c swap.c 

Figure 7.2 summarizes the activities of the driver as it translates the example program from an ASCII source 
file into an executable object file. (If you want to see these steps for yourself, run GCC with the -v option.) 
The driver first runs the C preprocessor (cpp), which translates the C source file main.c into an ASCII 
intermediate file main. i: 


cpp [other arguments] main.c /tmp/main.i 


Next, the driver runs the C compiler (cc1), which translates main. i into an ASCII assembly language file 
main.s. 


ccl /tmp/main.i main.c -02 [other arguments] -o /tmp/main.s 
Then, the driver runs the assembler (as), which translates main. s into a relocatable object file main. o: 


as [other arguments] -o /tmp/main.o /tmp/main.s 
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codeNink/swap.c 


1 /* swap.c */ 
code/link/main.c 2 extern int buf[]; 
3 
* j 大 
1 / gaa 4 4 int *bufp0 = &buf[0]; 
void swap () ; 5 int *bufpl; 
| 6 
int buf[2] = {1, 2}; 7 void swap () 
` . { 
6 int main() 9 int temp; 
TA | 10 
8 eka 11 bufp1 = &buf[1]; 
9 return 0; 12 temp = *bufp0; 
10 } 13 *bufp0O = *bufpl; 
y _ é 
code/Nink/main.c = see oe 
15 } 
code/link/swap.c 
(a)main.c (b) swap.c 


Figure 7.1: Example program 1: The example program consists of two source files, main.cand swap.c. 
The main function initializes a two-element array of ints, and then calls the swap function to swap the pair. 


The driver goes through the same process to generate swap . o. Finally it runs the linker program 1d, which 
combines main.o and swap.o, along with the necessary system object files, to create the executable 
object file p: 


ld -o p [system object files and args] /tmp/main.o /tmp/swap.o 
To run the executable p, we type its name on the Unix shell’s command line: 


unix> ./p 


The shell invokes a function in the operating system called the loader, which copies the code and data in the 
executable file p into memory, and then transfers control to the beginning of the program. 


7.2 Static Linking 


Static linkers such as the Unix 1d program take as input a collection of relocatable object files and command 
line arguments and generate as output a fully linked executable object file that can be loaded and run. The 
input relocatable object files consist of various code and data sections. Instructions are in one section, 
initialized global variables are in another section, and uninitialized variables are in yet another section. 


To build the executable, the linker must perform two main tasks: 
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main.c swap.c source files 

A A y 
Translators Translators 
(cpp, cc1, as) (cpp, cc1, as) 

v Y relocatable 

man:Q Swap object files 
Vv Vv 

Linker (Id) 


| fully linked 
P executable object file 


Figure 7.2: Static linking. The linker combines relocatable object files to form an executable object file p. 


e Symbol resolution. Object files define and reference symbols. The purpose of symbol resolution is to 
associate each symbol reference with exactly one symbol definition. 


e Relocation. Compilers and assemblers generate code and data sections that start at address zero. The 
linker relocates these sections by associating a memory location with each symbol definition, and 
then modifying all of the references to those symbols so that they point to this memory location. 


The following sections describe these tasks in more detail. As you read, keep in mind the basic facts of 
linkers: Object files are merely collections of blocks of bytes. Some of these blocks contain program code, 
others contain program data, and others contain data structures that guide the linker and loader. A linker 
concatenates blocks together, decides on run-time locations for the concatenated blocks, and modifies vari- 
ous locations within the code and data blocks. Linkers have minimal understanding of the target machine. 
The compilers and assemblers that generate the object files have already done most of the work. 


7.3 Object Files 


Object files come in three forms: 


e Relocatable object file. Contains binary code and data in a form that can be combined with other 
relocatable object files at compile time to create an executable object file. 


e Executable object file. Contains binary code and data in a form that can be copied directly into 
memory and executed. 


e Shared object file. A special type of relocatable object file that can be loaded into memory and linked 
dynamically, at either load time or run time. 


Compilers and assemblers generate relocatable object files (including shared object files). Linkers generate 
executable object files. Technically, an object module is a sequence of bytes, and an object file is an object 
module stored on disk in a file. However, we will use these terms interchangeably. 
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Object file formats vary from system to system. The first Unix systems from Bell Labs used the a. out 
format. (To this day, executables are still referred to as a. out files.) Early versions of System V Unix 
used the Common Object File format (COFF). Windows NT uses a variant of COFF called the Portable 
Executable (PE) format. Modern Unix systems — such as Linux, later versions of System V Unix, BSD 
Unix variants, and Sun Solaris — use the Unix Executable and Linkable Format (ELF). Although our 
discussion will focus on ELF, the basic concepts are similar, regardless of the particular format. 


7.4 Relocatable Object Files 


Figure 7.3 shows the format of a typical ELF relocatable object file. The ELF header begins with a 16-byte 
sequence that describes the word size and byte ordering of the system that generated the file. The rest of 
the ELF header contains information that allows a linker to parse and interpret the object file. This includes 
the size of the ELF header, the object file type (e.g., relocatable, executable, or shared), the machine type 
(e.g., IA32) the file offset of the section header table, and the size and number of entries in the section 
header table. The locations and sizes of the various sections are described by the section header table, 
which contains a fixed sized entry for each section in the object file. 


ELF header 


„text 


.rodata 


.data 


.bss 


.Symtab 


sections 
.rel.text 


.rel.data 


.debug 


.line 


.Strtab 


describes 
object file 1 Section header table 
sections 


Figure 7.3: Typical ELF relocatable object file. 


Sandwiched between the ELF header and the section header table are the sections themselves. A typical 
ELF relocatable object file contains the following sections: 


.text: The machine code of the compiled program. 


.rodata: Read-only data such as the format strings in printf statements, and jump tables for switch 
statements (see Problem 7.14). 


.data: Initialized global C variables. Local C variables are maintained at run time on the stack, and do 
not appear in either the . data or .bss sections. 
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.bss: Uninitialized global C variables. This section occupies no actual space in the object file; it is merely 
a place holder. Object file formats distinguish between initialized and uninitialized variables for space 
efficiency: uninitialized variables do not have to occupy any actual disk space in the object file. 


.symtab: A symbol table with information about functions and global variables that are defined and 
referenced in the program. Some programmers mistakenly believe that a program must be compiled 
with the -g option to get symbol table information. In fact, every relocatable object file has a symbol 
table in . symtab. However, unlike the symbol table inside a compiler, the . symt ab symbol table 
does not contain entries for local variables. 


.rel.text: A list of locations in the .text section that will need to be modified when the linker 
combines this object file with others. In general, any instruction that calls an external function or 
references a global variable will need to be modified. On the other hand, instructions that call local 
functions do not need to be modified. Note that relocation information is not needed in executable 
object files, and is usually omitted unless the user explicitly instructs the linker to include it. 


.cel.data: Relocation information for any global variables that are referenced or defined by the mod- 
ule. In general, any initialized global variable whose initial value is the address of a global variable 
or externally defined function will need to be modified. 


.debug: A debugging symbol table with entries for local variables and typedefs defined in the program, 
global variables defined and referenced in the program, and the original C source file. It is only 
present if the compiler driver is invoked with the -g option. 


. Line: A mapping between line numbers in the original C source program and machine code instructions 
in the .text section. It is only present if the compiler driver is invoked with the -g option. 


.strtab: A string table for the symbol tables in the . symtab and . debug sections, and for the section 
names in the section headers. A string table is a sequence of null-terminated character strings. 


Aside: Why is uninitialized data called .bss? 

The use of the term .bss to denote uninitialized data is universal. It was originally an acronym for the “Block 
Storage Start” instruction from the IBM 704 assembly language (circa 1957) and the acronym has stuck. A simple 
way to remember the difference between the .data and .bss sections is to think of “bss” as an abbreviation for 
“Better Save Space!”. End Aside. 


7.5 Symbols and Symbol Tables 


Each relocatable object module, m, has a symbol table that contains information about the symbols that are 
defined and referenced by m. In the context of a linker, there are three different kinds of symbols: 


e Global symbols that are defined by module m and that can be referenced by other modules. Global 
linker symbols correspond to nonstatic C functions and global variables that are defined without the 
C static attribute. 


e Global symbols that are referenced by module m but defined by some other module. Such symbols 
are called externals and correspond to C functions and variables that are defined in other modules. 
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e Local symbols that are defined and referenced exclusively by module m. Some local linker symbols 
correspond to C functions and global variables that are defined with the static attribute. These 
symbols are visible anywhere within module m, but cannot be referenced by other modules. The 
sections in an object file and the name of the source file that corresponds module m also get local 
symbols. 


It is important to realize that local linker symbols are not the same as local program variables. The symbol 
table in . symt ab does not contain any symbols that correspond to local nonstatic program variables. These 
are managed at run time on the stack and are not of interest to the linker. 


Interestingly, local procedure variables that are defined with the C static attribute are not managed on 
the stack. Instead, the compiler allocates space in .data or .bss for each definition and creates a local 
linker symbol in the symbol table with a unique name. For example, suppose a pair of functions in the same 
module define a static local variable x: 


int £() 

{ 

static int x = 0; 
return x; 


int g() 
{ 
static int x = 1; 
10 return xX; 
11 } 


In this case, the compiler allocates space for two integers in . bss and exports a pair of unique local linker 
symbols to the assembler. For example, it might use x.1 for the definition in function f and x. 2 for the 
definition in function g. 


New to C? 

C programmers use the st atic attribute to hide variable and function declarations inside modules, much as you 
would use public and private declarations in Java and C++. C source files play the role of modules. Any global 
variable or function declared with the static attribute is private to that module. Similarly, any global variable 
or function declared without the st atic attribute is public, and can be accessed by any other module. It is good 
programming practice to protect your variables and functions with the static attribute wherever possible. End 


Symbol tables are built by assemblers, using symbols exported by the compiler into the assembly language 
.Ss file. An ELF symbol table is contained in the . symtab section. It contains an array of entries. Fig- 
ure 7.4 shows the format of each entry. 


The name is a byte offset into the string table that points to the null-terminated string name of the symbol. 
The value is the symbol’s address. For relocatable modules, the value is an offset from the beginning of 
the section where the object is defined. For executable object files, the value is an absolute run-time address. 
The size is the size (in bytes) of the object. The type is usually either data or function. The symbol table 
can also contain entries for the individual sections and for the path name of the original source file. So there 
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code/link/elfstructs.c 


1 typedef struct { 

2 int name; /* string table offset */ 

3 int value; /* section offset, or VM address */ 

4 int size; /* object size in bytes */ 

5 char type:4, /* data, func, section, or src file name (4 bits) */ 
6 binding:4; /* local or global (4 bits) */ 

7 char reserved; /* unused */ 

8 char section; /* section header index, ABS, UNDEF, */ 

9 /* or COMMON */ 


10 } Elf_Symbol; 


codeNink/elfstructs.c 


Figure 7.4: ELF symbol table entry. t ype and binding are four bits each. 


are distinct types for these objects as well. The binding field indicates whether the symbol is local or 
global. 


Each symbol is associated with some section of the object file, denoted by the section field, which 
is an index into the section header table. There are three special pseudo-sections that don’t have entries 
in the section header table: ABS is for symbols that should not be relocated. UNDEF is for undefined 
symbols, that is, symbols that are referenced in this object module but defined elsewhere. COMMON is 
for uninitialized data objects that are not yet allocated. For COMMON symbols, the value field gives the 
alignment requirement, and size gives the minimum size. 


For example, here are the last three entries in the symbol table for main.o, as displayed by the GNU 
READELF tool. The first eight entries, which are not shown, are local symbols that the linker uses internally. 


Num: Value Size Type Bind Ot Ndx Name 
8: 0 8 OBJECT GLOBAL 0 3 buf 
gs 0 17 FUNC GLOBAL 0 1 main 

10" 0 0 NOTYPE GLOBAL 0 UND swap 


In this example, we see an entry for the definition of global symbol buf, an 8-byte object located at an 
offset (i.e., value) of zero in the . data section. This is followed by the definition of the global symbol 
main, a 17-byte function located at an offset of zero in the .text section. The last entry comes from 
the reference for the external symbol swap. READELF identifies each section by an integer index. Ndx=1 
denotes the . text section, and Ndx=3 denotes the . data section. 


Similarly, here are the symbol table entries for swap.o: 


Num: Value Size Type Bind Ot Ndx Name 
83 0 4 OBJECT GLOBAL 0 3 bufp0 
9: 0 0 NOTYPE GLOBAL 0 UND buf 

10: 0 39 FUNC GLOBAL 0 1 swap 
11: 4 4 OBJECT GLOBAL 0 COM bufpl 
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First, we see an entry for the definition of the global symbol bufp0, which is a 4-byte initialized object 
starting at offset 0 in . data. The next symbol comes from the reference to the external buf symbol in the 
initialization code for bufp0. This is followed by the global symbol swap, a 39-byte function at an offset 
of Oin .text. The last entry is the global symbol bu fp1, a 4-byte uninitialized data object (with a 4-byte 
alignment requirement) that will eventually be allocated as a .bss object when this module is linked. 


Practice Problem 7.1: 


This problem concerns the swap.o module from Figure 7.1(b). For each symbol that is defined or 
referenced in swap . o, indicate whether or not it will have a symbol table entry in the . symt ab section 
in module swap.o. If so, indicate the module that defines the symbol (swap.o or main.o), the 
symbol type (local, global, or extern) and the section (. text, .data, or .bss) it occupies in that 
module. 


Symbol | swap.o .symtab entry? | Symbol type | Module where defined 


7.6 Symbol Resolution 


The linker resolves symbol references by associating each reference with exactly one symbol definition from 
the symbol tables of its input relocatable object files. Symbol resolution is straightforward for references to 
local symbols that are defined in the same module as the reference. The compiler allows only one definition 
of each local symbol per module. The compiler also ensures that static local variables, which get local linker 
symbols, have unique names. 


However, resolving references to global symbols is trickier. When the compiler encounters a symbol (either 
a variable or function name) that is not defined in the current module, it assumes that it is defined in some 
other module, generates a linker symbol table entry, and leaves it for the linker to handle. If the linker is 
unable to find a definition for the referenced symbol in any of its input modules, it prints an (often cryptic) 
error message and terminates. For example, if we try to compile and link the following source file on a 
Linux machine, 


1 void foo (void); 
2 


3 int main() { 
4 foo(); 

5 return 0; 
6 } 


then the compiler runs without a hitch, but the linker terminates when it cannot resolve the reference to foo: 


unix> gcc -Wall -02 -o linkerror linkerror.c 
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/tmp/ccSz5uti.o: In function ‘main’: 
/tmp/ccSz5uti.o(.text+0x7): undefined reference to ‘foo’ 
collect2: ld returned 1 exit status 


Symbol resolution for global symbols is also tricky because the same symbol might be defined by multiple 
object files. In this case, the linker must either flag an error, or somehow chose one of the definitions 
and discard the rest. The approach adopted by Unix systems involves cooperation between the compiler, 
assembler, and linker, and can introduce some baffling bugs to the unwary programmer. 


7.6.1 How Linkers Resolve Multiply-Defined Global Symbols 


At compile time, the compiler exports each global symbol to the assembler as either strong or weak, and the 
assembler encodes this information implicitly in the symbol table of the relocatable object file. Functions 
and initialized global variables get strong symbols. Uninitialized global variables get weak symbols. For 
the example program in Figure 7.1, buf, bufp0, main, and swap are strong symbols; bufp1 is a weak 
symbol. 


Given this notion of strong and weak symbols, Unix linkers use the following rules for dealing with multiply- 
defined symbols: 


e Rule 1: Multiple strong symbols are not allowed. 
e Rule 2: Given a strong symbol and multiple weak symbols, choose the strong symbol. 


e Rule 3: Given multiple weak symbols, choose any of the weak symbols. 


For example, suppose we attempt to compile and link the following two C modules: 


/* barl.c */ 
int main () 


{ 


/* fool.c */ 
int main () 
{ 


return 0; return 0; 


Oo B® WN FB 
a fF WN FP 


} } 


In this case the linker will generate an error message because the strong symbol main is defined multiple 
times (Rule 1): 


unix> gcc fool.c barl.c 

/tmp/cca015022.0: In function ‘main’: 
/tmp/cca015022.0(.text+0x0): multiple definition of ‘main’ 
/tmp/cca015021.0(.text+0x0): first defined here 


Similarly, the linker will generate an error message for the following modules because the strong symbol x 
is defined twice (Rule 1): 
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1 /* foo2.c */ 1 /* bar2.c */ 

2 int x = 15213; 2 int x = 15213; 
3 3 

4 int main() 4 void f() 

5 { 5 { 

6 return 0; 6 } 

7 } 


However, if x is uninitialized in one module, then the linker will quietly choose the strong symbol defined 
in the other (Rule 2): 


/* foo3.c */ 
#include <stdio.h> 
void f (void); 


/* bar3.c */ 
int x; 


void f() 
int x = 15213; 


Yn oO PB WN FB 


int main () 


{ 


\D OA HD oO FF WN FB 


£(); 
printf("x = S$d\n", x); 
return 0; 


PPR 
eo) 
~ 


At run time, function f changes the value of x from 15213 to 15212, which might come as a unwelcome 
surprise to the author of function main! Notice that the linker normally gives no indication that it has 
detected multiple definitions of x: 


unix> gcc -o foobar3 foo3.c bar3.c 
unix> ./foobar3 
x = 15212 


The same thing can happen if there are two weak definitions of x (Rule 3): 


/* foo4.c */ 
#include <stdio.h> 
void f (void); 


/* bar4.c */ 
int x; 


void f() 
int x; 


YA oO BF WN KB 


int main () 


{ 


wo OAD oO wmwW PP FB 


x = 15213; 

£(); 

printf("x = d\n", x); 
return 0; 


PPP PR 
WN FP Oo 
~ 
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The application of Rules 2 and 3 can introduce some insidious run-time bugs that are incomprehensible to 
the unwary programmer, especially if the duplicate symbol definitions have different types. Consider the 
following example, where x is defined as an int in one module and a double in another: 


/* food5.c */ 
#include <stdio.h> 
void f (void); 


/* bar5.c */ 
double x; 


int x = 15213; cone 


15212; 


int y 


YA oO FP WN KB 


int main () 

{ 

10 £(); 

11 printf ("x = Ox%x y = Ox%x \n", 
12 Xy VY); 

13 return 0; 

14 } 


wo OA HD oO FPF WY BF 


On an IA32/Linux machine, doubles are 8 bytes and ints are 4 bytes. Thus, the assignment x = -0.0 
in line 5 of bar5.c will overwrite the memory locations for x and y (lines 5 and 6 in foo5.c) with the 
double-precision floating-point representation of negative one! 


linux> gcc -o foobar5 foo5.c bar5.c 
linux> ./foobar5 
x = 0x0 y = 0x80000000 


This is a subtle and nasty bug, especially because it occurs silently, with no warning from the compilation 
system, and because it typically manifests itself much later in the execution of the program, far away from 
where the error occurred. In a large system with hundreds of modules, a bug of this kind is extremely hard 
to fix, especially because many programmers are not aware of how linkers work. When in doubt, invoke 
the linker with a flag such as the GCC -warn-—common flag, which instructs it to print a warning message 
when it resolves multiply-defined global symbol definitions. 


Practice Problem 7.2: 


In this problem, let REF (x.i) --> DEF (x.k) denote that the linker will associate an arbitrary 
reference to symbol x in module i to the definition of x in module k. For each example below, use 
this notation to indicate how the linker would resolve references to the multiply-defined symbol in each 
module. If there is a link-time error (Rule 1), write “ERROR”. If the linker arbitrarily chooses one of 
the definitions (Rule 3), write “UNKNOWN”. 


A. /* Module 1 */ /* Module 2 */ 
int main() int main; 
{ int p2() 


(a) REF (main.1) --> DEF ( 
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(b) REF (main.2) --> DEF ( .— ) 
B. /* Module 1 */ /* Module 2 */ 
void main () int main=1; 
{ int p2() 
} { 
} 
(a) REF (main.1) --> DEF ( — ) 
(b) REF (main.2) --> DEF ( =i 
C. /* Module 1 */ /* Module 2 */ 
int x; double x=1.0; 
void main() int p2() 
{ { 
} } 
(a) REF (x.1) --> DEF ( — ) 
(b) REF (x.2) --> DEF ( — ) 


7.6.2 Linking with Static Libraries 


So far we have assumed that the linker reads a collection of relocatable object files and links them together 
into an output executable file. In practice, all compilation systems provide a mechanism for packaging 
related object modules into a single file called a static library, which can then be supplied as input to the 
linker. When it builds the output executable, the linker copies only the object modules in the library that are 
referenced by the application program. 


Why do systems support the notion of libraries? Consider ANSI C, which defines an extensive collection of 
standard I/O, string manipulation, and integer math functions such as atoi, printf, scanf, strcpy, 
and random. They are available to every C program in the libc.a library. ANSI C also defines an 
extensive collection of floating point math functions such as sin, cos, and sqrt in the 1ibm. a library. 


Consider the different approaches that compiler developers might use to provide these functions to users 
without the benefit of static libraries. One approach would be to have the compiler recognize calls to the 
standard functions and to generate the appropriate code directly. Pascal, which provides a small set of 
standard functions, takes this approach, but it is not feasible for C because of the large number of standard 
functions defined by the C standard. It would add significant complexity to the compiler and would require 
a new compiler version each time a function was added, deleted, or modified. To application programmers, 
however, this approach would be quite convenient because the standard functions would always be available. 


Another approach would be to put all of the standard C functions in a single relocatable object module, say 
libc.o, that application programmers could link into their executables: 


unix> gcc main.c /usr/lib/libc.o 


This approach has the advantage that it would decouple the implementation of the standard functions from 
the implementation of the compiler, and would still be reasonably convenient for programmers. However, a 
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big disadvantage is that every executable file in a system would now contain a complete copy of the collec- 
tion of standard functions, which would be extremely wasteful of disk space. (On a typical system, libc.a 
is about 8 MB and 1 ibm.a is about 1 MB.) Worse, each running program would now contain its own copy 
of these functions in memory, which would be extremely wasteful of memory. Another big disadvantage 
is that any change to any standard function, no matter how small, would require the library developer to 
recompile the entire source file, a time-consuming operation that would complicate the development and 
maintenance of the standard functions. 

We could address some of these problems by creating a separate relocatable file for each standard function 
and storing them in a well-known directory. However this approach would require application programmers 
to explicitly link the appropriate object modules into their executables, a process that would be error prone 
and time-consuming: 


unix> gcc main.c /usr/lib/printf.o /usr/lib/scanf.o ... 


The notion of a static library was developed to resolve the disadvantages of these various approaches. Re- 
lated functions can be compiled into separate object modules and then packaged in a single static library 
file. Application programs can then use any of the functions defined in the library by specifying a single file 
name on the command line. For example, a program that uses functions from the standard C library and the 
math library could be compiled and linked with a command of the form: 


unix> gcc main.c /usr/lib/libm.a /usr/lib/libc.a 


At link time, the linker will only copy the object modules that are referenced by the program, which reduces 
the size of the executable on disk and in memory. On the other hand, the application programmer only needs 
to include the names of a few library files. (In fact, C compiler drivers always pass 1ibc .a to the linker, 
so the reference to 1 ibc .a above is unnecessary.) 


On Unix systems, static libraries are stored on disk in a particular file format known as an archive. An 
archive is a collection of concatenated relocatable object files, with a header that describes the size and 
location of each member object file. Archive filenames are denoted with the .a suffix. To make our 
discussion of libraries concrete, suppose that we want to provide the vector routines in Figure 7.5 in a static 
library called libvector.a. 


To create the library, we would use the AR tool: 


unix> gcc -c addvec.c multvec.c 
unix> ar rcs libvector.a addvec.o multvec.o 


To use the library, we might write an application such as main2.c in Figure 7.6, which invokes the ad- 
dvec library routine. (The include file vector .h defines the function prototypes for the routines in 
libvector.a.) 


To build the executable, we would compile and link the input files main.oand libvector.a: 


unix> gcc =02 -c main2.c 
unix> gcc -static -o p2 main2.0 ./libvector.a 


Figure 7.7 summarizes the activity of the linker. The -static argument tells the compiler driver that the 
linker should build a fully-linked executable object file that can be loaded into memory and run without 
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code/link/addvec.c 


1 void addvec(int *x, int *y, 
2 int *z, int n) 
3:4 

4 INE -L 

5 

6 for (i = 0; i < n; itt) 
7 z[i] = x[i] + ylil; 
8 


code/link/addvec.c 


(a) addvec.o 
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code/link/multvec.c 


void multvec(int *x, int *y, 
int *z, int n) 


{ 


Ont Abs 
for (i = 0; i < n; itt) 
zli] = x[i] * yli]; 


code/link/multvec.c 


(a)multvec.o 


Figure 7.5: Member object files in Libvector.a. 


/* main2.c */ 
#include <stdio.h> 
#include "vector.h" 


x[2] = {1, 2}; 
int y[2] = {3, 4}; 
int z[2]; 


oO OI KH oO BF WN Ee 
H 
B 
ct 


int main () 


10 { 

11 addvec(x, Y, Z, 2); 

12 printf ("z = [%d %d]\n", z[0], 
13 return 0; 

14 } 


code/link/main2.c 


code/link/main2.c 


Figure 7.6: Example program 2: This program calls member functions in the static Libvector.a 


library. 
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any further linking at load time. When the linker runs, it determines that the addvec symbol defined by 
addvec.o is referenced by main.o, so it copies addvec.o into the executable. Since the program 
doesn’t reference any symbols defined by multvec.o, the linker does not copy this module into the 
executable. The linker also copies the printf.o module from libc.a, along with a number of other 
modules from the C run-time system. 


source files main2.c  vector.h 


Translators , : 本 
(cpp, cc1, as) libvector.a libc.a static libraries 
,CC1， 


relocatable 


/ 
/ printt.o and any other 
object files 


main2.0 addvec.o 
xs- / modules called by printf.o 


> 


Linker (Id) 
| 


fully linked 
executable object file 


Figure 7.7: Linking with static libraries. 


7.6.3 How Linkers Use Static Libraries to Resolve References 


While static libraries are useful and essential tools, they are also a source of confusion to programmers 
because of the way the Unix linker uses them to resolve external references. During the symbol resolution 
phase, the linker scans the relocatable object files and archives left to right in the same sequential order that 
they appear on the compiler driver’s command line. (The driver automatically translates any . c files on the 
command line into .o files.) During this scan, the linker maintains a set Æ of relocatable object files that 
will be merged to form the executable, a set U of unresolved symbols (i.e., symbols referred to but not yet 
defined), and a set D of symbols that have been defined in previous input files. Initially, Æ, U, and D are 
empty. 


e For each input file f on the command line, the linker determines if f is an object file or an archive. 
If f is an object file, the linker adds f to E, updates U and D to reflect the symbol definitions and 
references in f, and proceeds to the next input file. 


e If f is an archive, the linker attempts to match the unresolved symbols in U against the symbols 
defined by the members of the archive. If some archive member, m, defines a symbol that resolves a 
reference in U, then m is added to E, and the linker updates U and D to reflect the symbol definitions 
and references in m. This process iterates over the member object files in the archive until a fixed point 
is reached where U and D no longer change. At this point, any member object files not contained in 
E are simply discarded and the linker proceeds to the next input file. 


e If U is nonempty when the linker finishes scanning the input files on the command line, it prints 
an error and terminates. Otherwise it merges and relocates the object files in Æ to build the output 
executable file. 
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Unfortunately, this algorithm can result in some baffling link-time errors because the ordering of libraries 
and object files on the command line is significant. If the library that defines a symbol appears on the 
command line before the object file that references that symbol, then the reference will not be resolved and 
linking will fail. For example: 


unix> gcc -static ./libvector.a main2.c 
/tmp/cc9XH6Rp.o: In function ‘main’: 
/tmp/cc9XH6Rp.o(.text+0x18): undefined reference to ‘addvec’ 


Here is what happened: When libvector.a is processed, U is empty, so no member object files from 
libvector.a are added to Æ. Thus the reference to addvec is never resolved, and the linker emits an 
error message and terminates.. 


The general rule for libraries is to place them at the end of the command line. If the members of the 
different libraries are independent, in that no member references a symbol defined by another member, then 
the libraries can be placed at the end of the command line in any order. 

On the other hand, if the libraries are not independent, then they must be ordered so that for each symbol 
s that is referenced externally by a member of an archive, at least one definition of s follows a reference to 
s on the command line. For example, suppose foo.c calls functions in libx.a and libz.a that call 
functions in liby.a. Then libx.aand libz .a must precede 1iby.a on the command line: 


unix> gcc foo.c libx.a libz.a liby.a 


Libraries can be repeated on the command line if necessary to satisfy the dependence requirements. For 
example, suppose foo .c calls a function in 1ibx .a that calls a function in Liby.a that calls a function 
in libx.a. Then 1ibx.a must be repeated on the command line: 


unix> gcc foo.c libx.a liby.a libx.a 
Alternatively, we could combine 1ibx.a and liby .a into a single archive. 


Practice Problem 7.3: 


Let a and b denote object modules or static libraries in the current directory, and let ab denote that 
a depends on b, in the sense that b defines a symbol that is referenced by a. For each of the following 
scenarios, show the minimal command line (i.e., one with the least number of file object file and library 
arguments) that will allow the static linker to resolve all symbol references. 

A. p.o > libx.a. 

B. p.o > libx.a— liby.a. 

C. p.o > libx.a— liby.aand liby.a— libx.a >p.o. 


7.7 Relocation 


Once the linker has completed the symbol resolution step, it has associated each symbol reference in the 
code with exactly one symbol definition (i.e., a symbol table entry in one of its input object modules). At 
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this point, the linker knows the exact sizes of the code and data sections in its input object modules. It is 
now ready to begin the relocation step, where it merges the input modules and assigns run-time addresses 
to each symbol. Relocation consists of two steps: 


e Relocating sections and symbol definitions. In this step, the linker merges all sections of the same 
type into a new aggregate section of the same type. For example, the . data sections from the input 
modules are all merged into one section that will become the . data section for the output executable 
object file. The linker then assigns run-time memory addresses to the new aggregate sections, to each 
section defined by the input modules, and to each symbol defined by the input modules. When this 
step is complete, every instruction and global variable in the program has a unique run-time memory 
address. 


e Relocating symbol references within sections. In this step, the linker modifies every symbol reference 
in the bodies of the code and data sections so that they point to the correct run-time addresses. To 
perform this step, the linker relies on data structures in the relocatable object modules known as 
relocation entries, which we describe next. 


7.7.1 Relocation Entries 


When an assembler generates an object module, it does not know where the code and data will ultimately 
be stored in memory. Nor does it know the locations of any externally defined functions or global variables 
that are referenced by the module. So whenever the assembler encounters a reference to an object whose 
ultimate location is unknown, it generates a relocation entry that tells the linker how to modify the reference 
when it merges the object file into an executable. Relocation entries for code are placed in . relo.text. 
Relocation entries for initialized data are placed in . relo.data. 


Figure 7.8 shows the format of an ELF relocation entry. The of fset is the section offset of the reference 
that will need to be modified. The symbol identifies the symbol that the modified reference should point 
to. The type tells the linker how to the modify the new reference. 


code/link/elfstructs.c 


1 typedef struct { 

2 int offset; /* offset of the reference to relocate */ 
3 int symbol:24, /* symbol the reference should point to */ 
4 type: 8; /* relocation type */ 

5 } Elf32_ Rel; 


codeNink/elfstructs.c 


Figure 7.8: ELF relocation entry. Each entry identifies a reference that must be relocated. 


ELF defines 11 different relocation types, some quite arcane. We are concerned with only the two most 
basic relocation types: 


e R_386.PC32: Relocate a reference that uses a 32-bit PC-relative address. Recall from Section 3.6.3 
that a PC-relative address is an offset from the current run-time value of the program counter (PC). 
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When the CPU executes an instruction using PC-relative addressing, it forms the effective address 
(e.g., the target of the call instruction) by adding the 32-bit value encoded in the instruction to the 
current run-time value of the PC, which is always the address of the next instruction in memory. 


e R-386_32: Relocate a reference that uses a 32-bit absolute address. With absolute addressing, the 
CPU directly uses the 32-bit value encoded in the instruction as the effective address, without further 
modifications. 


7.7.2 Relocating Symbol References 


Figure 7.9 shows the pseudo-code for the linker’s relocation algorithm. 


1 foreach section s { 

2 foreach relocation entry r { 

3 refptr = s + r.offset; /* ptr to reference to be relocated */ 
4 

5 /* relocate a PC-relative reference */ 

6 if (r.type == R_386_PC32) { 

7 refaddr = ADDR(s) + r.offset; /* ref’s runtime address */ 
8 *refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr) ; 
9 } 

10 

11 /* relocate an absolute reference */ 

12 if (r.type == R_386_32) 

13 *refptr = (unsigned) (ADDR(r.symbol) + *refptr); 

14 } 

15 } 


Figure 7.9: Relocation algorithm. 


Lines 1 and 2 iterate over each section s and each relocation entry r associated with each section. For 
concreteness, assume that each section s is an array of bytes and that each relocation entry r isa struct 
of type E1£32-Rel, as defined in Figure 7.8. Also, assume that when the algorithm runs, the linker 
has already chosen run-time addresses for each section (denoted ADDR (s) ), and each symbol (denoted 
ADDR (r.symbol1) ). Line 3 computes the address in the s array of the 4-byte reference that needs to be 
relocated. If this reference uses PC-relative addressing, then it is relocated by lines 5-9. If the reference 
uses absolute addressing, then it is relocated by lines 11-13. 


Relocating PC-Relative References 
Recall from our running example in Figure 7.1(a) that the main routine in the .text section of main.o 
calls the swap routine, which is defined in swap. o. Here is the disassembled listing for the cal 1 instruc- 


tion, as generated by the GNU OBJDUMP tool: 


6: e8 fc ff ff ff call 7 <maint+0x7> swap (); 
7: R_386_PC32 swap relocation entry 
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From this listing we see that the call instruction begins at section offset 0x6 and consists of the 1-byte 
opcode 0xe8, followed by the 32-bit reference Oxfffffffc(—4 decimal), which is stored in little-endian 
byte order. We also see a relocation entry for this reference displayed on the following line. (Recall that 
relocation entries and instructions are actually stored in different sections of the object file. The OBJDUMP 
tool displays them together for convenience.) The relocation entry r consists of three fields: 


r.offset = 0x7 
r.symbol = swap 
r.type = R_386_PC32 


that tell the linker to modify the 32-bit PC-relative reference starting at offset 0x7 so that it will point to the 
swap routine at run time. Now suppose that the linker has determined that 


ADDR(s) = ADDR(.text) = 0x80483b4 
and 
ADDR(r.symbol) = ADDR (swap) = 0x80483c8. 


Using the algorithm in Figure 7.9, the linker first computes the run-time address of the reference (line 7): 


refaddr 


ADDR (s) + vr.offset 
0x80483b4 + 0x7 
0x80483bb 


ll 


and then updates the reference from its current value (—4) to 0x9 so that it will point to the swap routine 
at run time (line 8): 


*refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr) 
(unsigned) (0x80483c8 + (-4) — 0x80483bb) 
= (unsigned) (0x9) 


In the resulting executable object file, the ca11 instruction has the following relocated form: 
80483ba: e8 09 00 00 00 call 80483c8 <swap> swap (); 


At run time, the call instruction will be stored at address 0x80483ba. When the CPU executes the 
call instruction, the PC has a value of 0x80483bf, which is the address of the instruction immediately 
following the call instruction. To execute the instruction, the CPU performs the following steps: 


1. push PC onto stack 
2. PC <- PC + 0x9 = 0x80483bf + 0x9 = 0x80483c8 


Thus, the next instruction to execute is the first instruction of the swap routine, which of course is what we 
want! 


You may wonder why the assembler created the reference in the call instruction with an initial value of 
一 4. The assembler uses this value as a bias to account for the fact that the PC always points to the instruction 
following the current instruction. On a different machine with different instruction sizes and encodings, the 
assembler for that machine would use a different bias. This is powerful trick that allows the linker to blindly 
relocate references, blissfully unaware of the instruction encodings for a particular machine. 
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Relocating Absolute References 


Recall that in our example program in Figure 7.1, the swap .o module initializes the global pointer bufp0 
to the address of the first element of the global buf array: 


int *bufp0 = é&buf[0]; 


Since bufp0 is an initialized data object, it will be stored in the . data section of the swap. o relocatable 
object module. Since it is initialized to the address of a global array, it will need to be relocated. Here is the 
disassembled listing of the . data section from swap.o: 


00000000 <bufp0>: 
Os 00 00 00 00 int *bufp0 = &buf[0]; 
0: R_386_32 buf relocation entry 


We see that the . data section contains a single 32-bit reference, the bufp0 pointer, which has a value of 
0x0. The relocation entry tells the linker that this is a 32-bit absolute reference, beginning at offset 0, which 
must relocated so that it points to the symbol buf. Now suppose that the linker has determined that 


ADDR(r.symbol) = ADDR(buf) = 0x8049454 
The linker updates the reference using line 13 of the algorithm in Figure 7.9: 


*refptr = (unsigned) (ADDR(r.symbol) + *refptr) 
= (unsigned) (0x8049454 + 0) 
= (unsigned) (0x8049454) 


In the resulting executable object file, the reference has the following relocated form: 


0804945c <bufp0>: 
804945c: 54 94 04 08 Relocated! 


In words, the linker has decided that at run time, the variable bufp0 will be located at memory address 
0x804945c and will be initialized to 0x804 9454, which is the run-time address of the buf array. 


The .text section in the swap.o module contains five absolute references that are relocated in a similar 
way (See Problem 7.12). Figure 7.10 shows the relocated . text and . data sections in the final executable 
object file. 


Practice Problem 7.4: 


This problem concerns the relocated program in Figure 7.10. 


A. What is the hex address of the relocated reference to swap in line 5? 
B. What is the hex value of the relocated reference to swap in line 5? 


C. Suppose the linker had decided for some reason to locate the .text section at 0x80483b8 
instead of 0x80483b4. What would the hex value of the relocated reference in line 5 be in this 
case? 
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080483b4 <main>: 


80483b4: 
80483b5: 
80483b7: 
80483ba: 
80483bf: 
80483c1: 
80483c3: 
80483c4: 
80483c5: 
80483c6: 
80483c7: 


080483c8 


80483c8: 
80483c9: 
80483cf: 
80483d4: 
80483d6: 
80483dd: 
80483e0: 
80483e2: 
80483e4: 
80483e6: 
80483eb: 
80483ed: 
80483ee: 


08049454 


8049454: 


0804945c 


804945c: 


55 
89 
83 
e8 
31 
89 
5d 
c3 
90 
90 
90 


e5 
ec 
09 
co 
ec 


<swap>: 


55 
8b 
al 
89 
c7 
94 
89 
8b 
89 
al 
89 
5d 
CS 


15 
58 
e5 
05 
04 
ec 
Oa 
02 
48 
08 


<buf>: 
01 00 00 00 02 00 00 00 


<bufp0>: 


push 


mov 
08 sub 
00 00 00 
xor 
mov 
pop 
ret 
nop 
nop 


5E 
94 


94 04 08 mov 
04 08 


48 
08 


95 04 08 58 


95 04 08 


call 


ovl 
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sebp 

sesp, sebp 
$0x8, Sesp 
80483c8 <swap> 
Seax, Seax 
sebp, sesp 

%ebp 


sebp 

0x804945c, %edx 
0x8049458, Seax 

sesp, sebp 
$0x8049458, 0x8049548 


sebp, sesp 
(Sedx) , SeCx 
Seax, (Sedx) 
0x8049548, Seax 
Secx, (Seax) 
sebp 


(a) Relocated . text section. 


54 94 04 08 


codeNink/p-exe.d 


swap (); 


Get *bufp0 
Get buf[1] 


bufpl = &buf[1] 


Get *bufpl 


code/link/p-exe.d 


code/link/pdata-exe.d 


Relocated! 


code/link/pdata-exe.d 


(b) Relocated .data section. 


Figure 7.10: Relocated .text and data sections for executable file p The original C code is in Fig- 
ure 7.1. 
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7.8 Executable Object Files 


We have seen how the linker merges multiple object modules into a single executable object file. Our C 
program, which began life as a collection of ASCII text files, has been transformed into a single binary 
file that contains all of the information needed to load the program into memory and run it. Figure 7.11 
summarizes the kinds of information in a typical ELF executable file. 


maps contiguous file Ber eager 
sections to runtime Segment header table 
memory segments ‘init read-only memory segment 
(code segment) 
.text 
.rodata 
data read/write memory segment 
.bss (data segment) 
.Symtab 
.debug 
symbol table and 
.line debugging info are not 
loaded into memory 
describes aie 
object file Section header table 
sections 


Figure 7.11: Typical ELF executable object file 


The format of an executable object file is similar to that of a relocatable object file. The ELF header 
describes the overall format of the file. It also includes the program’s entry point, which is the address of the 
first instruction to execute when the program runs. The .text, .rodata, and . data sections are similar 
to those in a relocatable object file, except that these sections have been relocated to their eventual run-time 
memory addresses. The .init section defines a small function, called _init, that will be called by the 
program’s initialization code. Since the executable is fully linked (relocated), it needs no . relo sections. 


ELF executables are designed to be easy to load into memory, with contiguous chunks of the executable 
file mapped to contiguous memory segments. This mapping is described by the segment header table. 
Figure 7.12 shows the segment header table for our example executable p, as displayed by OBJDUMP. 


From the segment header table, we see that two memory segments will be initialized with the contents of 
the executable object file. Lines 1 and 2 tell us that the first segment (the code segment) is aligned to a 
4 KB (21?) boundary, has read/execute permissions, starts at memory address 0x08048000, has a total 
memory size of 0x448 bytes, and is initialized with the first 0x448 bytes of the executable object file, 
which includes the ELF header, the segment header table, and the . init, .text,and .rodata sections. 


Lines 3 and 4 tell us that the second segment (the data segment) is aligned to a 4 KB boundary, has 
read/write permissions, starts at memory address 0x0804 9448, has a total memory size of 0x104 bytes, 
and is initialized with the 0xe8 bytes starting at file offset 0x448, which in this case is the beginning of 
the .data section. The remaining bytes in the segment correspond to .bss data that will initialized to 
zero at run time. 
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codeNink/p-exe.d 


Read-only code segment 
1 LOAD off 0x00000000 vaddr 0x08048000 paddr 0x08048000 align 2**12 
2 filesz 0x00000448 memsz 0x00000448 flags r-x 


Read/write data segment 
3 LOAD off 0x00000448 vaddr 0x08049448 paddr 0x08049448 align 2**12 
4 filesz 0x000000e8 memsz 0x00000104 flags rw- 


code/link/p-exe.d 


Figure 7.12: Segment header table for the example executable p. Legend: off: file offset, 
vaddr/paddr: virtual/physical address, align:, segment alignment, filesz: segment size in the 
object file, memsz: segment size in memory, flags: run-time permissions. 


7.9 Loading Executable Object Files 


To run an executable object file p, we can type its name to the Unix shell’s command line: 
unix> ./p 


Since p does not correspond to a built-in shell command, the shell assumes that p is an executable object 
file, which it runs for us by invoking some memory-resident operating system code known as the loader. 
Any Unix program can invoke the loader by calling the execve function, which we will describe in detail 
in Section 8.4.6. The loader copies the code and data in the executable object file from disk into memory, 
and then runs the program by jumping to its first instruction, or entry point. This process of copying the 
program into memory and then running it is known as loading. 


Every Unix program has a run-time memory image similar to the one in Figure 7.13. On Linux systems, the 
code segment always starts at address 0x08048000. The data segment follows at the next 4-KB aligned 
address. The run-time heap follows on the first 4-KB aligned address past the read/write segment and grows 
up via calls to the malloc library. (We will describe malloc and the heap in detail in Section 10.9). The 
segment starting at address 040000000 is reserved for shared libraries. The user stack always starts at 
address Oxbfffffff and grows down (towards lower memory addresses). The segment starting above 
the stack at address 0xc0000000 is reserved for the code and data in the memory-resident part of the 
operating system known as the kernel. 


When the loader runs, it creates the memory image shown in Figure 7.13. Guided by the segment header 
table in the executable, it copies chunks of the executable into the code and data segments. Next, the loader 
jumps to the program’s entry point, which is always the address of the -start symbol. The startup code 
at the -start address is defined in the object file crt 1.0 and is the same for all C programs. Figure 7.14 
shows the specific sequence of calls in the startup code. After calling initialization routines in from the 
.text and . init sections, the startup code calls the atexit routine, which appends a list of routines 
that should be called when the application calls the exit function. The exit function runs the functions 
registered by atexit, and then returns control to the operating system by calling exit). Next, the startup 
code calls the application’s main routine, which begins executing our C code. After the application returns, 
the startup code calls the -exit routine, which returns control to the operating system. 


7.9. LOADING EXECUTABLE OBJECT FILES 373 


memory 
| invisible to 


kernel virtual memor 
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0x40000000) 
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(created at runtime by malloc) 


read/write segment 


(:data, .bss) loaded from the 
read-only segment executable file 
(.init, text, .rodata) 


0x08048000 
0 unused 


Figure 7.13: Linux run-time memory image 


1 0x080480c0 <_start>: /* entry point in .text */ 

2 call libc_init_first /* startup code in .text */ 

3 call _init /* startup code in .init */ 

4 call atexit /* startup code in .text */ 

5 call main /* application main routine */ 
6 call _exit /* returns control to OS */ 

7 /* control never reaches here */ 


Figure 7.14: Pseudo-code for the crt 1.0 startup routine in every C program. Note: The code that 
pushes the arguments for each function is not shown. 
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Aside: How do loaders really work? 

Our description of loading is conceptually correct, but intentionally not entirely accurate. To understand how loading 
really works, you must understand concepts of processes, virtual memory, and memory mapping that we haven’t 
discussed yet. As we encounter these concepts later in Chapters 8 and 10, we will revisit loading and gradually 
reveal the mystery to you. 


For the impatient reader, here is a preview of how loading really works: Each program in a Unix system runs in 
the context of a process with its own virtual address space. When the shell runs a program, the parent shell process 
forks a child process that is a duplicate of the parent. The child process invokes the loader via the execve system 
call. The loader deletes the child’s existing virtual memory segments, and creates a new set of code, data, heap, 
and stack segments. The new stack and heap segments are initialized to zero. The new code and data segments are 
initialized to the contents of the executable file by mapping pages in the virtual address space to page-sized chunks 
of the executable file. Finally, the loader jumps to the -start address, which eventually calls the application’s 
main routine. Aside from some header information, there is no copying of data from disk to memory during 
loading. The copying is deferred until the CPU references a mapped virtual page, at which point the operating 
system automatically transfers the page from disk to memory using its paging mechanism. End Aside. 


Practice Problem 7.5: 


A. Why does every C program need a routine called main? 


B. Have you ever wondered why a C main routine can end with a call to exit, a return statement, 
or neither, and yet the program still terminates properly? Explain. 


7.10 Dynamic Linking with Shared Libraries 


The static libraries that we studied in Section 7.6.2 address many of the issues associated with making large 
collections of related functions available to application programs. However, static libraries still have some 
significant disadvantages. Static libraries, like all software, need to be maintained and updated periodically. 
If application programmers want to use the most recent version of a library, they must somehow become 
aware that the library has changed, and then explicitly relink their programs against the updated library. 


Another issue is that almost every C program uses standard I/O functions such as printf and scanf. At 
run time, the code for these functions is duplicated in the text segment of each running process. On a typical 
system that is running 50-100 processes, this can be a significant waste of scarce memory system resources. 
(An interesting property of memory is that it is always a scarce resource, regardless of how much there is in 
a system. Disk space and kitchen trash cans share this same property.) 


Shared libraries are a modern innovation that address the disadvantages of static libraries. A shared library 
is an object module that, at run time, can be loaded at an arbitrary memory address and linked with a 
program in memory. This process is known as dynamic linking, and is performed by a program called a 
dynamic linker. 


Shared libraries are also referred to as shared objects and on Unix systems are typically denoted by the 
. so suffix. Microsoft operating systems refer to shared libraries as DLLs (dynamic link libraries). 


Shared libraries are “shared” in two different ways. First, in any given file system, there is exactly one . so 
file for a particular library. The code and data in this . so file are shared by all of the executable object 
files that reference the library, as opposed to the contents of static libraries, which are copied and embedded 
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in the executables that reference them. Second, a single copy of the .text section of a shared library in 
memory can be shared by different running processes. We will explore this in more detail when we study 
virtual memory in Chapter 10. 


Figure 7.15 summarizes the dynamic linking process for the example program in Figure 7.6. To build a 
shared library Libvector.so of our example vector arithmetic routines in Figure 7.5, we would invoke 
the compiler driver with a special directive to the linker: 


unix> gcc -shared -fPIC -o libvector.so addvec.c multvec.c 


The -fPIC flag directs the compiler to generate position independent code (more on this in the next sec- 
tion). The -shared flag directs the linker to create a shared object file. 


main2.c vector.h 


Translators 


(cpp, cc1, as) libc.so 
libvector.so 
v 
relocatable main2.o relocation and 
symbol table info 
Yy 
Linker (ld) 
partially linked M 
executable object file P? 
À A 
Loader (execve) libc so 
libvector.so 
| code and data 
fully linked Y 
executable Dynamic linker (Id-linux.so) 
in memory 


Figure 7.15: Dynamic linking with shared libraries. 


Once we have created the library, we would then link it into our example program in Figure 7.6. 
unix> gcc -o p2 main2.c ./libvector.so 


This creates an executable object file p2 in a form that can be linked with Libvector.so at run time. 
The basic idea is to do some of the linking statically when the executable file is created, and then complete 
the linking process dynamically when the program is loaded. 


It is important to realize that none of the code or data sections from libvector.so are actually copied 
into the executable p2 at this point. Instead, the linker copies some relocation and symbol table information 
that will allow references to code and data in libvector.so to be resolved at run time. 


When the loader loads and runs the executable p2, it loads the partially linked executable p2, using the 
techniques discussed in Section 7.9. Next, it notices that p2 contains a . interp section, which contains 
the path name of the dynamic linker, which is itself a shared object (e.g., LD-LINUX.SO on Linux systems). 
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Instead of passing control to the application, as it would normally do, the loader loads and runs the dynamic 
linker. 


The dynamic linker then finishes the linking task by: 


e Relocating the text and data of libc.so into some memory segment. On IA32/Linux systems, 
shared libraries are loaded in the area starting at address 040000000 (See Figure 7.13). 


e Relocating the text and data of Libvector.so into another memory segment. 


e Relocating any references in p2 to symbols defined by libc.soand libvector.so. 


Finally, the dynamic linker passes control to the application. From this point on, the locations of the shared 
libraries are fixed and do not change during execution of the program. 


7.11 Loading and Linking Shared Libraries from Applications 


To this point we have discussed the scenario where the dynamic linker loads and links shared libraries when 
an application is loaded, just before it executes. However, it is also possible for an application to request the 
dynamic linker to load and link arbitrary shared libraries while the application is running, without having to 
linked the applications against those libraries at compile time. 


Dynamic linking is a powerful and useful technique. For example, developers of Microsoft Windows appli- 
cations frequently use shared libraries to distribute software updates. They generate a new copy of a shared 
library, which users can then download and use a replacement for the current version. The next time they 
run their application, it will automatically link and load the new shared library. 


Another example: the servers at many Web sites generate a great deal of dynamic content such as personal- 
ized Web pages, account balances, and banner ads. The earliest Web servers generated dynamic content by 
using fork and execve to create a child process and run a “CGI program” in the context of the child. 


However, modern Web servers generate dynamic content using a more efficient and sophisticated approach 
based on dynamic linking. The idea is to package each function that generates dynamic content in a shared 
library. When a request arrives from a Web browser, the server dynamically loads and links the appropriate 
function and then calls it directly, as opposed to using fork and execve to run the function in the context 
of achild process. The function remains in the server’s address space, so subsequent requests can be handled 
at the cost of a simple function call. This can have a significant impact on the throughput of a busy site. 
Further, existing functions can be updated and new functions can be added at run-time, without stopping the 
server. 


Linux and Solaris systems provide a simple interface to the dynamic linker that allows application programs 
to load and link shared libraries at run time. 


#include <dlfcn.h> 


void *dlopen(const char *filename, int flag); 


returns: ptr to handle if OK, NULL on error 
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The dlopen function loads and links the shared library filename. The external symbols in filename 
are resolved using libraries previously opened with the RTLD_GLOBAL flag. If the current executable was 
compiled with the -rdynamic flag, then its global symbols are also available for symbol resolution. The 
flag argument must include either RTLD_NOW, which tells the linker to resolve references to external 
symbols immediately, or the RTLD_LAZY flag, which instructs the linker to defer symbol resolution until 
code from the library is executed. Either of these values can be or’d with the RTLD_GLOBAL flag. 


#include <dlfcn.h> 


void *dlsym(void *handle, char *symbol); 
returns: ptr to symbol if OK, NULL on error 


The dlsym function takes a handle to a previously opened shared library and a symbol name, and 
returns the address of the symbol, if it exists, or NULL otherwise. 


#include <dlfcn.h> 


int dlclose (void *handle); returns: 0 if OK, -1 on error 


The dlclose function unloads the shared library if no other shared libraries are still using it. 


#include <dlfcn.h> 


const char *dlerror (void); 


returns: error msg if previous call to dlopen, dlsym, or dlclose failed, NULL if previous call was OK 


The dlerror function returns a string describing the most recent error that occurred as a result of calling 
dlopen, dlsym, or dlclose, or NULL if no error occurred. 
Figure 7.16 shows how we would use this interface to dynamically link our Libvector. so shared library 


(Figure 7.5), and then invoke its addvec routine. To compile the program, we would invoke GCC in the 
following way: 


unix> gcc -rdynamic -02 -o p3 main3.c -ldl 


7.12 *Position-Independent Code (PIC) 


A key motivation for shared libraries is to allow multiple running processes to share the same library code 
in memory, and thus save precious memory resources. So how might multiple processes share a single 
copy of a program? One approach would be to assign a priori a dedicated chunk of the address space to 
each shared library, and then require the loader to always load the shared library at that address. While 
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code/ink/adll.c 


#include <stdio.h> 
#include <dlfcn.h> 


int 
int 
int 


x[2] = {1, 2}; 
y[2] = {3, 4}; 
z[2]; 
main () 


void *handle; 
void (*addvec) (int *, int *, int *, int); 
char *error; 


/* dynamically load the shared library that contains addvec() */ 
handle = dlopen("./libvector.so", RTLD_LAZY) ; 
if (!handle) { 


fprintf(stderr, "%s\n", dlerror()); 
exit (1); 
} 
/* get a pointer to the addvec() function we just loaded */ 
addvec = dlsym(handle, "“addvec"); 
if ((error = dlerror()) != NULL) { 
fprintf(stderr, "%s\n", error); 
exit (1); 
} 
/* Now we can call addvec() it just like any other function */ 


addvec (x, Y, Z, 2); 
printf ("z = [%d %d]\n", z[0], z[1l); 


/* unload the shared library */ 

if (dlclose(handle) < 0) { 
fprintf(stderr, "%s\n", dlerror()); 
exit(1); 

} 


return 0; 


code/link/adll.c 


Figure 7.16: An application program that dynamically loads and links the shared library 1ibvec-— 
tor.so. 
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straightforward, this approach creates some serious problems. It would be an inefficient use of the address 
space since portions of the space would be allocated even if a process didn’t use the library. Second, it would 
difficult to manage. We would have to ensure that none of the chunks overlapped. Every time a library was 
modified we would have to make sure that it still fit in its assigned chunk. If not, then we would have to 
find a new chunk. And if we created a new library, we would have to find room for it. Over time, given the 
hundreds of libraries and versions of libraries in a system, it would be difficult to keep the address space 
from fragmenting into lots of small unused but unusable holes. Even worse, the assignment of libraries to 
memory would be different for each system, thus creating even more management headaches. 


A better approach is to compile library code so that it can be loaded and executed at any address without 
being modified by the linker. Such code is known as_position-independent code (PIC). Users direct GNU 
compilation systems to generate PIC code with the -fP IC option to GCC. 


On IA32 systems, calls to procedures in the same object module require no special treatment, since the 
references are PC-relative, with known offsets, and hence are already PIC (see Problem 7.4). However, calls 
to externally-defined procedures and references to global variables are not normally PIC, since they require 
relocation at link time. 


PIC Data References 


Compilers generate PIC references to global variables by exploiting the following interesting fact: No matter 
where we load an object module (including shared object modules) in memory, the data segment is always 
allocated immediately after the code segment. Thus, the distance between any instruction in the code 
segment and any variable in the data segment is a run-time constant, independent of the absolute memory 
locations of the code and data segments. 


To exploit this fact, the compiler creates a table called the global offset table (GOT) at the beginning of the 
data segment. The GOT contains an entry for each global data object that is referenced by the object module. 
The compiler also generates a relocation record for each entry in the GOT. At load time, the dynamic linker 
relocates each entry in the GOT so that it contains the appropriate absolute address. Each object module 
that references global data has its own GOT. 


At run time, each global variable is referenced indirectly through the GOT using code of the form: 


call Ll 

L1: popl %ebx; # ebx contains the current PC 
addl SVAROFF, %ebx # ebx points to the GOT entry for var 
movl (%ebx), %eax # reference indirect through the GOT 


movl (%eax), %eax 


In this fascinating piece of code, the call to L1 pushes the return address (which happens to be the address 
of the pop] instruction) on the stack. The pop] instruction then pops this address into sebx. The net 
effect of these two instructions is to move the value of the PC into register Sebx. 


The addl instruction adds a constant offset to %ebx so that it points to the appropriate entry in the GOT, 
which contains the absolute address of the data item. At this point, the global variable can be referenced 
indirectly through the GOT entry contained in Sebx. In the example above, the two mov 1 instructions load 
the contents of the global variable (indirectly through the GOT) into register Seax. 
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PIC code has performance disadvantages. Each global variable reference now requires five instructions 
instead of one, with an additional memory reference to the GOT. Also, PIC code uses an additional register 
to hold the address of the GOT entry. On machines with large register files, this is not a major issue. But on 
register-starved IA32 systems, losing even one register can trigger spilling of the registers onto the stack. 


PIC Function Calls 


It would certainly be possible for PIC code to use the same approach for resolving external procedure calls: 


call Ll 

L1: popl %ebx; # ebx contains the current PC 
addl SPROCOFF, %ebx # ebx points to GOT entry for proc 
call *(%ebx) # call indirect through the GOT 


However, this approach would require three additional instructions for each run-time procedure call. In- 
stead, ELF compilation systems use an interesting technique, called lazy binding, that defers the binding 
of procedure addresses until the first time the procedure is called. There is a nontrivial run-time overhead 
the first time the procedure is called, but each call thereafter only costs a single instruction and a memory 
reference for the indirection. 


Lazy binding is implemented with a compact yet somewhat complex interaction between two data structures: 
the GOT and the procedure linkage table (PLT). If an object module calls any functions that are defined in 
shared libraries, then it has its own GOT and PLT. The GOT is part of the . data section. The PLT is part 
of the . text section. 


Figure 7.17 shows the format of the GOT for the example program main2.o from Figure 7.6. The first 
three GOT entries are special: GOT[0] contains the address of the .dynamic segment, which contains 
information that the dynamic linker uses to bind procedure addresses, such as the location of the symbol 
table and relocation information. GOT[1] contains some information that defines this module. GOT[2] 
contains an entry point into the lazy binding code of the dynamic linker. 


08049674 0804969c | address of .dynamic section 
08049678 4000a9f8 | identifying info for the linker 
0804967c 4000596f | entry point in dynamic linker 


08049680 0804845a | address of pushl in PLT[1] (printf) 
08049684 0804846a | address of pushl in PLT[2] (addvec) 


Figure 7.17: The global offset table (GOT) for executable p2. The original code is in Figures 7.5 and 7.6. 


Each procedure that is defined in a shared object and called by main2 .o gets an entry in the GOT, starting 
with entry GOT[3]. For the example program, we have shown the GOT entries for printf, which is 
defined in 1 ibc. so and addvec, which is defined in libvector.so. 


Figure 7.18 shows the PLT for our example program p2. The PLT is an array of 16-byte entries. The first 
entry, PLT[O], is a special entry that jumps into the dynamic linker. Each called procedure has an entry in the 
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PLT, starting at PLT[1]. In the figure, PLT[1] corresponds to printf and PLT[2] corresponds to addvec. 


PLT [0] 


08048444: ff 35 78 96 04 08 pushl 0x8049678 # push &GOT[1] 

804844a: ff 25 7c 96 04 08 jmp *0x804967c # jmp to *GOT[2] (linker) 
8048450: 00 00 # padding 

8048452: 00 00 # padding 


PLT[1] <printf> 
8048454: ff 25 80 96 04 08 jmp *0x8049680 # jmp to *GOT[3] 
804845a: 68 00 00 00 00 pushl $0x0 # ID for printf 
804845f: e9 e0 ff ff ff jmp 8048444 # jmp to PLT[0O] 


PLT[2] <addvec> 


8048464: ff 25 84 96 04 08 jmp *0x8049684 # jump to *GOT[4] 
804846a: 68 08 00 00 00 pushl $0x8 # ID for addvec 
804846f: e9 dO ff ff ff jmp 8048444 # jmp to PLTI[O] 


<other PLT entries> 


Figure 7.18: The procedure linkage table (PLT) for executable p2. The original code is in Figures 7.5 
and 7.6. 


Initially, after the program has been dynamically linked and begins executing, procedures printf and 
addvec are bound to the first instruction in their respective PLT entries. For example, the call to addvec 
has the form: 


80485bb: e8 a4 fe ff ff call 8048464 <addvec> 


When addvec is called the first time, control passes to the first instruction in PLT[2], which does an in- 
direct jump through GOT[4]. Initially, each GOT entry contains the address of the push1 entry in the 
corresponding PLT entry. So the indirect jump in the PLT simply transfers control back to the next instruc- 
tion in PLT[2]. This instruction pushes an ID for the addvec symbol onto the stack. The last instruction 
jumps to PLT[0], which pushes another word of identifying information on the stack from GOT[1], and then 
jumps into the dynamic linker indirectly through GOT[2]. The dynamic linker uses the two stack entries to 
determine the location of addvec, overwrites GOT[4] with this address, and passes control to addvec. 


The next time addvec is called in the program, control passes to PLT[2] as before. However, this time the 
indirect jump through GOT[4] transfers control to addvec. The only additional overhead from this point 
on is the memory reference for the indirect jump. 


7.13 Tools for Manipulating Object Files 


There are a number of tools available on Unix systems to help you understand and manipulate object files. 
In particular, the GNU binutils package is especially helpful and runs on every Unix platform. 
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AR: Creates static libraries, and inserts, deletes, lists, and extracts members. 
STRINGS: Lists all of the printable strings contained in an object file. 
STRIP: Deletes symbol table information from an object file. 

NM: Lists the symbols defined in the symbol table of an object file. 

SIZE: Lists the names and sizes of the sections in an object file. 


READELF: Displays the complete structure of an object file, including all of the information encoded in the 
ELF header. Subsumes the functionality of SIZE and NM. 


OBJDUMP: The mother of all binary tools. Can display all of the information in an object file. Its most 
useful function is disassembling the binary instructions in the . text section. 


Unix systems also provide the 1dd program for manipulating shared libraries: 


LDD: Lists the shared libraries that an executable needs at run time. 


7.14 Summary 


We have learned that linking can be performed at compile time by static linkers, and at load time and run time 
by dynamic linkers. The main tasks of linkers are symbol resolution, where each global symbol is bound to 
a unique definition, and relocation, where the ultimate memory address for each symbol is determined and 
where references to those objects are modified. 


Static linkers combine multiple relocatable object files into a single executable object file. Multiple object 
files can define the same symbol, and the rules that linkers use for silently resolving these multiple defi- 
nitions can introduce subtle bugs in user programs. Multiple object files can be concatenated in a single 
static library. Linkers use libraries to resolve symbol references in other object modules. The left-to-right 
sequential scan that many linkers use to resolve symbol references is another source of confusing link-time 
errors. 


Loaders map the contents of executable files into memory and run the program. Linkers can also produce 
partially linked executable object files with unresolved references to the routines and data defined in shared 
library. At load time, the loader maps the partially linked executable into memory and then calls a dynamic 
linker, which completes the linking task by loading the shared library and relocating the references in the 
program. Shared libraries that are compiled as position-independent code can be loaded anywhere and 
shared at run time by multiple processes. Applications can also use the dynamic linker at run time in order 
to load, link, and access the functions and data in shared libraries. 


Bibliographic Notes 


Linking is not well documented in the computer science literature. We think there are several reasons 
for this. First, linking lies at the intersection of compilers, computer architecture, and operating systems, 
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requiring understanding of code generation, machine language programming, program instantiation, and 
virtual memory. It does not fit neatly into any of the usual computer science specialties, and thus is not well 
covered well by the classic texts in these areas. However, Levine’s monograph is a good general reference 
on the subject [44]. The original specifications for ELF and DWARF (a specification for the contents of the 
.debug and . line sections) are described in [32]. 


Some interesting research and commercial activity centers around the notion of binary translation, where 
the contents of an object file are parsed, analyzed, and modified. Binary translation is typically for three 
purposes [43]: to emulate one system on another system, to observe program behavior, or to perform system- 
dependent optimizations that are not possible at compile time. Commercial products such as VTune, Purify, 
and BoundsChecker use binary translation to provide programmers with detailed observations of their pro- 
grams. 


The Atom system provides a flexible mechanism for instrumenting Alpha executable object files and shared 
libraries with arbitrary C functions [70]. Atom has been used to build a myriad of analysis tools that trace 
procedure calls, profile instruction counts and memory referencing patterns, simulate memory system be- 
havior, and isolate memory referencing errors. Etch [62] and EEL [43] provide roughly similar capabilities 
on different platforms. The Shade system uses binary translation for instruction profiling. [14]. Dynamo [2] 
and Dyninst [7] provide mechanisms for instrumenting and optimizing executables in memory, at run time. 
Smith and his colleagues have investigated binary translation for program profiling and optimization. [87]. 


Homework Problems 


Homework Problem 7.6 [Category 1]: 


Consider the following version of the swap. c function that counts the number of times it has been called. 


extern int buf[]; 


int *bufp0 = é&buf[0]; 
static int *bufpl; 


static void incr () 


{ 


static int count=0; 


count++; 


} 


void swap () 


{ 


int temp; 


incr (); 
bufpl = &buf[1]; 
temp = *bufp0; 
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20 *bufp0O = *bufpl; 
21 *bufpl = temp; 
22 } 


For each symbol that is defined and referenced in swap . o, indicate if it will have a symbol table entry in 
the . symt ab section in module swap . o. If so, indicate the module that defines the symbol (swap . o or 
main.o), the symbol type (local, global, or extern) and the section (. text, .data, or . bss) it occupies 
in that module. 


Symbol || swap.o .symtab entry? | Symbol type | Module where defined 


Homework Problem 7.7 [Category 1]: 


Without changing any variable names, modify bar5.c on Page 360 so that foo5.c prints the correct 
values of x and y (i.e., the hex representations of integers 15213 and 15212). 


Homework Problem 7.8 [Category 1]: 


In this problem, let REF (x.i) --> DEF (x.k) denote that the linker will associate an arbitrary refer- 
ence to symbol x in module i to the definition of x in module k. For each example below, use this notation 
to indicate how the linker would resolve references to the multiply-defined symbol in each module. If there 
is a link-time error (Rule 1), write “ERROR”. If the linker arbitrarily chooses one of the definitions (Rule 
3), write “UNKNOWN”. 


A. /* Module 1 */ /* Module 2 */ 
int main() static int main=1; 
{ int p2() 
} { 

} 

(a) REF (main.1) --> DEF ( =) 
(b) REF (main.2) --> DEF ( ) 

B. /* Module 1 */ /* Module 2 */ 
int x; double x; 


void main() int p2() 
{ { 
} } 
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(a) REF (x.1) --> DEF ( i ) 
(b) REF (x.2) --> DEF ( 7 ) 

C. /* Module 1 */ /* Module 2 */ 
int x=1; double x=1.0; 
void main () int p2() 

{ { 
} } 
(a) REF (x.1) --> DEF ( i ) 
(b) REF (x.2) --> DEF ( : ) 


Homework Problem 7.9 [Category 1]: 


Consider the following program, which consists of two object modules: 


/* foo6.c */ 
void p2 (void); 


/* bar6.c */ 
#include <stdio.h> 


int main () 


{ 


char main; 


p2(); 
return 0; 


void p2() 
{ 


oo ~ HD oO FF WN FB 


printf ("0x%x\n", main); 


wo OAD oO FW DY FP 


} 


When this program is compiled and executed on a Linux system, it prints the string “0x55\n” and termi- 
nates normally, even though p2 never initializes variable main. Can you explain this? 


Homework Problem 7.10 [Category 1]: 


Let a and b denote object modules or static libraries in the current directory, and let a—b denote that 
a depends on b, in the sense that b defines a symbol that is referenced by a. For each of the following 
scenarios, show the minimal command line (i.e., one with the least number of file object file and library 
arguments) that will allow the static linker to resolve all symbol references. 


A. p.o > libx.a—p.o. 
B. p.o > 1libx.a— liby.aand liby.a— libx.a. 


C. p.o => libx.a— liby.a—libz.aand liby.a — libx.a— libz.a. 


Homework Problem 7.11 [Category 1]: 
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The segment header in Figure 7.12 indicates that the data segment occupies 0x104 bytes in memory. How- 
ever, only the first Oxe8 bytes of these come from the sections of the executable file. Why the discrepancy? 


Homework Problem 7.12 [Category 2]: 


The swap routine in Figure 7.10 contains five relocated references. For each relocated reference, give its 
line number in Figure 7.10, its run-time memory address, and its value. The original code and relocation 
entries in the swap.o module are shown in Figure 7.19. 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 
al 
2 
3 
4 
5 
6 
7 
8 
9 


55 
8b 


al 


89 
c7 
00 


89 
8b 
89 
al 


89 
5d 
c3 


15 


04 


e5 
05 
00 


ec 
Oa 
02 
00 


08 


00000000 <swap>: 
0: 
alles 


00 


00 


00 
00 


00 


00 00 00 


00 00 


00 00 00 04 


00 00 


push %ebp 

mov 0x0, Sedx 

3% R_386_32 bufp0 
mov 0x4, Seax 

8: R_386_32 buf 
mov %esp, sebp 
movl $0x4, 0x0 

10: R_386_32 bufp1 
14: R_386_32 buf 
mov sebp, sesp 

mov (Sedx) , Secx 
mov Seax, (Sedx) 
mov 0x0, Seax 

1f: R_386_32 bufpl 
mov Secx, (Seax) 
pop $ebp 

rert 


Line Fin Fig.7-10 


get *bufp0=&buf [0] 
relocation entry 
get buf[1] 


relocation entry 


bufpl = &buf[1]; 


relocation entry 


relocation entry 


temp = buf [0]; 
buf [0]=buf[1]; 

get *bufp1=&buf [1] 
relocation entry 
buf [1]=temp; 


Figure 7.19: Code and relocation entries for Problem 7.13 


Homework Problem 7.13 [Category 3]: 


Consider the C code and corresponding relocatable object module in Figure 7.20. 


A. Determine which instructions in .text will need to be modified by the linker when the module 
is relocated. For each such instruction, list the information in its relocation entry: section offset, 
relocation type, and symbol name. 
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B. Determine which data objects in .data will need to be modified by the linker when the module 
is relocated. For each such instruction, list the information in its relocation entry: section offset, 
relocation type, and symbol name. 


Feel free to use tools such as OBJDUMP to help you solve this problem. 


Homework Problem 7.14 [Category 3]: 


Consider the C code and corresponding relocatable object module in Figure 7.21. 


A. Determine which instructions in .text will need to be modified by the linker when the module 
is relocated. For each such instruction, list the information in its relocation entry: section offset, 
relocation type, and symbol name. 


B. Determine which data objects in . rodata will need to be modified by the linker when the module 
is relocated. For each such instruction, list the information in its relocation entry: section offset, 
relocation type, and symbol name. 


Feel free to use tools such as OBJDUMP to help you solve this problem. 
Homework Problem 7.15 [Category 3]: 


Performing the following tasks will help you become more familiar with the various tools for manipulating 
object files. 


A. How many object files are contained in the versions of libc.aand 1ibm. a on your system? 
B. Does gcc -02 produce different executable code than gcc -02 -g? 


C. What shared libraries does the GCC driver on your system use? 
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extern int p3(void); 


int x 
int *xp 


void p2(int y) 


} 


1; 


void pl1() 


} 


00000000 <p2>: 
0: 


00000008 <p1>: 
8: 


Oo UWF 


55 
89 
89 
5d 
G3 


55 
89 
83 
83 
e8 
89 
al 
03 
52 
e8 
89 
5d 
E3 


&X7 


e5 
ec 


e5 
ec 
c4 
fë 
G2 
00 
10 


fe 
ec 


00000000 <x>: 


0: 01 00 
00000004 <xp>: 
4: 00 00 


{ 


08 
f4 
ff 


00 


ff 


00 


00 


p2(*xp + p3()); 


(a) C code 
push %ebp 
mov %esp, sebp 
mov %ebp, sesp 
pop %ebp 
ret 
push sebp 
mov sesp, sebp 
sub $0x8,%esp 
add SOxfffffff4, %esp 
ff. ff call 12 <pl+0xa> 
mov Seax, %edx 
00 00 mov 0x0, Seax 
add (Seax) , Sedx 
push Sedx 
ff ££ call 21 <p1+0x19> 
mov sebp, sesp 
pop sebp 
ret 


(b) .text section of relocatable object file. 


00 
00 


(c) . data section of relocatable object file. 


Figure 7.20: Example code for Problem 7.13. 
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1 int relo3(int val) { 
2 switch (val) { 
3 case 100: 
4 return (val); 
5 case 101: 
6 return (valtl); 
7 case 103: case 104: 
8 return (val+3); 
9 case 105: 
10 return (valt5); 
11 default: 
12 return (valt+6) ; 
13 } 
14 } 
(a) C code 
1 00000000 <relo3>: 
2 0: 55 push Sebp 
a T: 89 e5 mov %esp, sebp 
4 3s 8b 45 08 mov 0x8 (Sebp) , %eax 
5 6: 8d 50 9c lea OxffffffIc (Seax) , Sedx 
6 Ors 83 fa 05 cmp $0x5, %edx 
7 G: 7T 17 ja 25 <relo3+0x25> 
8 e: ff 24 95 00 00 00 00 jmp *0x0 (, Sedx, 4) 
9 15: 40 inc Seax 
0 16 eb 10 jmp 28 <relo3+0x28> 
1 18: 83 c0-03 add $0x3, %eax 
2 1b: eb 0b jmp 28 <relo3+0x28> 
3 1d: 8d 76 00 lea 0x0 (%esi),%esi 
4 20: 83 c0 05 add $0x5, %eax 
5 23% eb 03 jmp 28 <relo3+0x28> 
6 25% 83 c0 06 add $0x6, seax 
7 28: 89 ec mov sebp, sesp 
8 2a: 5d pop %ebp 
9 2p: c3 ret 


(b) .text section of relocatable object file. 


This is the jump table for the switch statement 
1 0000 28000000 15000000 25000000 18000000 4 words at offsets 0x0,0x4,0x8, and Oxc 


2 0010 18000000 20000000 


2 words at offsets 0x10 and 0x14 


(c) . rodata section of relocatable object file. 


Figure 7.21: Example code for Problem 7.14. 
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Chapter 8 


Exceptional Control Flow 


From the time you first apply power to a processor until the time you shut it off, the program counter assumes 
a sequence of values 
a0, @1,+++;An-1- 


where each a, is the address of some corresponding instruction J4. Each transition from az to az+1 is called 
a control transfer. A sequence of such control transfers is called the flow of control, or control flow of the 
processor. 


The simplest kind of control flow is a smooth sequence where each J, and J;,41 are adjacent in memory. 
Typically, abrupt changes to this smooth flow, where J;,,; is not adjacent to J;, are caused by familiar 
program instructions such as jumps, calls, and returns. Such instructions are necessary mechanisms that 
allow programs to react to changes in internal program state represented by program variables. 


But systems must also be able to react to changes in system state that are not captured by internal program 
variables and are not necessarily related to the execution of the program. For example, a hardware timer 
goes off at regular intervals and must be dealt with. Packets arrive at the network adapter and must be stored 
in memory. Programs request data from a disk and then sleep until they are notified that the data are ready. 
Parent processes that create child processes must be notified when their children terminate. 


Modern systems react to these situations by making abrupt changes in the control flow. We refer to these 
abrupt changes in general as exceptional control flow. Exceptional control flow occurs at all levels of 
a computer system. For example, at the hardware level, events detected by the hardware trigger abrupt 
control transfers to exception handlers. At the operating systems level, the kernel transfers control from one 
user process to another via context switches. At the application level, a process can send a Unix signal to 
another process that abruptly transfers control to a signal handler in the recipient. An individual program can 
react to errors by sidestepping the usual stack discipline and making nonlocal jumps to arbitrary locations 
in other functions (similar to the exceptions supported by C++ and Java). 


This chapter describes these various forms of exceptional control, and shows you how to use them in your C 
programs. The techniques you will learn about — creating processes, reaping terminated processes, sending 
and receiving signals, making non-local jumps — are the foundation of important programs such as Unix 
shells (Problem 8.20) and Web servers (Chapter 12). 
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8.1 Exceptions 


Exceptions are a form of exceptional control flow that are implemented partly by the hardware and partly 
by the operating system. Because they are partly implemented in hardware, the details vary from system to 
system. However, the basic ideas are the same for every system. Our aim in this section is to give you a 
general understanding of exceptions and exception handling, and to help demystify what is often a confusing 
aspect of modern computer systems. 


An exception is an abrupt change in the control flow in response to some change in the processor’s state. 
Figure 8.1 shows the basic idea. 


Application Exception 
program handler 
event ; 
occurs -------- > l ur Y exception > 
here hat exception 
~l processing 
exception 
return 
(optional) 


Figure 8.1: Anatomy of an exception. A change in the processor’s state (event) triggers an abrupt control 
transfer (an exception) from the application program to an exception handler. After it finishes processing, 
the handler either returns control to the interrupted program or aborts. 


In the figure, the processor is executing some current instruction eurr when a significant change in the 
processor’s state occurs. The state is encoded in various bits and signals inside the processor. The change 
in state is known as an event. The event might be directly related to the execution of the current instruction. 
For example, a virtual memory page fault occurs, an arithmetic overflow occurs, or an instruction attempts 
a divide by zero. On the other hand, the event might be unrelated to the execution of the current instruction. 
For example, a system timer goes off or an I/O request completes. 


In any case, when the processor detects that the event has occurred, it makes an indirect procedure call (the 
exception), through a jump table called an exception table, to an operating system subroutine (the exception 
handler) that is specifically designed to process this particular kind of event. 


When the exception handler finishes processing, one of three things happens, depending on the type of event 
that caused the exception: 


1. The handler returns control to the current instruction eurr, the instruction that was executing when 
the event occurred. 


2. The handler returns control to Inert, the instruction that would have executed next had the exception 
not occurred. 


3. The handler aborts the interrupted program. 


Section 8.1.2 says more about these possibilities. 
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8.1.1 Exception Handling 


Exceptions can be difficult to understand because handling them involves close cooperation between hard- 
ware and software. It is easy to get confused about which component performs which task. Let’s look at the 
division of labor between hardware and software in more detail. 


Each type of possible exception in a system is assigned a unique non-negative integer exception number. 
Some of these numbers are assigned by the designers of the processor. Other numbers are assigned by the 
designers of the operating system kernel (the memory-resident part of the operating system). Examples 
of the former include divide by zero, page faults, memory access violations, breakpoints, and arithmetic 
overflows. Examples of the latter include system calls and signals from external I/O devices. 


At system boot time (when the computer is reset or powered on) the operating system allocates and initializes 
a jump table called an exception table, so that entry k contains the address of the handler for exception K. 


Figure 8.2 shows the format of an exception table. 
code for 
exception handler 0 
code for 
exception handler 1 
1 code for 
2 exception handler 2 
n-1 a 
code for 
exception handler n-1 


Figure 8.2: Exception table. The exception table is a jump table where entry k contains the address of the 
handler code for exception k. 


At runtime (when the system is executing some program), the processor detects that an event has occurred 
and determines the corresponding exception number k. The processor then triggers the exception by making 
an indirect procedure call, through entry k of the exception table, to the corresponding handler. Figure 8.3 
shows how the processor uses the exception table to form the address of the appropriate exception handler. 
The exception number is an index into the exception table, whose starting address is contained in a special 
CPU register called the exception table base register. 


TER 4) moer exception table 


0 
1 
| Address of entry P| 
exception table for exception # k 
base register >(+) 


n-1 


Figure 8.3: Generating the address of an exception handler. The exception number is an index into the 
exception table. 
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An exception is akin to a procedure call, but with some important differences. 


e As with a procedure call, the processor pushes a return address on the stack before branching to 
the handler. However, depending on the class of exception, the return address is either the current 
instruction (the instruction that was executing when the event occurred) or the next instruction (the 
instruction that would have executed after the current instruction had the event not occurred). 


e The processor also pushes some additional processor state onto the stack that will be necessary to 
restart the interrupted program when the handler returns. For example, an IA32 system pushes the 
EFLAGS register containing, among other things, the current condition codes, onto the stack. 


e If control is being transferred from a user program to the kernel, all of the above items are pushed on 
the kernel’s stack rather than the user’s stack. 


e Exception handlers run in kernel mode (Section 8.2.3, which means they have complete access to all 
system resources. 


Once the hardware triggers the exception, the rest of the work is done in software by the exception handler. 
After the handler has processed the event, it optionally returns to the interrupted program by executing a 
special “return from interrupt” instruction, which pops the appropriate state back into the processor’s control 
and data registers, restores the state to user mode (Section 8.2.3) if the exeption interrupted a user program, 
and then returns control to the interrupted program. 


8.1.2 Classes of Exceptions 


Exceptions can be divided into four classes: interrupts, traps, faults, and aborts. Figure 8.4 summarizes the 
attributes of these classes. 


AsynelSyne 
Signal from 7/0 device 


Intentional exception Always returns to next instruction 


Potentially recoverable error Might return to current instruction 
Nonrecoverable error Never returns 


Figure 8.4: Classes of exceptions. Asynchronous exceptions occur as a result of events external to the 
processor. Synchronous exceptions occur as a direct result of executing an instruction. 


Interrupts 


Interrupts occur asynchronously as a result of signals from I/O devices that are external to the processor. 
Hardware interrupts are asynchronous in the sense that they are not caused by the execution of any particular 
instruction. Exception handlers for hardware interrupts are often called interrupt handlers. 
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Figure 8.5 summarizes the processing for an interrupt. I/O devices such as network adapters, disk con- 
trollers, and timer chips trigger interrupts by signalling a pin on the processor chip and placing the exception 
number on the system bus that identifies the device that caused the interrupt. 


(2) control passes 
(1) interrupt pin to handler after current 
goes high during | instruction finishes 
execution of 
current instruction 


(3) interrupt 
handler runs 


next 


(4) handler 
returns to 
next instruction 


Figure 8.5: Interrupt handling. The interrupt handler returns control to the next instruction in the applica- 
tion program’s control flow. 


After the current instruction finishes executing, the processor notices that the interrupt pin has gone high, 
reads the exception number from the system bus, and then calls the appropriate interrupt handler. When 
the handler returns, it returns control to the next instruction (i.e., the instruction that would have followed 
the current instruction in the control flow had the interrupt not occurred). The effect is that the program 
continues executing as though the interrupt had never happened. 


The remaining classes of exceptions (traps, faults, and aborts) occur synchronously as a result of executing 
the current instruction. We refer to this instruction as the faulting instruction. 


Traps 


Traps are intentional exceptions that occur as a result of executing an instruction. Like interrupt handlers, 
trap handlers return control to the next instruction. The most important use of traps is to provide a procedure- 
like interface between user programs and the kernel known as a system call. 


User programs often need to request services from the kernel such as reading a file (read), creating a new 
process (fork), loading a new program (execve), or terminating the current process (exit). To allow 
controlled access to such kernel services, processors provide a special “syscall n” instruction that user 
programs can execute when they want to request service n. Executing the syscall instruction causes a 
trap to an exception handler that decodes the argument and calls the appropriate kernel routine. Figure 8.6 
summarizes the processing for a system call. From a programmer’s perspective, a system call is identical 


es (2) control passes 
(1) Application | 
makosa syscall to handler 
system call next (3) trap 
handler runs 


(4) handler returns 
to instruction 
following the syscall 


Figure 8.6: Trap handling. The trap handler returns control to the next instruction in the application 
program’s control flow. 


to a regular function call. However, their implementations are quite different. Regular functions run in 


390 CHAPTER 8. EXCEPTIONAL CONTROL FLOW 


user mode, which restricts the types of instructions they can execute, and they access the same stack as the 
calling function. A system call runs in kernel mode, which allows it to execute instructions, and accesses a 
stack defined in the kernel. Section 8.2.3 discusses user and kernel modes in more detail. 


Faults 


Faults result from error conditions that a handler might be able to correct. When a fault occurs, the processor 
transfers control to the fault handler. If the handler is able to correct the error condition, it returns control 
to the faulting instruction, thereby reexecuting it. Otherwise, the handler returns to an abort routine in the 
kernel that terminates the application program that caused the fault. Figure 8.7 summarizes the processing 
for a fault. 


(2) control passes 
(1) Current | to handler 


instruction — ‘cur 
causes a fault (3) fault 
handler runs 
> abort 


(4) handler either reexecutes 
current instruction or aborts. 


Figure 8.7: Fault handling. Depending on the whether the fault can be repaired or not, the fault handler 
either re-executes the faulting instruction or aborts. 


A classic example of a fault is the page fault exception, which occurs when an instruction references a virtual 
address whose corresponding physical page is not resident in memory and must be retrieved from disk. As 
we will see in Chapter 10, a page is contiguous block (typically 4 KB) of virtual memory. The page fault 
handler loads the appropriate page from disk and then returns control to the instruction that caused the fault. 
When the instruction executes again, the appropriate physical page is resident in memory and the instruction 
is able to run to completion without faulting. 


Aborts 


Aborts result from unrecoverable fatal errors, typically hardware errors such as parity errors that occur 
when DRAM or SRAM bits are corrupted. Abort handlers never return control to the application program. 
As shown in Figure 8.8, the handler returns control to an abort routine that terminates the application 
program. 


(2) control passes 
(1) fatal hardware Toe to handler 
error occurs | (3) abort 


handler runs 
n aiataiatanaie > abort 


(4) handler returns 
to abort routine 


Figure 8.8: Abort handling. The abort handler passes control to a kernel abort routine that terminates 
the application program. 
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8.1.3 Exceptions in Intel Processors 


To help make things more concrete, let’s look at some of the exceptions defined for Intel systems. A Pentium 
system can have up to 256 different exception types. Numbers in the range 0 to 31 correspond to exceptions 
that are defined by the Pentium architecture, and thus are identical for any Pentium-class system. Numbers 
in the range 32 to 255 correspond to interrupts and traps that are defined by the operating system. Figure 8.9 
shows a few examples. 


Exception Number Exception Class 


divide error 

general protection fault 
page fault 

machine check 


32-127 OS-defined exceptions | interrupt or trap 
128 (0x80) system call trap 
129-255 OS-defined exceptions | interrupt or trap 


Figure 8.9: Examples of exceptions in Pentium systems. 


A divide error (exception 0) occurs when an application attempts to divide by zero, or when the result of a 
divide instruction is too big for the destination operand. Unix does not attempt to recover from divide errors, 
opting instead to abort the program. Unix shells typically report divide errors as “Floating exceptions”. 


The infamous general protection fault (exception 13) occurs for many reasons, usually because a program 
references an undefined area of virtual memory, or because the program attempts to write to a read-only text 
segment. Unix does not attempt to recover from this fault. Unix shells typically report general protection 
faults as “Segmentation faults”. 


A page fault (exception 14) is an example of an exception where the faulting instruction is restarted. The 
handler maps the appropriate page of physical memory on disk into a page of virtual memory, and then 
restarts the faulting instruction. We will see how this works in detail in Chapter 10. 


A machine check (exception 18) occurs as a result of a fatal hardware error that is detected during the exe- 
cution of the faulting instruction. Machine check handlers never return control to the application program. 


System calls are provided on IA32 systems via a trapping instruction called INT n, where n can be the index 
of any of the 256 entries in the exception table. Historically, systems calls are provided through exception 
128 (0x80). 


Aside: A note on terminology. 

The terminology for the various classes of exceptions varies from system to system. Processor macro-architecture 
specifications often distinguish between asynchronous “interrupts” and synchronous “exceptions”, yet provide no 
umbrella term to refer to these very similar concepts. To avoid having to constantly refer to “exceptions and in- 
terrupts” and “exceptions or interrupts”, we use the word “exception” as the general term and distinguish between 
asynchronous exceptions (interrupts) and synchronous exceptions (traps, faults, and aborts) only when it is appro- 
priate. As we have noted, the basic ideas are the same for every system, but you should be aware that some manu- 
facturers’ manuals use the word “exception” to refer only to those changes in control flow caused by synchronous 
events. End Aside. 
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8.2 Processes 


Exceptions provide the basic building blocks that allow the operating system to provide the notion of a 
process, one of the most profound and successful ideas in computer science. 


When we run a program on a modern system, we are presented with the illusion that our program is the only 
one currently running in the system. Our program appears to have exclusive use of both the processor and 
the memory. The processor appears to execute the instructions in our program, one after the other, without 
interruption. And the code and data of our program appear to be the only objects in the system’s memory. 
These illusions are provided to us by the notion of a process. 


The classic definition of a process is an instance of a program in execution. Each program in the system runs 
in the context of some process. The context consists of the state that the program needs to run correctly. This 
state includes the program’s code and data stored in memory, its stack, the contents of its general-purpose 
registers, its program counter, environment variables, and the set of open file descriptors. 


Each time a user runs a program by typing the name of an executable object file to the shell, the shell 
creates a new process and then runs the executable object file in the context of this new process. Application 
programs can also create new processes and run either their own code or other applications in the context of 
the new process. 


A detailed discussion of how operating systems implement processes is beyond our scope. Instead we will 
focus on the key abstractions that a process provides to the application: 


e An independent logical control flow that provides the illusion that our program has exclusive use of 
the processor. 


e A private address space that provides the illusion that our program has exclusive use of the memory 
system. 


Let’s look more closely at these abstractions. 


8.2.1 Logical Control Flow 


A process provides each program with the illusion that it has exclusive use of the processor, even though 
many other programs are typically running on the system. If we were to use a debugger to single step the 
execution of our program, we would observe a series of program counter (PC) values that corresponded 
exclusively to instructions contained in our program’s executable object file or in shared objects linked into 
our program dynamically at run time. This sequence of PC values is known as a logical control flow. 


Consider a system that runs three processes, as shown in Figure 8.10. The single physical control flow of 
the processor is partitioned into three logical flows, one for each process. Each vertical line represents a 
portion of the logical flow for a process. In the example, process A runs for a while, followed by B, which 
runs to completion. Then C runs for awhile, followed by A, which runs to completion. Finally, C is able to 
run to completion. 


The key point in Figure 8.10 is that processes take turns using the processor. Each process executes a 
portion of its flow and then is preempted (temporarily suspended) while other processes take their turns. To 
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Process A Process B Process C 


Time | 


Figure 8.10: Logical control flows. Processes provide each program with the illusion that it has exclusive 
use of the processor. Each vertical bar represents a portion of the logical control flow for a process. 


a program running in the context of one of these processes, it appears to have exclusive use of the processor. 
The only evidence to the contrary is that if we were to precisely measure the elapsed time of each instruction 
(see Chapter 9), we would notice that the CPU appears to periodically stall between the execution of some of 
the instructions in our program. However, each time the processor stalls, it subsequently resumes execution 
of our program without any change to the contents of the program’s memory locations or registers. 


In general, each logical flow is independent of any other flow in the sense that the logical flows associated 
with different processes do not affect the states of any other processes. The only exception to this rule occurs 
when processes use interprocess communication (IPC) mechanisms such as pipes, sockets, shared memory, 
and semaphores to explicitly interact with each other. 


Any process whose logical flow overlaps in time with another flow is called a concurrent process, and the 
two processes are said to run concurrently. For example, in Figure 8.10, processes A and B run concurrently, 
as do A and C. On the other hand, B and C do not run concurrently because the last instruction of B executes 
before the first instruction of C. 


The notion of processes taking turns with other processes is known as multitasking. Each time period that 
a process executes a portion of its flow is called a time slice. Thus, multitasking is also referred to as time 
slicing. 


8.2.2 Private Address Space 


A process also provides each program with the illusion that it has exclusive use of the system’s address 
space. On a machine with n-bit addresses, the address space is the set of 2” possible addresses, 0, 1, ..., 
2” — 1. A process provides each program with its own private address space. This space is private in the 
sense that a byte of memory associated with a particular address in the space cannot in general be read or 
written by any other process. 


Although the contents of the memory associated with each private address space is different in general, 
each such space has the same general organization. For example, Figure 8.11 shows the organization of 
the address space for a Linux process. The bottom three-fourths of the address space is reserved for the 
user program, with the usual text, data, heap, and stack segments. The top quarter of the address space is 
reserved for the kernel. This portion of the address space contains the code, data, and stack that the kernel 
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Oxfffffftt 


kernel virtual memory memory 
(code, data, heap, stack) t invisible to 
0xc0000000 |p user code 
user stack 
created at runtime , 
( ) %esp (stack pointer) 
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memory mapped region for 


shared libraries 
0x40000000 


| < brk 
run-time heap 
(created at runtime by malloc) 


read/write segment 


(date, .bss) loaded from the 
read-only segment executable file 
(.init, text, .rodata) 


0x08048000 


0 unused 


Figure 8.11: Process address space. 


uses when it executes instructions on behalf of the process (e.g., when the application program executes a 
system call). 


8.2.3 User and Kernel Modes 


In order for the operating system kernel to provide an airtight process abstraction, the processor must provide 
a mechanism that restricts the instructions that an application can execute, as well as the portions of the 
address space that it can access. 


Processors typically provide this capability with a mode bit in some control register that characterizes the 
privileges that the process currently enjoys. When the mode bit is set, the process is running in kernel mode 
(sometimes called supervisor mode). A process running in kernel mode can execute any instruction in the 
instruction set and access any memory location in the system. 


When the mode bit is not set, the process is running in user mode. A process in user mode is not allowed 
to execute privileged instructions that do things such as halt the processor, change the mode bit, or initiate 
an I/O operation. Nor is it allowed to directly reference code or data in the kernel area of the address space. 
Any such attempt results in a fatal protection fault. Instead, user programs must access kernel code and data 
indirectly via the system call interface. 


A process running application code is initially in user mode. The only way for the process to change from 
user mode to kernel mode is via an exception such as an interrupt, a fault, or a trapping system call. When 
the exception occurs, and control passes to the exception handler, the processor changes the mode from 
user mode to kernel mode. The handler runs in kernel mode. When it returns to the application code, the 
processor changes the mode from kernel mode back to user mode. 
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Linux and Solaris provides a clever mechanism, called the /proc filesystem, that allows user mode pro- 
cesses to access the contents of kernel data structures. The /proc filesystem exports the contents of many 
kernel data structures as a hierarchy of ASCII files that can read by user programs. For example, you can 
use the Linux proc filesystem to find out general system attributes such as CPU type (/proc/cpuinfo), 
or the memory segments used by a particular process (/proc/<process id>/maps). 


8.2.4 Context Switches 


The operating system kernel implements multitasking using a higher-level form of exceptional control flow 
known as a context switch. The context switch mechanism is built on top of the lower-level exception 
mechanism that we discussed in Section 8.1. 


The kernel maintains a context for each process. The context is the state that the kernel needs to restart a 
preempted process. It consists of the values of objects such as the general-purpose registers, the floating- 
point registers, the program counter, user’s stack, status registers, kernel’s stack, and various kernel data 
structures such as a page table that characterizes the address space, a process table that contains information 
about the current process, and a file table that contains information about the files that the process has 
opened. 


At certain points during the execution of a process, the kernel can decide to preempt the current process and 
restart a previously preempted process. This decision is known as scheduling, and is handled by a part of 
the kernel called the scheduler. When the kernel selects a new process to run, we say that the kernel has 
scheduled that process. After the kernel has scheduled a new process to run, it preempts the current process 
and transfers control to the new process using a mechanism called a context switch that (1) saves the context 
of the current process, (2) restores the saved context of some previously preempted process, and (3) passes 
control to this newly restored process. 


A context switch can occur while the kernel is executing a system call on behalf of the user. If the system 
call blocks because it is waiting for some event to occur, then the kernel can put the current process to sleep 
and switch to another process. For example, if a read system call requires a disk access, the kernel can opt 
to perform a context switch and run another process instead of waiting for the data to arrive from the disk. 
Another example is the sleep system call, which is an explicit request to put the calling process to sleep. 
In general, even if a system call does not block, the kernel can decide to perform a context switch rather 
than return control to the calling process. 


A context switch can also occur as a result of an interrupt. For example, all systems have some mechanism 
for generating periodic timer interrupts, typically every 1 ms or 10 ms. Each time a timer interrupt occurs, 
the kernel can decide that the current process has run long enough and switch to a new process. 


Figure 8.12 shows an example of context switching between a pair of processes A and B. In this example, 
initially process A is running in user mode until it traps to the kernel by executing a read system call. 
The trap handler in the kernel requests a DMA transfer from the disk controller and arranges for the disk to 
interrupt the processor after the disk controller has finished transferring the data from disk to memory. 


The disk will take a relatively long time to fetch the data (on the order of tens of milliseconds), so instead 
of waiting and doing nothing in the interim, the kernel performs a context switch from process A to B. Note 
that before the switch, the kernel is executing instructions in user mode on behalf of process A. During the 
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Figure 8.12: Anatomy of a context switch. 


first part of the switch, the kernel is executing instructions in kernel mode on behalf of process A. Then 
at some point it begins executing instructions (still in kernel mode) on behalf of process B. And after the 
switch, the kernel is executing instructions in user mode on behalf of process B. 


Process B then runs for a while in user mode until the disk sends an interrupt to signal that data has been 
transferred from disk to memory. The kernel decides that process B has run long enough and performs a 
context switch from process B to A, returning control in process A to the instruction immediately following 
the read system call. Process A continues to run until the next exception occurs, and so on. 


8.3 System Calls and Error Handling 


Unix systems provide a variety of systems calls that application programs use when they want to request 
services from the kernel such as reading a file or creating a new process. For example, Linux provides about 
160 system calls. Typing “man syscalls” will give you the complete list. 


C programs can invoke any system call directly by using the -syscall macro described in “man 2 in- 
tro”. However, it is usually neither necessary nor desirable to invoke system calls directly. The standard 
C library provides a set of convenient wrapper functions for the most frequently used system calls. The 
wrapper functions package up the arguments, trap to the kernel with the appropriate system call, and then 
pass the return status of the system call back to the calling program. In our discussion in the following sec- 
tions, we will refer to system calls and their associated wrapper functions interchangeably as system-level 
functions. 


When Unix system-level functions encounter an error, they typically return —1 and set the global integer 
variable errno to indicate what went wrong. Programmers should always check for errors, but unfortu- 
nately, many skip error checking because it bloats the code and makes it harder to read. For example, here 
is how we might check for errors when we call the Unix fork function: 


if ((pid = fork()) < 0) { 
fprintf(stderr, "fork error: %s\n", strerror(errno)); 
exit (0); 


{A WN Be 


The strerror function returns a text string that describes the error associated with a particular value of 
errno. We can simplify this code somewhat by defining the following error-reporting function: 
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1 void unix_error(char *msg) /* unix-style error */ 

2 { 

3 fprintf(stderr, "%s: s\n", msg, strerror(errno)); 
4 exit (0); 

5 } 


Given this function, our call to fork reduces from four lines to two lines: 


1 if ((pid = fork()) < 0) 
2 unix_error("fork error"); 


We can simplify our code even further by using a error-handling wrappers. For a given base function foo, 
we define a wrapper function Foo with identical arguments, but with the first letter of the name capitalized. 
The wrapper calls the base function, checks for errors and terminates if there are any problems. For example, 
here is the error-handling wrapper for the fork function: 


1 pid_t Fork (void) 

2 { 

3 pid_t pid; 

4 

5 if ((pid = fork()) < 0) 

6 unix_error("Fork error"); 
7 return pid; 

8 } 


Given this wrapper, our call to fork shrinks to a single compact line: 
1 pid = Fork(); 


We will use error-handling wrappers throughout the remainder of this book. They allow us to keep our 
code examples concise, without giving you the mistaken impression that it is permissible to ignore error- 
checking. Note that when we discuss system-level functions in the text, we will always refer to them by 
their lower-case base names, rather than by their upper-case wrapper names. 


See Appendix A for a discussion of Unix error-handling and the error-handling wrappers used throughout 
the book. The wrappers are defined in a file called csapp.c and their prototypes are defined in a header 
file called csapp.h. For your reference, Appendix A provides the sources for these files. 


8.4 Process Control 


Unix provides a number of system calls for manipulating processes from C programs. This section describes 
the important functions and gives examples of how they are used. 
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8.4.1 Obtaining Process ID’s 


Each process has a unique positive (non-zero) process ID (PID). The get pid function returns the PID of 
the calling process. The get ppid function returns the PID of its parent (i.e., the process that created the 
calling process). 


#include <unistd.h> 
#include <sys/types.h> 


pidt getpid (void); 
pidt getppid (void); 


returns: PID of either the caller or the parent 


The getpid and getppid routines return an integer value of type pid-t, which on Linux systems is 
defined in types .Ph as an int. 


8.4.2 Creating and Terminating Processes 


From a programmer’s perspective, we can think of a process as being in one of three states: 


e Running. The process is either executing on the CPU, or is waiting to be executed and will eventually 
be scheduled. 


e Stopped. The execution of the process is suspended and will not be scheduled. A process stops as 
a result of receiving a SIGSTOP, SIGTSTP, SIGTTIN, or SIGTTOU signal, and it remains stopped 
until it receives a SIGCONT signal, at which point is becomes running again. (A signal is a form of 
software interrupt that is described in detail in Section 8.5.) 


e Terminated. The process is stopped permanently. A process becomes terminated for one of three 
reasons: (1) receiving a signal whose default action is to terminate the process; (2) returning from the 
main routine; or (3) calling the exit function: 


#include <stdlib.h> 


void exit(int status); 


this function does not return 


The exit function terminates the process with an exit status of status. (The other way to set the exit 
status is to return an integer value from the main routine.) 


A parent process creates a new running child process by calling the fork function. 
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#include <unistd.h> 
#include <sys/types.h> 


pidt fork (void); 


returns: 0 to child, PID of child to parent, -1 on error 


The newly created child process is almost, but not quite, identical to the parent. The child gets an identical 
(but separate) copy of the parent’s user-level virtual address space, including the text, data, and bss segments, 
heap, and user stack. The child also gets identical copies of any of the parent’s open file descriptors, which 
means the child can read and write any files that were open in the parent when it called fork. The most 
significant difference between the parent and the newly created child is that they have different PIDs. 


The fork function is interesting (and often confusing) because it is called once but it returns twice: once 
in the calling process (the parent), and once in the newly created child process. In the parent, fork returns 
the PID of the child. In the child, fork returns a value of 0. Since the PID of the child is always nonzero, 
the return value provides an unambiguous way to tell whether the program is executing in the parent or the 
child. 


Figure 8.13 shows a simple example of a parent process that uses fork to create a child process. When the 
fork call returns in line 8, x has a value of 1 in both the parent and child. The child increments and prints 
its copy of x in line 10. Similarly, the parent decrements and prints its copy of x in line 15. 


code/ecf/fork.c 


#include "csapp.h" 


int main() 

{ 
pid_t pid; 
int x = 1; 


1 

2 

3 

4 

5 

6 

7 

8 pid = Fork(); 

9 if (pid == 0) { /* child */ 
0 printf("child : x=%d\n", ++x); 
1 exit (0); 

2 } 

3 

4 

5 

6 

7 


/* parent */ 
printf ("parent: x=%d\n", --x); 
exit (0); 


} 


code/ecf/fork.c 


Figure 8.13: Using fork to create a new process. 


When we run the program on our Unix system, we get the following result: 
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unix> ./fork 
parent: x=0 
child : x=2 


There are some subtle aspects to this simple example. 


e Call once, return twice. The fork function is called once by the parent, but it returns twice: once 
to the parent and once to the newly created child. This is fairly straightforward for programs that 
create a single child. But programs with multiple instances of fork can be confusing and need to be 
reasoned about carefully. 


e Concurrent execution. The parent and the child are separate processes that run concurrently. The 
instructions in their logical control flows can be interleaved by the kernel in an arbitrary way. When 
we run the program on our system, the parent process completes its print f statement first, followed 
by the child. However, on another system the reverse might be true. In general, as programmers we 
can never make assumptions about the interleaving of the instructions in different processes. 


e Duplicate but separate address spaces. If we could halt both the parent and the child immediately 
after the fork function returned in each process, we would see that the address space of each process 
is identical. Each process has the same user stack, the same local variable values, the same heap, the 
same global variable values, and the same code. Thus, in our example program, local variable x has a 
value of 1 in both the parent and the child when the fork function returns in line 8. However, since 
the parent and the child are separate processes, they each have their own private address spaces. Any 
subsequent changes that a parent or child makes to x are private and are not reflected in the memory 
of the other process. This is why the variable x has different values in the parent and child when they 
call their respective printf statements. 


e Shared files. When we run the example program, we notice that both parent and child print their 
output on the screen. The reason is that the child inherits all of the parent’s open files. When the 
parent calls fork, the stdout file is open and directed to the screen. The child inherits this file and 
thus its output is also directed to the screen. 


When you are first learning about the fork function, it is often helpful to draw a picture of the process 
hierarchy. The process hierarchy is a labeled directed graph, where each node is a process and each directed 


arc a “> b denotes that a is the parent of b and that a created b by executing the kth lexical instance of the 
fork function in the source code. 


For example, how many lines of output would the program in Figure 8.14(a) generate? Figure 8.14(b) shows 
the corresponding process hierarchy. The parent a creates the child b when it executes the first (and only) 
fork in the program. Both a and b call printf once, so the program prints two output lines. 


Now what if we were to call fork twice, as shown in Figure 8.14(c)? As we see from the process hierarchy 
in Figure 8.14(d), the parent a creates child b when it calls the first fork function. Then both a and b 
execute the second fork function, which results in the creations of c and d, for a total of four processes. 
Each process calls printf, so the program generates four output lines. 


Continuing this line of thought, what would happen if we were to call fork three times, as in Figure 8.14(e)? 
As we see from the process hierarchy in Figure 8.14(f), the first fork creates one process, the second fork 
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1 #include "csapp.h" 
2 
3 int main() 
os a— wb 
5 Fork (); 
6 printf ("hello!\n"); 
7 exit (0); 
8 } 

(a) Calls fork once. (b) Prints two output lines. 
1 #include "csapp.h" 
2 
3 int main() 
ad a— »b —2-+c 
5 Fork (); 5 
6 Fork (); d 
7 printf ("hello!\n"); 
8 exit (0); 
9 } 

(c) Calls fork twice. (d) Prints four output lines. 
1 #include "csapp.h" 
2 
3 int main() 
4 { +e 
5 Fork (); a spe = +1 
6 Förk(); ~ 2 pd 3 >g 
7 Fork (); wee 
8 printf ("hello!\n"); 
9 exit (0); 
10 } 

(e) Calls fork three times. (f) Prints eight output lines. 


Figure 8.14: Examples of programs and their process hierarchies. 


408 CHAPTER 8. EXCEPTIONAL CONTROL FLOW 


creates two processes, and the third fork creates four processes, for a total of eight processes. Each process 


calls printf, so the program produces eight output lines. 


Practice Problem 8.1: 


Consider the following program: 


1 #include "csapp.h" 

2 

3 int main() 

4 { 

5 int x = 1; 

6 

7 if (Fork() == 0) 

8 printf ("printfl: x=%d\n", ++x); 
9 printf ("printf2: x=%d\n", --x); 
10 exit (0); 

ca: = 


A. What is the output of the child process? 
B. What is the output of the parent process? 


Practice Problem 8.2: 


How many “hello” output lines does this program print? 


1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 Ine ay 
6 
7 for (i = 0; i < 2; itt) 
8 Fork () 
9 printf ("hello!\n"); 
10 exit (0); 
11 } 
Practice Problem 8.3: 


How many “hello” output lines does this program print? 


code/ecf/forkprob0.c 


code/ecf/forkprob0.c 


code/ecf/forkprob1.c 


code/ecf/forkprob1.c 


code/ecf/forkprob4.c 
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1 #include "csapp.h" 

2 

3 void doit () 

4 { 

5 Fork (); 

6 Fork (); 

7 printf ("hello\n"); 
8 return; 

9 } 

10 

11 int main() 

12 { 

13 doit (); 

14 printf ("hello\n"); 
15 exit (0); 

16 } 


code/ecf/forkprob4.c 


8.4.3 Reaping Child Processes 


When a process terminates for any reason, the kernel does not remove it from the system immediately. 
Instead, the process is kept around in a terminated state until it is reaped by its parent. When the parent 
reaps the terminated child, the kernel passes the child’s exit status to the parent, and then discards the 
terminated process, at which point it ceases to exist. A terminated process that has not yet been reaped is 
called a zombie. 


Aside: Why are terminated children called zombies? 

In folklore, a zombie is a living corpse, an entity that is half-alive and half-dead. A zombie process is similar in the 
sense that while it has already terminated, the kernel maintains some of its state until it can be reaped by the parent. 
End Aside. 


If the parent process terminates without reaping its zombie children, the kernel arranges for the init pro- 
cess to reap them. The init process has a PID of 1 and is created by the kernel during system initialization. 
Long-running programs such as shells or servers should always reap their zombie children. Even though 
zombies are not running, they still consume system memory resources. 


A process waits for its children to terminate or stop by calling the waitpid function. 


#include <sys/types.h> 
#include <sys/wait.h> 


pidt waitpid(pid.t pid, int *status, int options); 
returns: PID of child if OK, 0 Gf WNOHANG) or -1 on error 


The waitpid function is complicated. By default (when options = 0), waitpid suspends execution 
of the calling process until a child process in its wait set terminates. If a process in the wait set has already 
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terminated at the time of the call, then waitpid returns immediately. In either case, waitpid returns the 
PID of the terminated child that caused waitpid to return, and the terminated child is removed from the 
system. 


Determining the Members of the Wait Set 
The members of the wait set are determined by the pid argument: 


e Ifpid > 0, then the wait set is the singleton child process whose process ID is equal to pid. 


e If pid = -1, then the wait set consists of all of the parent’s child processes. 


Aside: Waiting on sets of processes. 


The waitpid function also supports other kinds of wait sets, involving Unix process groups, that we will not 
discuss. End Aside. 


Modifying the Default Behavior 


The default behavior can be modified by setting opt ions to various combinations of the WNOHANG and 
WUNTRACED constants: 


e WNOHANG: Return immediately (with a return value of 0) if the none of the child processes in the 
wait set has terminated yet. 


e WUNTRACED: Suspend execution of the calling process until a process in the wait set becomes 
terminated or stopped. Return the PID of the terminated or stopped child that caused the return. 


e WNOHANG|WUNTRACED : Suspend execution of the calling process until a child in the wait set 
terminates or stops, and then return the PID of the stopped or terminated child that caused the return. 
Also, return immediately (with a return value of 0) if none of the processes in the wait set is terminated 
or stopped. 


Checking the Exit Status of a Reaped Child 


If the status argument is non-NULL, then waitpid encodes status information about the child that 
caused the return in the status argument. The wait .h include file defines several macros for interpreting 
the status argument: 


e WIFEXITED(status): Returns true if the child terminated normally, via a call to exit or a return. 


e WEXITSTATUS (status): Returns the exit status of a normally terminated child. This status is only 
defined if WIFEXITED returned true. 


e WIFSIGNALED(status): Returns true if the child process terminated because of a signal that was not 
caught. (Signals are explained in Section 8.5.) 
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e WTERMSIG(status): Returns the number of the signal that caused the child process to terminate. 
This status is only defined if WIFSIGNALED (status) returned true. 
e WIFSTOPPED(status): Returns true if the child that caused the return is currently stopped. 


e WSTOPSIG(status): Returns the number of the signal that caused the child to stop. This status is only 
defined if WIFSTOPPED (status) returned true. 


Error Conditions 


If the calling process has no children, then waitpid returns —1 and sets errno to ECHILD. If the wait- 
pid function was interrupted by a signal, then it returns —1 and sets errno to EINTR. 


Aside: Constants associated with Unix functions. 
Constants such as WNOHANG and WUNTRACED are defined by system header files. For example, WNOHANG 
and WUNTRACED are defined (indirectly) by the wait .h header file: 


/* Bits in the third argument to ‘waitpid’. */ 
#define WNOHANG 1 /* Don’t block waiting. */ 
#define WUNTRACED 2 /* Report status of stopped children. */ 


In order to use these constants, you must include the wait .h header file in your code: 
#include <sys/wait.h> 


The man page for each Unix function lists the header files to include whenever you use that function in your code. 
Also, in order to check return codes such as ECHILD and EINTR, you must include errno.h. To simplify our 
code examples, we include a single header file called csapp.h that includes the header files for all of the functions 
used in the book. The csapp.h header file is listed in Appendix A. End Aside. 


Examples 


Figure 8.15 shows a program that creates N children, uses waitpid to wait for them to terminate, and then 
checks the exit status of each terminated child. When we run the program on our Unix system, it produces 
the following output: 


unix> ./waitpidl 
child 22966 terminated normally with exit status=100 
child 22967 terminated normally with exit status=101 


Notice that the program reaps the children in no particular order. Figure 8.16 shows how we might use 
waitpid to reap the children from Figure 8.15 in the same order that they were created by the parent. 


Practice Problem 8.4: 
Consider the following program: 


code/ecf/waitprob1.c 
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code/ecf/waitpid1.c 


1 #include "csapp.h" 
2 #define N 2 

3 

4 int main() 


5 { 

6 int status, i; 

7 pid_t pid; 

8 

9 for (i = 0; i < N; itt) 

0 if ((pid = Fork()) == 0) /* child */ 

al exit (100+i); 

2 

3 /* parent waits for all of its children to terminate */ 
4 while ((pid = waitpid(-1, &status, 0)) > 0) { 

5 if (WIFEXITED (status) ) 

6 printf("child %d terminated normally with exit status=%d\n", 
7 pid, WEXITSTATUS (status) ); 

8 else 

9 printf ("child $d terminated abnormally\n", pid); 
20 } 

21 if (errno != ECHILD) 

22 unix_error("waitpid error"); 

23 

24 exit (0); 

25 } 


code/ecf/waitpid1.c 


Figure 8.15: Using the waitpid function to reap zombie children. 
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code/ecf/waitpid2.c 


1 #include "csapp.h" 
2 #define N 2 


3 


4 int main() 


SA4 


Oo OAT Do MA WYN FP CO WO OAD 


N N N N 
WN =e Oo 


int status, i; 
pid_t pid[N+1], retpid; 


for (i = 0; i < N; itt) 
if ((pid[i] = Fork()) == 0) /* child */ 
exit (100+i); 


/* parent reaps N children in order */ 
i = 0; 
while ((retpid = waitpid(pid[it++], &status, 0)) > 0) { 
if (WIFEXITED (status) ) 
printf("child Sd terminated normally with exit status=%d\n", 
retpid, WEXITSTATUS (status) ); 


else 
printf ("child $d terminated abnormally\n", retpid); 


/* The only normal termination is if there are no more children */ 
if (errno != ECHILD) 
unix_error("waitpid error"); 


exit (0); 


code/ecf/waitpid2.c 


Figure 8.16: Using waitpid to reap zombie children in the order they were created. 
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1 #include "csapp.h" 

2 

3 int main() 

4 { 

5 int status; 

6 pid_t pid; 

7 

8 printf ("Hello\n"); 

9 pid = Fork (); 

10 printf("sd\n", !pid); 

11 if (pid != 0) { 

12 if (waitpid(-1, &status, 0) > 0) { 
13 if (WIFEXITED(status) != 0) 

14 printf ("sd\n", WEXITSTATUS (status) ); 
15 } 

16 } 

17 printf ("Bye\n"); 

18 exit (2); 

19 } 


code/ecf/waitprob1.c 


A. How many output lines does this program generate? 


B. What is one possible ordering of these output lines? 


8.4.4 Putting Processes to Sleep 


The sleep function suspends a process for some period of time. 


#include <unistd.h> 


unsigned int sleep(unsigned int secs); 


returns: seconds left to sleep 


Sleep returns zero if the requested amount of time has elapsed, and the number of seconds still left to sleep 
otherwise. The latter case is possible if the sleep function returns prematurely because it was interrupted 
by a signal. We will discuss signals in detail in Section 8.5. 


Another function that we will find useful is the pause function, which puts the calling function to sleep 
until a signal is received by the process. 


#include <unistd.h> 


int pause (void); 


always returns -1 
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Practice Problem 8.5: 
Write a wrapper function for sleep, called snooze, with the following interface: 


unsigned int snooze(unsigned int secs); 


The snooze function behaves exactly as the sleep function, except that it prints a message describing 
how long the process actually slept. For example, 


Slept for 4 of 5 secs. 


8.4.5 Loading and Running Programs 


The execve function loads and runs a new program in the context of the current process. 


#include <unistd.h> 


int execve(char *filename, char *argv[], char *envp); 


does not return if OK, returns -1 on error 


The execve function loads and runs the executable object file filename with the argument list argv 
and the environment variable list envp. Execve returns to the calling program only if there is an error 
such as not being able to find filename. So unlike fork, which is called once but returns twice, execve 
is called once and never returns. 


The argument list is represented by the data structure shown in Figure 8.17. The argv variable points to 


argv[] 

argv c argv[0] c "is 
argv[1] 

g N "lt" 


argv[argc-1] [Sees 
NULL "/usr/include" 


Figure 8.17: Organization of an argument list. 


a null-terminated array of pointers, each of which points to an argument string. By convention argv [0] 
is the name of the executable object file. The list of environment variables is represented by a similar 
data structure, shown in Figure 8.18. The envp variable points to a null-terminated array of pointers to 
environment variable strings, each of which is a name-value pair of the form ”*NAME=VALUE”. 


After execve loads filename, it calls the startup code described in Section 7.9. The startup code sets 
up the stack and passes control to the main routine of the new program, which has a prototype of the form 


int main(int argc, char **argv, char **envp); 


or equivalently 
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envp[] 


envp [> envp [0] > "PWD=/usr/droh" 


2 Tl "PRINTER=iron" 


envp[n-1] Pe os 
NULL "USER=droh" 


Figure 8.18: Organization of an environment variable list. 


int main(int argc, char *argv[], char *envp[]); 


When main begins executing on a Linux system, the user stack has the organization shown in Figure 8.19. 
Let’s work our way from the bottom of the stack (the highest address) to the top (the lowest address). First 


Oxbfffffff 7 bottom of stack 
null-terminated 


environment variable strings 


null-terminated 
= command-line arg strings 


(unused) : 


envp[n] == NULL 


envp[n-1] 


envp[0] “%lg==:--- environ 


argv[argc] = NULL 


argv[argc-1] 


ae 


| (dynamic linker variables) 
! envp e-;--- 


argc 


0xbffffa7c 
stack frame for 


main 


top of stack 


Figure 8.19: Typical organization of the user stack when a new program starts. 


are the argument and environment strings, which are stored contiguously on the stack, one after the other 
without any gaps. These are followed further up the stack by a null-terminated array of pointers, each of 
which points to an environment variable string on the stack. The global variable environ points to the 
first of these pointers, envp [0]. The environment array is followed immediately by the null-terminated 
argv [] array, with each element pointing to an argument string on the stack. At the top of the stack are the 
three arguments to the main routine: (1) envp, which points the envp[] array, (2) argv, which points 
to the argv [] array, and (3) argc, which gives the number of non-null pointers in the argv [] array. 


Unix provides several functions for manipulating the environment array. 
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#include <stdlib.h> 


char *getenv(const char *name) ; 


returns: ptr to name if exists, NULL if no match. 


The getenv function searches the environment array for a string “name=value”’. If found, it returns a 
pointer to value, otherwise it returns NULL. 


#include <stdlib.h> 


int setenv(const char *name, const char *newvalue, int overwrite); 


returns: 0 on success, -1 on error. 


void unsetenv(const char *name) ; 


returns: nothing. 


If the environment array contains a string of the form “name=oldvalue” then unsetenv deletes it and 
setenv replaces oldvalue with newvalue, but only if overwrite is nonzero. If name does not 
exist, then setenv adds “name=newvalue’ to the array. 


Aside: Setting environment variables in Solaris systems 
Solaris provides the putenv function in place of the setenv function. It provides no counterpart to the un- 
setenv function. End Aside. 


Aside: Programs vs. processes. 

This is a good place to stop and make sure you understand the distinction between a program and a process. A 
program is a collection of code and data; programs can exist as object modules on disk or as segments in an address 
space. A process is a specific instance of a program in execution; a program always runs in the context of some 
process. Understanding this distinction is important if you want to understand the fork and execve functions. 
The fork function runs the same program in a new child process that is a duplicate of the parent. The execve 
function loads and runs a new program in the context of the current process. While it overwrites the address space 
of the current process, it does not create a new process. The new program still has the same PID, and it inherits all 
of the file descriptors that were open at the time of the call to the execve function. End Aside. 


Practice Problem 8.6: 


Write a program, called myecho, that prints its command line arguments and environment variables. 
For example: 


unix> ./myecho argl arg2 
Command line arguments: 
argv[ 0]: myecho 
argv[ 1]: argl 
argv[ 2]: arg2 


Environment variables: 
envp[ 0]: PWD=/usr0/droh/ics/code/ecf 
envp[ 1]: TERM=emacs 
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envp[25]: USER=droh 
envp[26]: SHELL=/usr/local/bin/tcsh 
envp[27]: HOME=/usr0/droh 


= 
any 
= 
B 


8.4.6 Using fork and execve to Run Programs 


Programs such as Unix shells and Web servers (Chapter 12) make heavy use of the fork and execve 
functions. A shell is an interactive application-level program that runs other programs on behalf of the 
user. The original shell was the sh program, which was followed by variants such as csh, tcsh, ksh, 
and bash. A shell performs a sequence of read/evaluate steps, and then terminates. The read step reads a 
command line from the user. The evaluate step parses the command line and runs programs on behalf of the 
user. 


Figure 8.20 shows the main routine of a simple shell. The shell print a command-line prompt, waits for the 
code/ecf/shellex.c 


#include "csapp.h" 
#define MAXARGS 128 


/* function prototypes */ 

void eval (char*cmdline) ; 

int parseline(const char *cmdline, char **argv); 
int builtin_command(char **argv); 


int main () 


char cmdline[MAXLINE]; /* command line */ 


while (1) { 
/* read */ 
printf("> "); 
Fgets (cmdline, MAXLINE, stdin); 
if (feof (stdin) ) 
exit (0); 
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/* evaluate */ 
eval (cmdline) ; 
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code/ecf/shellex.c 


Figure 8.20: The main routine for a simple shell program. 


user to type a command line on stdin, and then evaluates the command line. 
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Figure 8.21 shows the code that evaluates the command line. Its first task is to call the parseline function 
(Figure 8.22), which parses the space-separated command-line arguments and builds the argv vector that 
will eventually be passed to execve. The first argument is assumed to be either the name of a built-in 
shell command that is interpreted immediately, or an executable object file that will be loaded and run in the 
context of a new child process. 


If the last argument is a “&” character, then parseline returns 1, indicating that the program should be 
executed in the background (the shell does not wait for it to complete). Otherwise it returns 0, indicating 
that the program should be run in the foreground (the shell waits for it to complete). 


After parsing the command line, the eval function calls the built in_command function, which checks 
whether the first command line argument is a built-in shell command. If so, it interprets the command 
immediately and returns 1. Otherwise, it returns 0. Our simple shell has just one built-in command, the 
quit command, which terminates the shell. Real shells have numerous commands, such as pwd, jobs, 
and fg. 


If builtin_command returns 0, then the shell creates a child process and executes the requested program 
inside the child. If the user has asked for the program to run in the background, then the shell returns to the 
top of the loop and waits for the next command line. Otherwise the shell uses the waitpid function to 
wait for the job to terminate. When the job terminates, the shell goes on to the next iteration. 


Notice that this simple shell is flawed because it does not reap any of its background children. Correcting 
this flaw requires the use of signals, which we describe in the next section. 


8.5 Signals 


To this point in our study of exceptional control flow, we have seen how hardware and software cooperate 
to provide the fundamental low-level exception mechanism. We have also seen how the operating system 
uses exceptions to support a higher-level form of exceptional control flow known as the context switch. In 
this section we will study a higher-level software form of exception, known as a Unix signal, that allows 
processes to interrupt other processes. 


A signal is a message that notifies a process that an event of some type has occurred in the system. For 
example, Figure 8.23 shows the 30 different types of signals that are supported on Linux systems. 


Each signal type corresponds to some kind of system event. Low-level hardware exceptions are processed 
by the kernel’s exception handlers and would not normally be visible to user processes. Signals provide 
a mechanism for exposing the occurrence of such exceptions to user processes. For example, if a process 
attempts to divide by zero, then the kernel sends it a SIGFPE signal (number 8). If a process executes an 
illegal instruction, the kernel sends it a SIGILL signal (number 4). If a process makes an illegal memory 
reference, the kernel sends it a SIGSEGV signal (number 11). Other signals correspond to higher-level 
software events in the kernel or in other user processes. For example, if you type a ctrl-c (i.e., press 
the ct rl key and the c key at the same time) while a process is running in the foreground, then the kernel 
sends a SIGINT (number 2) to the foreground process. A process can forcibly terminate another process 
by sending it a SIGKILL signal (number 9). When a child process terminates or stops, the kernel sends a 
SIGCHLD signal (number 17) to the parent. 
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code/ecf/shellex.c 
1 /* eval - evaluate a command line */ 
2 void eval(char *cmdline) 
3 { 
4 char *argv[MAXARGS]; /* argv for execve() */ 
5 int bg; /* should the job run in bg or fg? */ 
6 pid_t pid; /* process id */ 
7 
8 bg = parseline(cmdline, argv); 
9 if (argv[0] == NULL) 
0 return; /* ignore empty lines */ 
1 
2 if (!builtin_command(argv)) { 
3 if ((pid = Fork()) == 0) { /* child runs user job */ 
4 if (execve(argv[0], argv, environ) < 0) { 
5 printf("Ss: Command not found.\n", argv[0]); 
6 exit (0); 
7 } 
8 } 
9 
20 /* parent waits for foreground job to terminate */ 
21 if (!bg) { 
22 int status; 
23 if (waitpid(pid, &status, 0) < 0) 
24 unix_error("waitfg: waitpid error"); 
25 } 
26 else 
27 printf£("Sd Ss", pid, cmdline); 
28 } 
29 return; 
30 } 
31 


32 /* if first arg is a builtin command, run it and return true */ 
33 int builtin_command(char **argv) 


34 { 

35 if (!stroemp(argv[0], "quit")) /* quit command */ 

36 exit (0); 

37 if (!strcemp(argv[0], "&")) /* ignore singleton & */ 

38 return 1; 

39 return 0; /* not a builtin command */ 
40 } 


code/ecf/shellex.c 


Figure 8.21: eval: evaluates the shell command line. 
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code/ecf/shellex.c 

1 /* parseline - parse the command line and build the argv array */ 

2 int parseline(const char *cmdline, char **argv) 

3 { 

4 char array[MAXLINE]; /* holds local copy of command line */ 

5 char *buf = array; /* ptr that traverses command line */ 

6 char *delim; /* points to first space delimiter */ 

7 int argc; /* number of args */ 

8 int bg; /* background job? */ 

9 

0 strcpy (buf, cmdline); 

1 buf[strlen(buf)-1] =’ ’; /* replace trailing ’\n’ with space */ 

2 while (*buf && (*buf ==’ ')) /* ignore leading spaces */ 

3 buf++; 

4 

5 /* build the argv list */ 

6 argc = 0; 

7 while ((delim = strchr (buf, ’ ’))) { 

8 argv[argct+] = buf; 

9 *delim = '\0’'; 

20 buf = delim + 1; 

21 while (*buf && (*buf == ' ')) /* ignore spaces */ 

22 buf++; 

23 } 

24 argv[argc] = NULL; 

25 

26 if (argc == 0) /* ignore blank line */ 

27 return 1; 

28 

29 /* should the job run in the background? */ 

30 if ((bg = (*argv[argc-1] == ’&’)) != 0) 

cal argv[--argc] = NULL; 

32 

33 return bg; 

34 } 
code/ecf/shellex.c 


Figure 8.22: parseline: parses a line of input for the shell. 
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Default action Corresponding event 


OFM 全 


SIGHUP 
SIGINT 
SIGQUIT 
SIGILL 
SIGTRAP 
SIGABRT 
SIGBUS 
SIGFPE 
SIGKILL 
SIGUSR1 
SIGSEGV 
SIGUSR2 
SIGPIPE 
SIGALRM 
SIGTERM 
SIGSTKFLT 
SIGCHLD 
SIGCONT 
SIGSTOP 
SIGTSTP 
SIGTTIN 
SIGTTOU 
SIGURG 
SIGXCPU 
SIGXFSZ 
SIGVTALRM 
SIGPROF 
SIGWINCH 
SIGIO 
SIGPWR 


terminate 

terminate 

terminate 

terminate 

terminate and dump core 
terminate and dump core 
terminate 

terminate and dump core 
terminate* 

terminate 

terminate and dump core 
terminate 

terminate 

terminate 

terminate 

terminate 

ignore 

ignore 


stop until next SIGCONT* 


stop until next SIGCONT 
stop until next SIGCONT 
stop until next SIGCONT 
ignore 

terminate 

terminate 

terminate 

terminate 

ignore 

terminate 

terminate 


Terminal line hangup 

Interrupt from keyboard 

Quit from keyboard 

Illegal instruction 

Trace trap 

Abort signal from abort function 
Bus error 

Floating point exception 

Kill program 

User-defined signal 1 

Invalid memory reference (seg fault) 
User-defined signal 2 

Wrote to a pipe with no reader 

Timer signal from alarm function 
Software termination signal 

Stack fault on coprocessor 

A child process has stopped or terminated 
Continue process if stopped 

Stop signal not from terminal 

Stop signal from terminal 
Background process read from terminal 
Background process wrote to terminal 
Urgent condition on socket 

CPU time limit exceeded 

File size limit exceeded 

Virtual timer expired 

Profiling timer expired 

Window size changed 

T/O now possible on a descriptor. 
Power failure 


Figure 8.23: Linux signals. Other Unix versions are similar. Notes: (1) *This signal can neither be caught 
nor ignored. (2) Years ago, main memory was implemented with a technology known as core memory. 
“Dumping core” is an historical term that means writing an image of the code and data memory segments 
to disk. 
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8.5.1 Signal Terminology 
The transfer of a signal to a destination process occurs in two distinct steps: 


e Sending a signal. The kernel sends (delivers) a signal to a destination process by updating some state 
in the context of the destination process. The signal is delivered for one of two reasons: (1) the kernel 
has detected a system event such as a divide-by-zero error or the termination of a child process; (2) A 
process has invoked the ki11 function (discussed in the next section) to explicitly request the kernel 
to send a signal to the destination process. A process can send a signal to itself. 


e Receiving a signal. A destination process receives a signal when it is forced by the kernel to react in 
some way to the delivery of the signal. The process can either ignore the signal, terminate, or catch 
the signal by executing a user-level function called a signal handler. 


A signal that has been sent but not yet received is called a pending signal. At any point in time, there 
can be at most one pending signal of a particular type. If a process has a pending signal of type k, then 
any subsequent signals of type k sent to that process are not queued; they are simply discarded. A process 
can selectively block the receipt of certain signals. When a signal is blocked, it can be delivered, but the 
resulting pending signal will not be received until the process unblocks the signal. 


A pending signal is received at most once. For each process, the kernel maintains the set of pending signals 
in the pending bit vector, and the set of blocked signals in the blocked bit vector. The kernel sets bit 
k in pending whenever a signal of type k is delivered and clears bit k in pending whenever a signal of 
type k is received. 


8.5.2 Sending Signals 


Unix systems provide a number of mechanisms for sending signals to processes. All of the mechanisms rely 
on the notion of a process group. 


Process Groups 


Every process belongs to exactly one process group, which is identified by a positive integer process group 
ID. The getpgrp function returns the process group ID of the current process. 


#include <unistd.h> 


pidt getpgrp (void); 


returns: process group ID of calling process 


By default, a child process belongs to the same process group as its parent. A process can change the process 
group of itself or another process by using the set pgid function: 
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#include <unistd.h> 


pidt setpgid(pid.t pid, pidt pgid); 


returns: 0 on success, -1 on error. 


The setpgid function changes the process group of process pid to pgid. If pid is zero, the PID of the 
current process is used. If pgid is zero, the PID of the process specified by pid is used for the process 
group ID. For example, if process 15213 is the calling process, then 


setpgid(0, 0); 


creates a new process group whose process group ID is 15213, and adds process 15213 to this new group. 


Sending Signals With the ki11 Program 
The /bin/kill program sends an arbitrary signal to another process. For example 
unix> kill -9 15213 


sends signal 9 (SIGKILL) to process 15213. A negative PID causes the signal to be sent to every process in 
process group PID. For example, 


unix> kill -9 -15213 


sends a SIGKILL signal to every process in process group 15213. 


Sending Signals From the Keyboard 


Unix shells use the abstraction of a job to represent the processes that are created as a result of evaluating a 
single command line. At any point in time, there is at most one foreground job and zero or more background 
jobs. For example, typing 


unix> Is | sort 


creates a foreground job consisting of two processes connected by a Unix pipe: one running the 1s program, 
the other running the sort program. 


The shell creates a separate process group for each job. Typically, the process group ID is taken from one 
of the parent processes in the job. For example, Figure 8.24 shows a shell with one foreground job and two 
background jobs. The parent process in the foreground job has a PID of 20 and a process group ID of 20. 
The parent process has created two children, each of which are also members of process group 20. 


Typing ctrl-c at the keyboard causes a SIGINT signal to be sent to the shell. The shell catches the signal 
(see Section 8.5.3) and then sends a SIGINT to every process in the foreground process group. In the default 
case, the result is to terminate the foreground job. Similarly, typing crt 1—z sends a SIGTSTP signal to the 
shell, which catches it and sends a SIGTSTP signal to every process in the foreground process group. In the 
default case, the result is to stop (suspend) the foreground job. 
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Figure 8.24: Foreground and background process groups. 


Sending Signals With the ki11 Function 


Processes send signals to other processes (including themselves) by calling the ki11 function. 


#include <sys/types.h> 
#include <signal.h> 


int kill(pidt pid, int sig); 


returns: 0 if OK, -1 on error 


If pidis greater than zero, then the ki11 function sends signal number sig to process pid. If pidis less 
than zero, than kill sends signal sig to every process in process group abs (pid). Figure 8.25 shows 
an example of a parent that uses the ki11 function to send a SIGKILL signal to its child. 


Sending Signals With the alarm Function 


A process can send SIGALRM signals to itself by calling the alarm function. 


#include <unistd.h> 


unsigned int alarm(unsigned int secs); 


returns: remaining secs of previous alarm, or 0 if no previous alarm 


The alarm function arranges for the kernel to send a SIGALRM signal to the calling process in secs sec- 
onds. If secs is zero, then no new alarm is scheduled. In any event, the call to alarmcancels any pending 
alarms, and returns the number of seconds remaining until any pending alarm was due to be delivered (had 
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code/ecffkill.c 
1 #include "csapp.h" 
2 
3 int main() 
4 { 
5 pid_t pid; 
6 
7 /* child sleeps until SIGKILL signal received, then dies */ 
8 if ((pid = Fork()) == 0) { 
9 Pause(); /* wait for a signal to arrive */ 
0 printf ("control should never reach here! \n"); 
1 exit (0); 
2 } 
3 
4 /* parent sends a SIGKILL signal to a child */ 
5 Kill (pid, SIGKILL); 
6 exit (0); 
7 } 
code/ecf/kill.c 


Figure 8.25: Using the ki11 function to send a signal to a child. 


not this call to alarm cancelled it), or 0 if there were no pending alarms. 


Figure 8.26 shows a program called alarm that arranges to be interrupted by a SIGALRM signal every 
second for five seconds. When the sixth SIGALRM is delivered it terminates. When we run the program in 
Figure 8.26, we get the following output: a “BEEP” every second for five seconds, followed by a “BOOM” 
when the program terminates. 


unix> ./alarm 
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Notice that the program in Figure 8.26 uses the signal function to install a signal handler function 
(handler) that is called asynchronously, interrupting the infinite while loop in main, whenever the 
process receives a SIGALRM signal. When the handler function returns, control passes back to main, 
which picks up where it was interrupted by the arrival of the signal. Installing and using signal handlers can 
be quite subtle, and is the topic of the next three sections. 


8.5.3 Receiving Signals 


When the kernel is returning from an exception handler and is ready to pass control to process p, it checks 
the set of unblocked pending signals (pending & ~blocked). If this set is empty (the usual case), then 
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code/ecf/alarm.c 


#include "csapp.h" 


void handler(int sig) 


{ 


int 


static int beeps = 0; 


printf ("BEEP\n"); 
if (++beeps < 5) 

Alarm(1); /* next SIGALRM will be delivered in 1s */ 
else { 

printf ("BOOM! \n"); 

exit (0); 


main () 


Signal (SIGALRM, handler); /* install SIGALRM handler */ 
Alarm(1); /* next SIGALRM will be delivered in 1s */ 


while (1) { 


; /* signal handler returns control here each time */ 


} 
exit (0); 


code/ecf/alarm.c 


Figure 8.26: Using the alarm function to schedule periodic events. 
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the kernel passes control to the next instruction (next) in the logical control flow of p. 


However, if the set is nonempty, then the kernel chooses some signal k in the set (typically the smallest k) 
and forces p to receive signal k. The receipt of the signal triggers some action by the process. Once the 
process completes the action, then control passes back to the next instruction (ln,ext) in the logical control 
flow of p. Each signal type has a predefined default action, which is one of the following: 


e The process terminates. 
e The process terminates and dumps core. 
e The process stops until restarted by a SIGCONT signal. 


e The process ignores the signal. 


Figure 8.23 shows the default actions associated with each type of signal. For example, the default action 
for the receipt of a SIGKILL is to terminate the receiving process. On the other hand, the default action for 
the receipt of a SIGCHLD is to ignore the signal. A process can modify the default action associated with 
a signal by using the signal function. The only exceptions are SIGSTOP and SIGKILL, whose default 
actions cannot be changed. 


#include <signal.h> 


typedef void handler_t (int) 


handler.t *signal(int signum, handler_t *handler) 


returns: ptr to previous handler if OK, SIG_ERR on error (does not set errno) 


The signal function can change the action associated with a signal signum in one of three ways: 


e If handler is SIG_IGN, then signals of type signum are ignored. 
e If handler is SIG_DEFL, then the action for signals of type signum reverts to the default action. 


e Otherwise, handler is the address of a user-defined function, called a signal handler, that will 
be called whenever the process receives a signal of type signum. Changing the default action by 
passing the address of a handler to the signal function is known as installing the handler. The 
invocation of the handler is called catching the signal. The execution of the handler is referred to as 
handling the signal. 


When a process catches a signal of type k, the handler installed for signal k is invoked with a single integer 
argument set to k. This argument allows the same handler function to catch different types of signals. 


When the handler executes its return statement, control (usually) passes back to the instruction in the 
control flow where the process was interrupted by the receipt of the signal. We say “usually” because in 
some systems, interrupted system calls return immediately with an error. More on this in the next section. 
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Figure 8.27 shows a program that catches the SIGINT signal sent by the shell whenever the user types 
ctrl-c at the keyboard. The default action for SIGINT is to immediately terminate the process. In this 
example, we modify the default behavior to catch the signal, print a message, and then terminate the process. 


code/ecf/sigint1.c 


#include "csapp.h" 


void handler(int sig) /* SIGINT handler */ 
{ 

printf ("Caught SIGINT\n"); 

exit (0); 

} 


1 
2 
3 
4 
5 
6 
7 
8 
9 int main() 

o { 

1 /* Install the SIGINT handler */ 

2 if (signal(SIGINT, handler) == SIG_ERR) 
3 unix_error("signal error"); 

4 
5 
6 
7 
8 


pause(); /* wait for the receipt of a signal */ 


exit (0); 


code/ecf/sigintl.c 


Figure 8.27: A program that catches a SIGINT signal. 


The handler function is defined in lines 3—7. The main routine installs the handler in lines 12—13, and then 
goes to sleep until a signal is received (line 15). When the SIGINT signal is received, the handler runs, 
prints a message (line 5) and then terminates the process (line 6). 


Practice Problem 8.7: 


Write a program, called snooze, that takes a single command line argument, calls the snooze function 
from Problem 8.5 with this argument, and then terminates. Write your program so that the user can 
interrupt the snooze function by typing ctrl-c at the keyboard. For example: 


unix> ./snooze 5 


Slept for 3 of 5 secs. User hits crtl-c after 3 seconds 
unix> 


8.5.4 Signal Handling Issues 


Signal handling is straightforward for programs that catch a single signal and then terminate. However, 
subtle issues arise when a program catches multiple signals. 
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e Pending signals can be blocked. Unix signal handlers typically block pending signals of the type 
currently being processed by the handler. For example, suppose a process has caught a SIGINT 
signal and is currently running its SIGINT handler. If another SIGINT signal is sent to the process, 
then the SIGINT will become pending, but will not be received until after the handler returns. 


e Pending signals are not queued. There can be at most one pending signal of any particular type. 
Thus, if two signals of type k are sent to a destination process while signal k is blocked because 
the destination process is currently executing a handler for signal k, then the second signal is simply 
discarded; it is not queued. The key idea is that the existence of a pending signal merely indicates that 
at least one signal has arrived. 


e System calls can be interrupted. System calls such as read, wait, and accept that can potentially 
block the process for a long period of time are called slow system calls. On some systems, slow 
system calls that are interrupted when a handler catches a signal do not resume when the signal 
handler returns, but instead return immediately to the user with an error condition and errno set to 
EINTR. 


Let’s look more closely at the subtleties of signal handling, using a simple application that is similar in nature 
to real programs such as shells and Web servers. The basic structure is that a parent process creates some 
children that run independently for a while and then terminate. The parent must reap the children to avoid 
leaving zombies in the system. But we also want the parent to be free to do other work while the children 
are running. So we decide to reap the children with a SIGCHLD handler, instead of explicitly waiting for 
the children the terminate. (Recall that the kernel sends a SIGCHLD signal to the parent whenever one of 
its children terminates or stops.) 


Figure 8.28 shows our first attempt. The parent installs a SIGCHLD handler, and then creates three children, 
each of which runs for 1 second and then terminates. In the meantime, the parent waits for a line of 
input from the terminal and then processes it. This processing is modeled by an infinite loop. When each 
child terminates, the kernel notifies the parent by sending it a SIGCHLD signal. The parent catches the 
SIGCHLD, reaps one child, does some additional cleanup work (modeled by the sleep (2) statement), 
and then returns. 


The signall program in Figure 8.28 seems fairly straightforward. But when we run it on our Linux 
system, we get the following output: 


linux> ./signall 

Hello from child 10320 
Hello from child 10321 
Hello from child 10322 
Handler reaped child 10320 
Handler reaped child 10322 

<cr> 
Parent processing input 


From the output, we see that even though three SIGCHLD signals were sent to the parent, only two of these 
signals were received, and thus the parent only reaped two children. If we suspend the parent process, we 
see that indeed child process 10321 was never reaped and remains a zombie: 
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code/ecf/signall.c 


1 #include "csapp.h" 

2 

3 void handlerl(int sig) 
4 { 

pid_t pid; 


if ((pid = waitpid(-1, NULL, 0)) < 0) 
unix_error("waitpid error"); 

printf ("Handler reaped child %d\n", (int) pid); 

Sleep (2); 

return; 


int main () 

{ 

Ine ty n} 

char buf [MAXBUF]; 
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if (signal (SIGCHLD, handlerl1) == SIG_ERR) 


20 unix_error("signal error"); 

21 

22 /* parent creates children */ 

23 for (i = 0; i < 3; i++) { 

24 if (Fork() == 0) { 

25 printf("Hello from child %d\n", (int) getpid()); 
26 Sleep (1); 

27 exit (0); 

28 } 

29 } 

30 

32 /* parent waits for terminal input and then processes it */ 
32 if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
33 unix_error ("read"); 

34 

35 printf ("Parent processing input\n"); 

36 while (1) 

37 > 

38 

39 exit (0); 

40 } 


code/ecf/signall.c 


Figure 8.28: signal1: This program is flawed because it fails to deal with the facts that signals can block, 
signals are not queued, and system calls can be interrupted. 
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LECISZ 
Suspended 
linux> ps 
PID TTY STAT TIME COMMAND 


10319 p5 T 0:03 signall 
10321 p52 0:00 (signall <zombie>) 
10323 p5 R 0:00 ps 


What went wrong? The problem is that our code failed to account for the facts that signals can block and 
that signals are not queued. Here’s what happened: 


The first signal is received and caught by the parent. While the handler is still processing the first signal, the 
second signal is delivered and added to the set of pending signals. However, since SIGCHLD signals are 
blocked by the SIGCHLD handler, the second signal is not received. Shortly thereafter, while the handler 
is still processing the first signal, the third signal arrives. Since there is already a pending SIGCHLD, this 
third SIGCHLD signal is discarded. Sometime later, after the handler has returned, the kernel notices that 
there is a pending SIGCHLD signal and forces the parent to receive the signal. The parent catches the signal 
and executes the handler a second time. After the handler finishes processing the second signal, there are 
no more pending SIGCHLD signals, and there never will be, because all knowledge of the third SIGCHLD 
has been lost. The crucial lesson is that signals cannot be used to count the occurrence of events in other 
processes. 


To fix the problem, we must recall that the existence of a pending signal only implies that at least one signal 
has been delivered since the last time the process received a signal of that type. So we must modify the 
SIGCHLD handler to reap as many zombie children as possible each time it is invoked. Figure 8.29 shows 
the modified SIGCHLD handler. When we run signal2 on our Linux system, it now correctly reaps all 
of the zombie children: 


linux> ./signal2 

Hello from child 10378 

Hello from child 10379 

Hello from child 10380 

Handler reaped child 10379 

Handler reaped child 10378 

Handler reaped child 10380 
<cr> 

Parent processing input 


However, we are not done yet. If we run the signal2 program on a Solaris system, it correctly reaps all of 
the zombie children. However, now the blocked read system call returns prematurely with an error, before 
we are able to type in our input on the keyboard: 


solaris> ./signal2 

Hello from child 18906 
Hello from child 18907 
Hello from child 18908 
Handler reaped child 18906 
Handler reaped child 18908 
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code/ecf/signal2.c 


#include "csapp.h" 


void handler2(int sig) 


{ 


} 


pid_t pid; 


while ((pid = waitpid(-1, NULL, 0)) > 0) 
printf ("Handler reaped child %d\n", (int) pid); 


if (errno != ECHILD) 

unix_error ("waitpid error"); 
Sleep (2); 
return; 


int main () 


{ 


Ine iy n? 
char buf [MAXBUF]; 


if (signal(SIGCHLD, handler2) == SIG_ERR) 
unix_error("signal error"); 


/* parent creates children */ 
for (i = 0; i < 3; i++) { 


if (Fork() == 0) { 
printf ("Hello from child %d\n", (int) getpid()); 
Sleep (1); 
exit (0); 


/* parent waits for terminal input and then processes it */ 
if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
unix_error("read error"); 


printf ("Parent processing input\n"); 
while (1) 


F 


exit (0); 


code/ecf/signal2.c 


Figure 8.29: signal2: An improved version of Figure 8.28 that correctly accounts for the facts that 
signals can block and are not queued. However it does not allow for the possibility that system calls can be 
interrupted. 
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Handler reaped child 18907 
read: Interrupted system call 


What went wrong? The problem arises because on this particular Solaris system, slow system calls such 
as read are not restarted automatically after they are interrupted by the delivery of a signal. Instead they 
return prematurely to the calling application with an error condition, unlike Linux systems, which restart 
interrupted system calls automatically. 


In order to write portable signal handling code, we must allow for the possibility that system calls will 
return prematurely and then restart them manually when this occurs. Figure 8.30 shows the modification to 
signall that manually restarts aborted read calls. The EINTR return code in errno indicates that the 
read system call returned prematurely after it was interrupted. 


When we run our new signal3 program on a Solaris system, the program runs correctly: 


solaris> ./signal3 

Hello from child 19571 
Hello from child 19572 
Hello from child 19573 
Handler reaped child 19571 
Handler reaped child 19572 
Handler reaped child 19573 
<cr> 

Parent processing input 


8.5.5 Portable Signal Handling 


The differences in signal handling semantics from system to system — such as whether or not an interrupted 
slow system call is restarted or aborted prematurely — is an ugly aspect of Unix signal handling. To deal 
with this problem, the Posix standard defines the sigaction function, which allows users on Posix- 
compliant systems such as Linux and Solaris to clearly specify the signal-handling semantics they want. 


#include <signal.h> 


int sigaction(int signum, struct sigaction *act, struct sigaction *oldact); 


returns: 0 if OK, -1 on error 


The sigaction function is unwieldy because it requires the user to set the entries of a structure. A cleaner 
approach, originally proposed by Stevens [77], is to define a wrapper function, called Signal, that calls 
sigaction for us. Figure 8.31 shows the definition of Signal, which is invoked in the same way as 
the signal function. The Signal wrapper installs a signal handler with the following signal-handling 
semantics: 


e Only signals of the type currently being processed by the handler are blocked. 


e As with all signal implementations, signals are not queued. 
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code/ecf/signal3.c 
#include "csapp.h" 
void handler2(int sig) 
{ 
pid_t pid; 
while ((pid = waitpid(-1, NULL, 0)) > 0) 
printf ("Handler reaped child %d\n", (int) pid); 
if (errno != ECHILD) 
unix_error ("waitpid error"); 
Sleep (2); 
return; 
} 
int main() { 
int i, n; 
char buf [MAXBUF]; 
pid_t pid; 
if (signal(SIGCHLD, handler2) == SIG_ERR) 
unix_error("signal error"); 
/* parent creates children */ 
for (i = 0; i < 3; i++) { 
pid = Fork(); 
if (pid == 0) { 
printf("Hello from child %d\n", (int) getpid()); 
Sleep (1); 
exit (0); 
} 
} 
/* Manually restart the read call if it is interrupted */ 
while ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
if (errno != EINTR) 
unix_error("read error"); 
printf ("Parent processing input\n"); 
while (1) 
exit (0); 
} 
code/ecf/signal3.c 


Figure 8.30: signal3: An improved version of Figure 8.29 that correctly accounts for the fact that system 
calls can be interrupted. 


430 CHAPTER 8. EXCEPTIONAL CONTROL FLOW 


code/src/csapp.c 


handler_t *Signal(int signum, handler_t *handler) 


{ 


struct sigaction action, old_action; 


action.sa_handler = handler; 
sigemptyset (&Saction.sa_mask); /* block sigs of type being handled */ 
action.sa_flags = SA_RESTART; /* restart syscalls if possible */ 


wo OO oO F&F WYN EF 


if (sigaction (signum, &action, &o0ld_action) < 0) 
unix_error("Signal error"); 
return (old_action.sa_handler); 


PRR 
N Be oO 
~ 


code/src/csapp.c 


Figure 8.31: Signal: A wrapper for sigaction that provides portable signal handling on Posix- 
compliant systems. 


e Interrupted system calls are automatically restarted whenever possible. 


e Once the signal handler is installed, it remains installed until Signal is called with a handler 
argument of either SIG_IGN or SIG_DFL. (Some older Unix systems restore the signal action to its 
default action after a signal has been processed by a handler.) 


Figure 8.32 shows a version of the signal2 program from Figure 8.29 that uses our Signal wrapper to 
get predictable signal handling semantics on different computer systems. The only difference is that we have 
installed the handler with a call to Signal rather than a call to signal. The program now runs correctly 
on both our Solaris and Linux systems, and we no longer need to manually restart interrupted read system 
calls. 


8.6 Nonlocal Jumps 


C provides a form of user-level exceptional control flow, called a nonlocal jump, that transfers control 
directly from one function to another currently executing function, without having to go through the normal 
call-and-return sequence. Nonlocal jumps are provided by the set jmp and long jmp functions. 


#include <setjmp.h> 


int setjmp(jmp_buf env); 
int sigsetjmp(sigjmp_buf env, int savesigs); 


returns: 0 from setjmp, nonzero from longjmps) 


The set jmp function saves the current stack context in the env buffer, for later use by Long jmp, and 
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code/ecf/signal4.c 


#include "csapp.h" 


void handler2(int sig) 


{ 


} 


int 


{ 


} 


pid_t pid; 


while ((pid = waitpid(-1, NULL, 0)) > 0) 
printf ("Handler reaped child %d\n", (int) pid); 


if (errno != ECHILD) 
unix_error ("waitpid error"); 
Sleep (2); 
return; 
main () 


int i, n; 
char buf [MAXBUF]; 
pid_t pid; 


Signal (SIGCHLD, handler2); /* sigaction error-handling wrapper */ 


/* parent creates children */ 
for (i = 0; i < 3; itt) { 
pid = Fork(); 


if (pid == 0) { 
printf("Hello from child %d\n", (int) getpid()); 
Sleep (1); 
exit (0); 


/* parent waits for terminal input and then processes it */ 
if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
unix_error("read error"); 


printf ("Parent processing input\n"); 
while (1) 


r 


exit (0); 


code/ecf/signal4.c 


Figure 8.32: signal4: A version of Figure 8.29 that uses our Signal wrapper to get portable signal- 
handling semantics. 
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returns a 0. 


#include <setjmp.h> 


void longjmp (jmpbuf env, int retval); 
void siglongjmp (sigjmp buf env, int retval); 


never returns) 


The Long jmp function restores the stack context from the env buffer and then triggers a return from the 
most recent set jmp call that initialized env. The set jmp then returns with the nonzero return value 
retval. 


The interactions between set jmp and long jmp can be confusing at first glance. The set jmp function 
is called once but returns multiple times: once when the set jmp is first called and the stack context is 
stored in the env buffer, and once for each corresponding long jmp call. On the other hand, the Longjmp 
function is called once but never returns. 


An important application of nonlocal jumps is to permit an immediate return from a deeply nested function 
call, usually as a result of detecting some error condition. If an error condition is detected deep in a nested 
function call, we can use a nonlocal jump to return directly to a common localized error handler instead of 
laboriously unwinding the call stack. 


Figure 8.33 shows an example of how this might work. The main routine first calls set jmp to save 
the current stack context, and then calls function foo, which in turn calls function bar. If foo or bar 
encounter an error, they return immediately from the set jmp via a Long jmp call. The nonzero return 
value of the set jmp indicates the error type, which can then be decoded and handled in one place in the 
code. 


Another important application of nonlocal jumps is to branch out of a signal handler to a specific code 
location, rather than returning to the instruction that was interrupted by the arrival of the signal. For example, 
if a Web server attempts to send data to a browser that has unilaterally aborted the network connection 
between the client and the server, (e.g., as a result of the browser’s user clicking the STOP button), the 
kernel will send a SIGPIPE signal to the server. The default action for the SIGPIPE signal is to terminate 
the process, which is clearly not a good thing for a server that is supposed to run forever. Thus, a robust Web 
server will install a SIGPIPE handler to catch these signals. After cleaning up, the SIGPIPE handler should 
jump to the code that waits for the next request from a browser, rather than returning to the instruction that 
was interrupted by the receipt of the SIGPIPE signal. Nonlocal jumps are the only way to handle this kind 
of error recovery. 


Figure 8.34 shows a simple program that illustrates this basic technique. The program uses signals and 
nonlocal jumps to do a soft restart whenever the user types ct r1-c at the keyboard. The sigset jmp and 
siglong jmp functions are versions of set jmp and Long jmp that can be used by signal handlers. 


The initial call to the sigset jmp function saves the stack and signal context when the program first starts. 
The main routine then enters an infinite processing loop. When the user types ctrl-c, the shell sends a 
SIGINT signal to the process, which catches it. Instead of returning from the signal handler, which would 
pass back control back to the interrupted processing loop, the handler performs a nonlocal jump back to the 
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code/ecf/setjmp.c 
1 #include "csapp.h" 
2 
3 jmp_buf buf; 
4 
5 int errorl = 0; 
6 int error2 = 1; 
7 
8 void foo(void), bar(void); 
9 
0 int main() 
1 { 
2 int xe; 
3 
4 re = set jmp (buf); 
5 if (re == 0) 
6 foo(); 
7 else if (rc == 1) 
8 printf ("Detected an errorl condition in foo\n"); 
9 else if (rc == 2) 
20 printf ("Detected an error2 condition in foo\n"); 
21 else 
22 printf ("Unknown error condition in foo\n"); 
23 exit (0); 
24 } 
25 
26 /* deeply nested function foo */ 
27 void foo (void) 
28 { 
29 if (errorl) 
30 longjmp (buf, 1); 
sal bar (); 
32 } 
33 
34 void bar (void) 
35 { 
36 if (error2) 
37 longjmp (buf, 2); 
38 } 
code/ecf/setjmp.c 


Figure 8.33: Nonlocal jump example. This example shows the framework for using nonlocal jumps to 
recover from error conditions in deeply nested functions without having to unwind the entire stack. 
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code/ecf/restart.c 


1 #include "csapp.h" 

2 

3 sigjmp_buf buf; 

4 

5 void handler(int sig) 
6 { 


7 siglongjmp (buf, 1); 

8 } 

9 

0 int main() 

1 { 

2 Signal(SIGINT, handler); 

3 

4 if (!sigsetjmp (buf, 1)) 

5 printf ("starting\n"); 

6 else 

7 printf ("restarting\n"); 
8 

9 while(1) { 

20 Sleep (1); 

21 printf ("processing...\n"); 
22 } 

23 exit (0); 

24 } 


code/ecf/restart.c 


Figure 8.34: A program that uses nonlocal jumps to restart itself when the user types ctrl-c. 


8.7. TOOLS FOR MANIPULATING PROCESSES 44] 


beginning of the main program. 


When we ran the program on our system, we got the following output: 


unix> ./restart 

starting 

processing... 

processing... 

restarting user hits ctrl-c 
processing... 

restarting User hits ctrl-c 
processing... 


8.7 Tools for Manipulating Processes 


Unix systems provide a number of useful tools for monitoring and manipulating processes. 


STRACE: Prints a trace of each system call invoked by a program and its children. A fascinating tool for the 
curious student. Compile your program with -static to get a cleaner trace without a lot of output 
related to shared libraries. 


PS: Lists processes (including zombies) currently in the system. 
TOP: Prints information about the resource usage of current processes. 


KILL: Sends a signal to a process. Useful for debugging programs with signal handlers and cleaning up 
wayward processes. 


/proc (Linux and Solaris) : A virtual filesystem that exports the contents of numerous kernel data struc- 
tures in an ASCII text form that can be read by user programs. For example, type “cat /proc/loadavg” 
to see the current load average on your Linux system. 


8.8 Summary 


Exceptional control flow occurs at all levels of a computer system. At the hardware level, exceptions are 
abrupt changes in the control flow that are triggered by events in the processor. At the operating system 
level, the kernel triggers abrupt changes in the control flows between different processes when it performs 
context switches. At the interface between the operating system and applications, applications can create 
child processes, wait for their child processes to stop or terminate, run new programs, and catch signals from 
other processes. The semantics of signal handling is subtle and can vary from system to system. However, 
mechanisms exist on Posix-compliant systems that allow programs to clearly specify the expected signal- 
handling semantics. Finally, at the application level, C programs can use nonlocal jumps to bypass the 
normal call/return stack discipline and branch directly from one function to another. 
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Homework Problems 


Homework Problem 8.8 [Category 1]: 


In this chapter, we have introduced some functions with unusual call and return behaviors: set jmp, 
long jmp, execve, and fork. Match each function with one of the following behaviors: 


A. Called once, returns twice. 
B. Called once, never returns. 


C. Called once, returns one or more times. 


Homework Problem 8.9 [Category 1]: 
What is one possible output of the following program? 
code/ecf/forkprob3.c 


1 #include "csapp.h" 
2 
3 int main() 


4 { 

5 int x = 3; 

6 

7 if (Fork() != 0) 

8 printf ("x=sd\n", ++x); 
9 

10 printf ("x=%sd\n", --x); 

11 exit (0); 

12 } 


code/ecf/forkprob3.c 
Homework Problem 8.10 [Category 1]: 


How many “hello” output lines does this program print? 
code/ecf/forkprob5.c 
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#include "csapp.h" 


void doit () 
{ 
if (Fork () 
Fork (); 
printf ("helio\n"); 
(0); 


== 0) { 


1 

2 

3 

4 

5 

6 

7 

8 exit 
9 } 

0 return; 
1 } 

2 

3 int main() 

4 { 

5 doit (); 

6 printf ("hello\n"); 
7 exit (0); 

8 


code/ecf/forkprob5.c 
Homework Problem 8.11 [Category 1]: 
How many “hello” output lines does this program print? 
code/ecfiforkprob6.c 


#include "csapp.h" 


void doit () 

{ 

if (Fork() == 0) { 
Fork (); 

printf ("hello\n"); 
return; 


return; 


} 


int main() 

{ 

doit(); 

printf ("hello\n"); 


1 
2 
3 
4 
5 
6 
7 
8 
9 } 
0 
1 
2 
3 
4 
5 
6 
7 exit (0); 
8 


code/ecf/forkprob6.c 
Homework Problem 8.12 [Category 1]: 


What is the output of the following program? 
code/ecf/forkprob7.c 
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1 #include "csapp.h" 
2 int counter = 1; 

3 

4 int main() 


5 { 

6 if (fork() == 0) { 
7 counter--; 

8 exit (0); 

9 } 

10 else { 

11 Wait (NULL); 

12 printf ("counter = %d\n", ++counter); 
13 } 

14 exit (0); 

15 } 


code/ecf/forkprob7.c 
Homework Problem 8.13 [Category 1]: 
Enumerate all of the possible outputs of the program in Problem 8.4. 
Homework Problem 8.14 [Category 2]: 
Consider the following program: 
code/ecf/forkprob2.c 


#include "csapp.h" 


void end(void) 

{ 

Prints ("2") 7 
} 


1 
2 
3 
4 
5 
6 
7 
8 int main() 
9 { 
0 
1 
2 
3 
4 
5 
6 
7 


if (Fork() == 0) 
atexit (end); 
if (Fork() == 0) 
printi C™O™)F 
else 
printf ("1") > 
exit (0); 
} 


code/ecf/forkprob2.c 


Determine which of the following outputs are possible. Note: The atexit function takes a pointer to a 
function and adds it to a list of functions (initially empty) that will be called when the exit function is 
called. 


A. 112002 
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B. 211020 
C. 102120 
D. 122001 
E. 100212 


Homework Problem 8.15 [Category 2]: 


Use execve to write a program, called my1s, whose behavior is identical to the /bin/1s program. Your 
program should accept the same command line arguments, interpret the identical environment variables, 
and produce the identical output. 


The 1s program gets the width of the screen from the COLUMNS environment variable. If COLUMNS 
is unset, then 1s assumes that the screen is 80 columns wide. Thus, you can check your handling of the 
environment variables by setting the COLUMNS environment to something smaller than 80: 


unix> setenv COLUMNS 40 
unix> ./myls 

...output is 40 columns wide 
unix> unsetenv COLUMNS 
unix> ./myls 


...output is now 80 columns wide 


Homework Problem 8.16 [Category 3]: 
Modify the program in Figure 8.15 so that 
1. Each child terminates abnormally after attempting to write to a location in the read-only text segment. 


2. The parent prints output that is identical (except for the PIDs) to the following: 


child 12255 terminated by signal 11: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 


Hint: Read the man pages for wait (2) andpsignal (3). 
Homework Problem 8.17 [Category 3]: 


Write your own version of the Unix system function: 
int mysystem(char *command) ; 
The mysystem function executes command by calling “/bin/sh -c command”, and then returns af- 


ter command has completed. If command exits normally (by calling the exit function or executing a re- 
turn statement), then mysystem returns the command exit status. For example, if command terminates 
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by calling exit (8), then system returns the value 8. Otherwise, if command terminates abnormally, 
then mysystem returns the status returned by the shell. 


Homework Problem 8.18 [Category 1]: 


One of your colleagues is thinking of using signals to allow a parent process to count events that occur in a 
child process. The idea is to notify the parent each time an event occurs by sending it a signal, and letting 
the parent’s signal handler increment a global counter variable, which the parent can then inspect after 
the child has terminated. However, when he runs the test program in Figure 8.35 on his system, he discovers 
that when the parent calls printf, counter always has a value of 2, even though the child has sent five 
signals to the parent. Perplexed, he comes to you for help. Can you explain the bug? 


code/ecf/counterprob.c 


1 #include "csapp.h" 

2 

3 int counter = 0; 

4 

5 void handler(int sig) 
6 { 


7 countert+t; 

8 sleep(1); /* do some work in the handler */ 
9 return; 

0 } 

1 

2 int main() 

3 f 

4 int i; 

5 

6 Signal (SIGUSR2, handler); 

4 

8 if (Fork() == 0) { /* child */ 

9 for (i = 0; i < 5; itt) { 

20 Kill (getppid(), SIGUSR2); 
21 printf("sent SIGUSR2 to parent\n"); 
22 } 

23 exit (0); 

24 } 

25 

26 Wait (NULL) ; 

27 printf ("counter=%d\n", counter); 
28 exit (0); 

29 } 


code/ecf/counterprob.c 


Figure 8.35: Counter program referenced in Problem 8.18. 


Homework Problem 8.19 [Category 3]: 


Write a version of the fgets function, called t fgets, that times out after 5 seconds. The tfgets 
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function accepts the same inputs as fgets. If the user doesn’t type an input line within 5 seconds, t fgets 
returns NULL. Otherwise it returns a pointer to the input line. 


Homework Problem 8.20 [Category 4]: 


Using the example in Figure 8.20 as a starting point, write a shell program that supports job control. Your 
shell should have the following features: 


e The command line typed by the user consists of a name and zero or more arguments, all separated 
by one or more spaces. If name is a built-in command, the shell handles it immediately and waits for 
the next command line. Otherwise, the shell assumes that name is an executable file, which it loads 
and runs in the context of an initial child process (job). The process group ID for the job is identical 
to the PID of the child. 


e Each job is identified by either a process ID (PID) or a job ID (JID), which is a small arbitrary positive 
integer assigned by the shell. JIDs are denoted on the command line by the prefix ’%’. For example, 
“%5” denotes JID 5, and “5” denotes PID 5. 


e Ifthe command line ends with an ampersand, then the shell runs the job in the background. Otherwise, 
the shell runs the job in the foreground. 


e Typing ctrl-c (ctr1-z) causes the shell to send a SIGINT (SIGTSTP) signal to every process in 
the foreground process group. 


e The jobs built-in command lists all background jobs. 


e The bg <job> built-in command restarts < job> by sending it a SIGCONT signal, and then runs it 
in the background. The <job> argument can be either a PID or a JID. 


e The fg <job> built-in command restarts <job> by sending it a SIGCONT signal, and then runs it 
in the foreground. 


e The shell reaps all of its zombie children. If any job terminates because it receives a signal that was 
not caught, then the shell prints a message to the terminal with the job’s PID and a description of the 
offending signal. 


Figure 8.36 shows an example shell session. 
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unix> ./shell 
> bogus 
bogus: Command not found. 


> foo 10 


Job 5035 terminated by signal: 


> foo 100 & 
[1] 5036 foo 100 & 
> foo 200 & 
[2] 5037 foo 200 & 


> jobs 

[1] 5036 Running foo 100 & 
[2] 5037 Running foo 200 & 

> fg $1 

Job [1] 5036 stopped by signal: 
> jobs 

[1] 5036 Stopped foo 100 & 
[2] 5037 Running foo 200 & 

> bg 5035 

5035: No such process 


> bg 5036 
[1] 5036 foo 100 & 
> /bin/kill 5036 


Job 5036 terminated by signal: 


> fg %2 
> quit 
unix> 
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Run your shell program 


Execve can’t find executable 


Interrupt User types ctrl-c 
Stopped User types ctrl-z 
Terminated 


Wait for fg job to finish. 


Back to the Unix shell 


Figure 8.36: Sample shell session for Problem 8.20. 


Chapter 9 


Measuring Program Execution Time 


One common question people ask is “How fast does Program X run on Machine Y?” Such a question might 
be raised by a programmer trying to optimize program performance, or by a customer trying to decide which 
machine to buy. In our earlier discussion of performance optimization (Chapter 5), we assumed this question 
could be answered with perfect accuracy. We were trying to establish the cycles per element (CPE) measure 
for programs down to two decimal places. This requires an accuracy of 0.1% for a procedure having a CPE 
of 10. In this chapter, we address this problem and discover that it is surprisingly complex. 


You might expect that making near-perfect timing measurements on a computer system would be straight- 
forward. After all, for a particular combination of program and data, the machine will execute a fixed 
sequence of instructions. Instruction execution is controlled by a processor clock that is regulated by a 
precision oscillator. There are many factors, however, that can vary from one execution of a program to an- 
other. Computers do not simply execute one program at a time. They continually switch from one process to 
another, executing some code on behalf of one process before moving on to the next. The exact scheduling 
of processor resources for one program depends on such factors as the number of users sharing the system, 
the network traffic, and the timing of disk operations. The access patterns to the caches depend not just on 
the references made by the program we are trying to measure, but on those of other processes executing 
concurrently. Finally, the branch prediction logic tries to guess whether branches will be taken or not based 
on past history. This history can vary from one execution of a program to another. 


In this chapter, we describe two basic mechanisms computers use to record the passage of time—one based 
on a low frequency timer that periodically interrupts the processor and one based on a counter that is in- 
cremented every clock cycle. Application programmers can gain access to the first timing mechanism by 
calling library functions. Cycle timers can be accessed by library functions on some systems, but they 
require writing assembly code on others. We have deferred the discussion of program timing until now, 
because it requires understanding aspects of both the CPU hardware and the way the operating system 
manages process execution. 


Using the two timing mechanisms, we investigate methods to get reliable measurements of program perfor- 
mance. We will see that timing variations due to context switching tend to be very large and hence must be 
eliminated. Variations caused by other factors such as cache and branch prediction are generally managed 
by evaluating program operation under carefully controlled conditions. Generally, we can get accurate mea- 
surements for durations that are either very short (less than around 10 millisecond) or very long (greater than 
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Figure 9.1: Time Scale of Computer System Events. The processor hardware works at a microscopic a 
time scale in which events having durations on the order of a few nanoseconds (ns). The OS must deal on a 
macroscopic time scale with events having durations on the order of a few milliseconds (ms). 


around 1 second), even on heavily loaded machines. Times between around 10 milliseconds and 1 second 
require special care to measure accurately. 


Much of the understanding of performance measurement is part of the folklore of computer systems. Dif- 
ferent groups and individuals have developed their own techniques for measuring program performance, but 
there is no widely available body of literature on the subject. Companies and research groups concerned 
with getting highly accurate performance measurements often set up specially configured machines that 
minimize any sources of timing irregularity, such as by limiting access and by disabling many OS and net- 
working services. We want methods that application programmers can use on ordinary machines, but there 
are no widely available tools for this. Instead, we will develop our own. 


In this presentation we work through the issues systematically. We describe the design and evaluation of a 
number of experiments that helped us arrive at methods to achieve accurate measurements on a small set 
of systems. It is unusual to find a detailed experimental study in a book at this level. Generally, people 
expect the final answers, not a description of how those answers were determined. In this case, however, 
we cannot provide definitive answers on how to measure program execution time for an arbitrary program 
on an arbitrary system. There are too many variations of timing mechanisms, operating system behaviors, 
and runtime environment to have one single, simple solution. Instead, we anticipate that you will need to 
run your own experiments and develop your own performance measurement code. We hope that our case 
study will help you in this task. We summarize our findings in the form of a protocol that can guide your 
experiments. 


9.1 The Flow of Time on a Computer System 


Computers operate on two fundamentally different time scales. At a microscopic level, they execute instruc- 
tions at a rate of one or more per clock cycle, where each clock cycle requires only around one nanosecond 
(abbreviated “ns”), or 10-9 seconds. On a macroscopic scale, the processor must respond to external events 
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that occur on time scales measured in milliseconds (abbreviated “ms”), or 107° seconds. For example, 
during video playback, the graphics display for most computers must be refreshed every 33 ms. A world- 
record typist can only type keystrokes at a rate of around one every 50 milliseconds. Disks typically require 
around 10 ms to initiate a disk transfer. The processor continually switches between these many tasks on a 
macroscopic time scale, devoting around 5 to 20 milliseconds to each task at a time. At this rate, the user 
perceives the tasks as being performed simultaneously, since a human cannot discern time durations shorter 
than around 100 ms. Within that time the processor can execute millions of instructions. 


Figure 9.1 plots the durations of different event types on a logarithmic scale, with microscopic events having 
durations measured in nanoseconds and macroscopic events having durations measured in milliseconds. The 
macroscopic events are managed by OS routines that require around 5,000 to 200,000 clock cycles. These 
time ranges are measured in microseconds (abbreviated us, where p is the Greek letter “mu”). Although 
that may sound like a lot of computation, it is so much faster than the macroscopic events being processed 
that these routines place only a small load on the processor. 


Practice Problem 9.1: 


When a user is editing files with a real-time editor such as EMACS, every keystroke generates an interrupt 
signal. The operating system must then schedule the editor process to take the appropriate action for this 
keystroke. Suppose we had a system with a 1 GHz clock, and we had 100 users running EMACS typing 
at a rate of 100 words per minute. Assume an average of 6 characters per word. Assume also that the 
OS routine handling keystrokes requires, on average, 100,000 clock cycles per keystroke. What fraction 
of the processor load is consumed by all of the keystroke processing? 


Note that this is a very pessimistic analysis of the load induced by keyboard usage. It’s hard to imagine 
a real-life scenario with so many users typing this fast. 


9.1.1 Process Scheduling and Timer Interrupts 


External events such as keystrokes, disk operations, and network activity generate interrupt signals that make 
the operating system scheduler take over and possibly switch to a different process. Even in the absence of 
such events, we want the processor to switch from one process to another so that it will appear to the users 
as if the processor is executing many programs simultaneously. For this reason, computers have an external 
timer that periodically generates an interrupt signal to the processor. The spacing between these interrupt 
signals is called the interval time. When a timer interrupt occurs, the operating system scheduler can choose 
to either resume the currently executing process or to switch to a different process. This interval must be set 
short enough to ensure that the processor will switch between tasks often enough to provide the illusion of 
performing many tasks simultaneously. On the other hand, switching from one process to another requires 
thousands of clock cycles to save the state of the current process and to set up the state for the next, and 
hence setting the interval too short would cause poor performance. Typical timer intervals range between 1 
and 10 milliseconds, depending on the processor and how it is configured. 


Figure 9.2(a) illustrates the system’s perspective of a hypothetical 150 ms of operation on a system with a 
10 ms timer interval. During this period there are two active processes: A and B. The processor alternately 
executes part of process A, then part of B, and so on. As it executes these processes, it operates either in 
user mode, executing the instructions of the application program; or in kernel mode, performing operating 
system functions on behalf of the program, such as, handling page faults, input, or output. Recall that kernel 
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Figure 9.2: System’s vs. Applications View of Time. The system switches from process to process, oper- 


ating in either user or kernel mode. The application only gets useful computation done when its process is 
executing in user mode. 


operation is considered part of each regular process rather than a separate process. The operating system 
scheduler is invoked every time there is an external event or a timer interrupt. The occurrences of timer 
interrupts are indicated by the tick marks in the figure. This means that there is actually some amount of 
kernel activity at every tick mark, but for simplicity we do not show it in the figure. 


When the scheduler switches from process A to process B, it must enter kernel mode to save the state of 
process A (still considered part of process A) and to restore the state of process B (considered part of process 
B). Thus, there is kernel activity during each transition from one process to another. At other times, kernel 
activity can occur without switching processes, such as when a page fault can be satisfied by using a page 
that is already in memory. 


9.1.2 Time from an Application Program’s Perspective 


From the perspective of an application program, the flow of time can be viewed as alternating between 
periods when the program is active (executing its instructions), and inactive (waiting to be scheduled by the 
operating system). It only performs useful computation when its process is operating in user mode. Figure 
9.2(b) illustrates how program A would view the flow of time. It is active during the light-colored regions, 
when process A is executing in user mode; otherwise it is inactive. 


As a way to quantify the alternations between active and inactive time periods, we wrote a program that 
continuously monitors itself and determines when there have been long periods of inactivity. It then gener- 
ates a trace showing the alternations between periods of activity and inactivity. Details of this program are 
described later in the chapter. An example of such a trace is shown in Figure 9.3, generated while running 
on a Linux machine with a clock rate of around 550 MHz. Each period is labeled as either active (“A”) or 
inactive “T’). The periods are numbered 0 to 9 for identification. For each period, the start time (relative 
to the beginning of the trace) and the duration are indicated. Times are expressed in both clock cycles and 
milliseconds. This trace shows a total of 20 time periods (10 active and 10 inactive) having a total duration 
of 66.9 ms. In this example, the periods of inactivity are fairly short, with the longest being 0.50 ms. Most 
of these periods of inactivity were caused by timer interrupts. The process was active for around 95.1% of 
the total time monitored. Figure 9.4 shows a graphical rendition of the trace shown in Figure 9.3. Observe 
the regular spacing of the boundaries between the activity periods indicated by the gray triangles. These 
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AO Time 0 (0.00 ms), Duration 3726508 (6.776448 ms) 
10 Time 3726508 (6.78 ms), Duration 275025 (0.500118 ms) 
Al Time 4001533 (7.28 ms), Duration 0 (0.000000 ms) 
Ti Time 4001533 (7.28 ms), Duration 7598 (0.013817 ms) 
A2 Time 4009131 (7.29 ms), Duration 5189247 (9.436358 ms) 
I2 Time 9198378 (16.73 ms), Duration 251609 (0.457537 ms) 
A3 Time 9449987 (17.18 ms), Duration 2250102 (4.091686 ms) 
13 Time 11700089 (21.28 ms), Duration 14116 (0.025669 ms) 
A4 Time 11714205 (21.30 ms), Duration 2955974 (5.375275 ms) 
I4 Time 14670179 (26.68 ms), Duration 248500 (0.451883 ms) 
A5 Time 14918679 (27.13 ms), Duration 5223342 (9.498358 ms) 
T5 Time 20142021 (36.63 ms), Duration 247113 (0.449361 ms) 
A6 Time 20389134 (37.08 ms), Duration 5224777 (9.500967 ms) 
I6 Time 25613911 (46.58 ms), Duration 254340 (0.462503 ms) 
A7 Time 25868251 (47.04 ms), Duration 3678102 (6.688425 ms) 
I7 Time 29546353 (53.73 ms), Duration 8139 (0.014800 ms) 
A8 Time 29554492 (53.74 ms), Duration 1531187 (2.784379 ms) 
I8 Time 31085679 (56.53 ms), Duration 248360 (0.451629 ms) 
A9 Time 31334039 (56.98 ms), Duration 5223581 (9.498792 ms) 
I9 Time 36557620 (66.48 ms), Duration 247395 (0.449874 ms) 


Figure 9.3: Example Trace Showing Activity Periods. From the perspective of an application program, 
processor operation alternates between periods when the program is actively executing (italicized) and when 
it is inactive. This trace shows a log of these periods for a program over a total duration of 66.9 ms. The 
program was active for 95.1% of this time. 


Activity Periods, Load = 1 
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Figure 9.4: Graphical Representation of Trace in Figure 9.3. Timer interrupts are indicated with gray 
triangles. 
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A48 Time 191514104 (349.40 ms), Duration 5224961 (9.532449 ms) 
148 Time 196739065 (358.93 ms), Duration 247557 (0.451644 ms) 
A49 Time 196986622 (359.38 ms), Duration 858571 (1.566382 ms) 
149 Time 197845193 (360.95 ms), Duration 8297 (0.015137 ms) 
A50 Time 197853490 (360.97 ms), Duration 4357437 (7.949733 ms) 
150 Time 202210927 (368.91 ms), Duration 5718758 (10.433335 ms) 
A51 Time 207929685 (379.35 ms), Duration 2047118 (3.734774 ms) 
TS Time 209976803 (383.08 ms), Duration 7153 (0.013050 ms) 
A52 Time 209983956 (383.10 ms), Duration 3170650 (5.784552 ms) 
T52 Time 213154606 (388.88 ms), Duration 5726129 (10.446783 ms) 
A53 Time 218880735 (399.33 ms), Duration 5217543 (9.518916 ms) 
153 Time 224098278 (408.85 ms), Duration 5718135 (10.432199 ms) 
A54 Time 229816413 (419.28 ms), Duration 2359281 (4.304286 ms) 
I54 Time 232175694 (423.58 ms), Duration 7096 (0.012946 ms) 
A55 Time 232182790 (423.60 ms), Duration 2859227 (5.216390 ms) 
755 Time 235042017 (428.81 ms), Duration 5718793 (10.433399 ms) 


Figure 9.5: Example Trace Showing Activity Periods on Loaded Machine. When other active processes 
are present, the tracing process is inactive for longer periods of time. This trace shows a log of these periods 
for a program over a total duration of 89.8 ms. The process was active for 53.0% of this time. 


boundaries are caused by timer interrupts. 


Figure 9.5 shows a portion of a trace when there is one other active process sharing the processor. The 
graphical rendition of this trace is shown in Figure 9.6. Note that the time scales do not line up, since the 
portion of the trace we show in Figure 9.5 started at 349.4 ms into the tracing process. In this example we 
can see that while handling some of the timer interrupts, the OS also decides to switch context from one 
process to another. As a result, each process is only active around 50% of the time. 


Practice Problem 9.2: 


This problem concerns the interpretation of the section of the trace shown in Figure 9.5. 


A. At what times during this portion of the trace did timer interrupts occur? (Some of these time 
points can be extracted directly from the trace, while others must be estimated by interpolation.) 


B. Which of these occurred while the tracing process was active, and which while it was inactive? 
C. Why are the longest periods of inactivity longer than the longest periods of activity? 


D. Based on the pattern of active and inactive periods shown in this trace, what percent of the time 
would you expect the tracing process to be inactive when averaged over a longer time scale? 


9.2 Measuring Time by Interval Counting 


The operating system also uses the timer to record the cumulative time used by each process. This infor- 
mation provides a somewhat imprecise measure of program execution time. Figure 9.7 provides a graphic 
illustration of how this accounting works for the example of system operation shown in Figure 9.2. In this 
discussion, we refer to the period during which just one process executes as a time segment. 
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Activity Periods, Load = 2 
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Figure 9.6: Graphical Representation of Activity Periods for Trace in Figure 9.5. Timer interrupts are 
indicated by gray triangles 
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Figure 9.7: Process Timing by Interval Counting. With a timer interval of 10 ms, every 10 ms segment 
is assigned to a process as part of either its user (u) or system (s) time. This accounting provides only an 
approximate measure of program execution time. 
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9.2.1 Operation 


The operating system maintains counts of the amount of user time and the amount of system time used by 
each process. When a timer interrupt occurs, the operating system determines which process was active 
and increments one of the counts for that process by the timer interval. It increments the system time if the 
system was executing in kernel mode, and the user time otherwise. The example shown in Figure 9.7(a) 
indicates this accounting for the two processes. The tick marks indicate the occurrences of timer interrupts. 
Each is labeled by the count that gets incremented: either Au or As for process A’s user or system time, 
or Bu or Bs for process B’s user or system time. Each tick mark is labeled according to the activity to its 
immediate left. The final accounting shows that process A used a total of 150 milliseconds: 110 of user time 
and 40 of system time. It shows that B used a total of 100 milliseconds: 70 of user time and 30 of system 
time. 


9.2.2 Reading the Process Timers 


When executing a command from the Unix shell, the user can prefix the command with the word “t ime” to 
measure the execution time of the command. This command uses the values computed using the accounting 
scheme described above. For example, to time the execution time of program prog with command line 
arguments -n 17, the user can simply type the command: 


unix> time prog -n 17 
After the program has executed, the shell will print a line summarizing the run time statistics, for example, 
2.230u 0.260s 0:06.52 38.1% 0+0k 0+0io 80pf+t+0w 


The first three numbers shown in this line are times. The first two show the seconds of user and system 
time. Observe how both of these show a 0 in the third decimal place. With a timer interval of 10 ms, 
all timings are multiples of hundredths of seconds. The third number is the total elapsed time, given in 
minutes and seconds. Observe that the system and user time sum to 2.49 seconds, less than half of the 
elapsed time of 6.52 seconds, indicating that the processor was executing other processes at the same time. 
The percentage indicates what fraction the combined user and system times were of the elapsed time, e.g., 
(2.23 + 0.26) /6.52 = 0.381. The remaining statistics summarize the paging and I/O behavior. 


Programmers can also read the process timers by calling the library function t imes, declared as follows: 


#include <sys/times.h> 


struct tms { 
clock_t tms_utime; /* user time */ 
clock_t tms_stime; /* system time */ 
clock_t tms_cutime; /* user time of reaped children */ 
clock_t tms_cstime; /* system time of reaped children */ 


i 


clock_t times(struct tms *buf); 


Returns: number of clock ticks elapsed since system started 
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These time measurements are expressed in terms of a unit called clock ticks. The defined constant CLK_TCK 
specifies the number of clock ticks per second. The data type clock-t is typically defined to be a long 
integer. The fields indicating child times give the accumulated times used by children that have terminated 
and have been reaped. Thus, times cannot be used to monitor the time used by any ongoing children. As a 
return value, t imes returns the total number of clock ticks that have elapsed since the system was started. 
We can therefore compute the total time (in clock ticks) between two different points in a program execution 
by making two calls to times and computing the difference of the return values. 


The ANSI C standard also defines a function clock that measures the total time used by the current process: 


#include <time.h> 


clock_t clock (void) ; 


Returns: total time used by process 


Although the return value is declared to be the same type clock_t used with the times function, the 
two functions do not, in general, express time in the same units. To scale the time reported by clock to 
seconds, it should be divided by the defined constant CLOCKS_PER_SEC. This value need not be the same 
as the constant CLK_TCK. 


9.2.3 Accuracy of Process Timers 


As the example illustrated in Figure 9.7 shows, this timing mechanism is only approximate. Figure 9.7(b) 
shows the actual times used by the two processes. Process A executed for a total of 153.3 ms, with 120.0 in 
user mode and 33.3 in kernel mode. Process B executed for a total of 96.7 ms, with 73.3 in user mode and 
23.3 in kernel mode. The interval accounting scheme makes no attempt to resolve time more finely than the 
timer interval. 


Practice Problem 9.3: 


What would the operating system report as the user and system times for the execution sequence illus- 
trated below. Assume a 10 ms timer interval. 


PAR BI HR E 6 E RA i 


Practice Problem 9.4: 


On a system with a timer interval of 10 ms, some segment of process A is recorded as requiring 70 ms, 
combining both system and user time. What are the minimum and maximum actual times used by this 
segment? 


Practice Problem 9.5: 


What would the counters record as the system and user times for the trace shown in Figure 9.3? How 
does this compare to the actual time during which the process was active? 
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Figure 9.8: Experimental Results for Measuring Interval Counting Accuracy. The error is unacceptably 
high when measuring activities less than around 100 ms (10 timer intervals). Beyond this, the error rate is 
generally less than 10% regardless of whether running on lightly loaded (Load 1) or heavily loaded (Load 
11) machine. 


For programs that run long enough, (at least several seconds), the inaccuracies in this scheme tend to com- 
pensate for each other. The execution times of some segments are underestimated while those of others are 
overestimated. Averaged over a number of segments, the expected error approaches zero. From a theoretical 
perspective, however, there is no guaranteed bound on how far these measurements vary from the true run 
times. 


To test the accuracy of this timing method, we ran a series of experiments that compared the time Tm 
measured by the operating system for a sample computation versus our estimate of what the time Tẹ would 
be if the system resources were dedicated solely to performing this computation. In general, Tc will differ 
from Tn for several reasons: 


1. The inherent inaccuracies of the interval counting scheme can cause Tm to be either less or greater 
than Te. 


2. The kernel activity caused by the timer interrupt consumes 4 to 5% of the total CPU cycles, but these 
cycles are not accounted for properly. As can be seen in the trace illustrated in Figure 9.4, this activity 
finishes before the next timer interrupt and hence does not get counted explicitly. Instead, it simply 
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reduces the number of cycles available for the process executing during the next time interval. This 
will tend to increase Tm relative to Tọ. 


3. When the processor switches from one task to another, the cache tends to perform poorly for a tran- 
sient period until the instructions and data for the new task get loaded into the cache. Thus the 
processor does not run as efficiently when switching between our program and other activities as it 
would if it executed our program continuously. This factor will tend to increase Tm relative to Te. 


We discuss how we can determine the value of Te for our sample computation later in this chapter. 


Figure 9.8 shows the results of this experiment running under two different loading conditions. The graphs 
show our measurements of the error rate, defined as the value of (Tm — Te) /Te as a function of Te. This 
error measure is negative when Tm underestimates Tu and is positive when Tm overestimates JT’. The two 
series show measurements taken under two different loading conditions. The series labeled “Load 1” shows 
the case where the process performing the sample computation is the only active process. The series labeled 
“Load 11” shows the case where 10 other processes are also attempting the same computation. The latter 
represents a very heavy load condition; the system is noticeably slow responding to keystrokes and other 
service requests. Observe the wide range of error values shown on this graph. In general, only measurements 
that are within +10% of the true value are acceptable, and hence we want only errors ranging from around 
一 0.1 to +0.1. 


Below around 100 ms (10 timer intervals), the measurements are not at all accurate due to the coarse- 
ness of the timing method. Interval counting is only useful for measuring relatively long computations— 
100,000,000 clock cycles or more. Beyond this, we see that the error generally ranges between 0.0 and 0.1, 
that is, up to 10% error. There is no noticeable difference between the two different loading conditions. 
Notice also that the errors have a positive bias; the average error for all measurements with Tm > 100ms is 
1.04, due to the fact that the timer interrupts are consuming around 4% of the CPU time. 


These experiments show that the process timers are useful only for getting approximate values of program 
performance. They are too coarse-grained to use for any measurement having duration of less than 100 ms. 
On this machine they have a systematic bias, overestimating computation times by an average of around 
4%. The main virtue of this timing mechanism is that its accuracy does not depend strongly on the system 
load. 


9.3 Cycle Counters 


To provide greater precision for timing measurements, many processors also contain a timer that operates at 
the clock cycle level. This timer is a special register that gets incremented every single clock cycle. Special 
machine instructions can be used to read the value of the counter. Not all processors have such counters, 
and those that do vary in the implementation details. As a result, there is no uniform, platform-independent 
interface by which programmers can make use of these counters. On the other hand, with just a small 
amount of assembly code, it is generally easy to create a program interface for any specific machine. 
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9.3.1 IA32 Cycle Counters 


All of the timings we have reported so far were measured using the IA32 cycle counter. With the [A32 
architecture, cycle counters were introduced in conjunction with the “P6” microarchitecture (the PentiumPro 
and its successors). The cycle counter is a 64-bit, unsigned number. For a processor operating with a 1 GHz 
clock, this counter will wrap around from 264 — 1 to 0 only once every 1.8 x 10!° seconds, or every 570 
years. On the other hand, if we consider only the low order 32 bits of this counter as an unsigned integer, this 
value will wrap around every 4.3 seconds. One can therefore understand why the IA32 designers decided to 
implement a 64-bit counter. 


The IA32 counter is accessed with the rdt sc (for “read time stamp counter”) instruction. This instruction 
takes no arguments. It sets register %edx to the high-order 32 bits of the counter and register eax to the 
low-order 32 bits. To provide a C program interface, we would like to encapsulate this instruction within a 
procedure: 


void access _counter(unsigned *hi, unsigned *1lo); 


This procedure should set location hi to the high-order 32 bits of the counter and 1o to the low-order 32 
bits. Implementing access_counter is a simple exercise in using the embedded assembly feature of 
GCC, as described in Section 3.15. The code is shown in Figure 9.9. 


Based on this routine, we can now implement a pair of functions that can be used to measure the total 
number of cycles that elapse between any two time points: 


#include "clock.h" 


void start_counter(); 


double get counter (); 


Returns: number of cycles since last call to start-counter 


We return the time as a double to avoid the possible overflow problems of using just a 32-bit integer. 
The code for these two routines is also shown in Figure 9.9. It builds on our understanding of unsigned 
arithmetic to perform the double-precision subtraction and to convert the result toa double. 


9.4 Measuring Program Execution Time with Cycle Counters 


Cycle counters provide a very precise tool for measuring the time that elapses between two different points in 
the execution of a program. Typically, however, we are interested in measuring the time required to execute 
some particular piece of code. Our cycle counter routines compute the total number of cycles between a 
call to start_counter anda call to get_counter. They do not keep track of which process uses those 
cycles or whether the processor is operating in kernel or user mode. We must be careful when using such a 
measuring device to determine execution time. We investigate some of these difficulties and how they can 
be overcome. 


As an example of code that uses the cycle counter, the routine in Figure 9.10 provides a way to determine 
the clock rate of a processor. Testing this function on several systems with parameter sleept ime equal 
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code/perf/clock.c 
/* Initialize the cycle counter */ 
static unsigned cyc_hi = 0; 
static unsigned cyc_lo = 0; 


/* Set *hi and *lo to the high and low order bits of the cycle counter. 
Implementation requires assembly code to use the rdtsc instruction. */ 
void access_counter(unsigned *hi, unsigned *lo) 


{ 


asm("rdtsc; movl %%edx,%0; movl %%eax, $1" /* Read cycle counter */ 
"=r" (*hi), "=r" (*1lo) /* and move results to */ 
/* No input */ /* the two outputs */ 


"Sedx", "Seax"); 


/* Record the current value of the cycle counter. */ 
void start_counter () 


{ 


access_counter(&cyc_hi, &cyc_lo); 
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22 /* Return the number of cycles since the last call to start_counter. */ 
23 double get_counter () 

24 { 

25 unsigned ncyc_hi, ncyc_lo; 

26 unsigned hi, lo, borrow; 

27 double result; 

28 

29 /* Get cycle counter */ 

30 access_counter(&ncyc_hi, &ncyc_lo); 

31 

32 /* Do double precision subtraction */ 

33 lo = ncyc_lo - cyc_lo; 

34 borrow = lo > ncyc_lo; 

35 hi = neyc_hi - cyc_hi - borrow; 

36 result = (double) hi * (1 << 30) * 4 + lo; 

37 if (result < 0) { 

38 fprintf(stderr, "Error: counter returns neg value: %.0f\n", result); 
39 } 

40 return result; 

41 } 


code/perf/clock.c 


Figure 9.9: Code Implementing Program Interface to IA32 Cycle Counter Assembly code is required 
to make use of the counter reading instruction. 
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code/perf/clock.c 
1 /* Estimate the clock rate by measuring the cycles that elapse */ 
2 /* while sleeping for sleeptime seconds */ 
3 double mhz(int verbose, int sleeptime) 
4 { 
5 double rate; 
6 
7 start_counter(); 
8 sleep (sleeptime) ; 
9 rate = get_counter() / (le6*sleeptime) ; 
10 if (verbose) 
11 printf ("Processor clock rate ”= %.1f MHz\n", rate); 
12 return rate; 
13 } 


code/perf/clock.c 


Figure 9.10: mhz: Determines the clock rate of a processor. 


to 1 shows that it reports a clock rate within 1.0% of the rated performance for the processor. This example 
clearly shows that our routines measure elapsed time rather than the time used by a particular process. 
When our program calls sleep, the operating system will not resume the process until the sleep time of 
one second has expired. The cycles that elapse during that time are spent executing other processes. 


9.4.1 The Effects of Context Switching 


A naive way to measuring the run time of some procedure P is to simply use the cycle counter to time one 
execution of P, as in the following code: 


double time_P() 
{ 


start_counter(); 


P(); 
return get_counter(); 


OO oO fF WN EF 


This could easily yield misleading results if some other process also executes between the two calls to the 
counter routines. This is especially a problem if either the machine is heavily loaded, or if the run time 
for P is especially long. This phenomenon is illustrated in Figure 9.11. This figure shows the result of 
repeatedly measuring a program that computes the sum of an array of 131,072 integers. The times have 
been converted into milliseconds. Note that the run times are all over 36 ms, greater than the timer interval. 
Two trials were run, each measuring 18 executions of the exact same procedure. The series labeled “Load 
1” indicates the run times on a lightly loaded machine, where this is the only process actively running. All 
of the measurements are within 3.4% of the minimum run time. The series labeled “Load 4” indicates the 
run times when three other processes making heavy use of the CPU and memory system are also running. 
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Measurement Examples: Large Array 
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Figure 9.11: Measurements of Long Duration Procedure under Different Loading Conditions On a 
lightly loaded system, the results are consistent across samples, but on a heavily loaded system, many of the 
measurements overestimate the true execution time. 


The first seven of these samples have times within 2% of the fastest Load 1 sample, but others range as 
much as 4.3 times greater. 


As this example illustrates, context switching causes extreme variations in execution time. If a process is 
swapped out for an entire time interval it will fall behind by millions of instructions. Clearly, any scheme 
we devise to measure program execution times must avoid such large errors. 


9.4.2 Caching and Other Effects 


The effects of caching and branch prediction create smaller timing variations than does context switching. 
As an example, Figure 9.12 shows a series of measurements similar to those in Figure 9.11, except that 
the array is 4 times smaller, yielding execution times of around 8 ms. These execution times are shorter 
than the timer interval and therefore the executions are less likely to be affected by context switching. We 
see significant variations among the measurements—the slowest is 1.1 times slower the fastest, but none of 
these variations are as extreme as would be caused by context switching. 


The variations shown in Figure 9.12 are due mainly to cache effects. The time to execute a block of code 
can depend greatly on whether or not the data and the instructions used by this code are present in the data 
and instruction caches at the beginning of execution. 


As an example, we wrote two identical procedures, procA and procB, that are given a pointer of type 
double * and set the eight consecutive elements starting at this pointer to 0.0. We measured the number 
of clock cycles for various calls to these procedures with three different pointers: b1, 2, and b3. The call 
sequence and the resulting measurements are shown in Figure 9.13. The timings vary by almost a factor of 
4, even though the calls perform identical computations. There were no conditional branches in this code, 
and hence we conclude that the variations must be due to cache effects. 
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Measurement Examples: Small Array 


= 
oO 


= 


Load 1 
Load 4 


Time (ms) 


9 
8 
7 
6 
5 
4 
3 
2 
1 
0 


a re pe er a ed 
Ss 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 


Sample 


Figure 9.12: Measurements of Short Duration Procedure under Different Loading Conditions The 
variations are not as extreme as they were in Figure 9.11, but they are still unacceptably large. 


procA (b1) 
procA (b2) 
procA (b3) 


procA (b1) 
procB (b1) 
procB (b2) 


Figure 9.13: Measurement Sequence with Identical Procedures Operating on Identical Data Sets. The 
variations in these measurements are due to different miss conditions in the instruction and data caches. 
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Practice Problem 9.6: 


Let c be the number of cycles that would be required by a call to procA or procB if there were no 
cache misses. For each computation, the cycles wasted due to cache misses can be apportioned between 
the different items needing to be brought into the cache: 


e The instructions implementing the measurement code (e.g., start-_counter, get_counter, 
and so on). Let the number of cycles for this be m. 


e The instructions implementing the procedure being measured (procA or procB). Let the number 
of cycles for this be p. 


e The data locations being updated (designated by b1, b2, or b3). Let the number of cycles for this 
be d. 


Based on the measurements shown in Figure 9.13, give estimates of the values of c, m, p, and d. 


Given the variations shown in these measurements, a natural question to ask is “Which one is right?” Un- 
fortunately, the answer to this question is not simple. It depends on both the conditions under which our 
code will actually be used as well as the conditions under which we can get reliable measurements. One 
problem is that the measurements are not even consistent from one run to the next. The measurement table 
shown in Figure 9.13 show the data for just one testing run. In repeated tests, we have seen Measurement 
1 range from 317 and 606, and Measurement 5 range from 301 to 326. On the other hand, the other four 
measurements only vary by at most a few cycles from one run to another. 


Clearly Measurement 1 is an overestimate, because it includes the cost of loading the measurement code 
and data structures into cache. Furthermore, it is the most subject to wide variations. Measurement 5 
includes the cost of loading procB into the cache. This is also subject to significant variations. In most real 
applications, the same code is executed repeatedly. As a result, the time to load the code into the instruction 
cache will be relatively insignificant. Our example measurements are somewhat artificial in that the effects 
of instruction cache misses were proportionally greater than what would occur in a real application. 


To measure the time required by a procedure P where the effects of instruction cache misses are minimized 
we can execute the following code: 


1 double time_P_warm() 

2 { 

3 P(); /* Warm up the cache */ 
4 start_counter(); 

5 P(); 

6 return get_counter(); 

7} 


Executing P once before starting the measurement will have the effect of bringing the code used by P into 
the instruction cache. 


The code above also minimizes the effects of data cache misses, since the first execution of P will also 
have the effect of bringing the data accessed by P into the data cache. For procedures procA or procB, a 
measurement by time_P_warm would yield 100 cycles. This would be the right conditions to measure if 
we expect our code to access the same data repeatedly. For some applications, however, we would be more 
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likely to access new data with each execution. For example, a procedure that copies data from one region of 
memory to another would most likely be called under conditions where neither block is cached. Procedure 
time_P_warm would tend to underestimate the execution time for such a procedure. For procA or 
proce, it would yield 100 rather than the 132 to 134 measured when the procedure is applied to uncached 
data. 


To force the timing code to measure the performance of a procedure where none of the data is initially 
cached, we can flush the cache of any useful data before performing the actual measurement. The following 
procedure does this for a system with caches of no more than 512KB: 


code/perf/time_p.c 


1 /* Number of bytes in the largest cache to be cleared */ 
2 #define CBYTES (1<<19) 

3 #define CINTS (CBYTES/sizeof (int) ) 

4 

5 /* A large array to bring into cache */ 

6 static int dummy[CINTS]; 

7 volatile int sink; 

8 

9 /* Evict the existing blocks from the data caches */ 
0 void clear_cache () 

1 { 

2 aint 2 

3 int sum = 0; 

4 

5 for (i = 0; i < CINTS; i++) 

6 dummy[i] = 3; 

7 for (i = 0; i < CINTS; i++) 

8 sum += dummy [i]; 

9 sink = sum; 

20 } 


code/perf/time_p.c 


This procedure simply performs a computation over a very large array dummy, effectively evicting every- 
thing else from the cache. The code has several peculiar features to avoid common pitfalls. It both stores 
values into dummy and reads them back so that it will be cached regardless of the cache allocation pol- 
icy. It performs a computation using array values and stores the result to a global integer (the declaration 
volatile indicates that any update to this variable must be performed), so that a clever optimizing com- 
piler will not optimize away this part of the code. 


With this procedure, we can get a measurement of P under conditions where its instructions are cached but 
its data is not by the following procedure: 


1 double time_P_cold() 

2 { 

3 P(); /* Warm up data caches */ 

4 clear_cache(); /* Clear data caches */ 
5 start_counter(); 
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6 P(); 
7 return get_counter(); 
8 


Of course, even this method has deficiencies. On a machine with a unified L2 cache, procedure clear_cache 
will cause all instructions from P to be evicted. Fortunately, the instructions in the L1 instruction cache will 
remain. Procedure clear_cache also evicts much of the runtime stack from the cache, leading to an 
overestimate of the time required by P under more realistic conditions. 


As this discussion shows, the effects of caching pose particular difficulties for performance measurement. 
Programmers have little control over what instructions and data get loaded into the caches and what gets 
evicted when new values must be loaded. At best, we can set up measurement conditions that somewhat 
match the anticipated conditions of our application by some combination of cache flushing and loading. 


As mentioned earlier, the branch prediction logic also influences program performance, since the time 
penalty caused by branch instruction is much less when the branch direction and target are correctly pre- 
dicted. This logic makes its predictions based on the past history of branch instructions that have been exe- 
cuted. When the system switches from one process to another, it initially makes predictions about branches 
in the new process based on those executed in the previous process. In practice, however, these effects cre- 
ate only minor performance variations from one execution of a program to another. The predictions depend 
most strongly on recent branches, and hence the influence by one process on another is very small. 


9.4.3 The K-Best Measurement Scheme 


Although our measurements using cycle timers are vulnerable to errors due to context switching, cache 
operation, and branch prediction, one important feature is that the errors will always cause overestimates of 
the true execution time. Nothing done by the processor can artificially speed up a program. We can exploit 
this property to get reliable measurements of execution times even when there are variances due to context 
switching and other effects. 


Suppose we repeatedly execute a procedure and measure the number of cycles using either time_P_warm 
or time_P_cold. We record the K (e.g., 3) fastest times. If we find these measurements agree within 
some small tolerance e (e.g., 0.1%), then it seems reasonable that the fastest of these represents the true 
execution time of the procedure. As an example, suppose for the runs shown in Figure 9.11 we set the 
tolerance to 1.0%. Then the fastest six measurements for Load | are within this tolerance, as are the fastest 
three for Load 4. We would therefore conclude that the run times are 35.98 ms and 35.89 ms, respectively. 
For the Load 4 case, we also see measurements clustered around 125.3 ms, and six around 155.8 ms, but we 
can safely discard these as overestimates. 


We call this approach to measurement the “K -Best Scheme.” It requires setting three parameters: 
K: The number of measurements we require to be within some close range of the fastest. 


e: How close the measurements must be. That is, if the measurements in ascending order are labeled 
V1, U2,-++,Uj,---, then we require (1 + €)v, > vg. 


M: The maximum number of measurements before we give up. 
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Our implementation performs a series of trials, and maintains an array of the K fastest times in sorted order. 
With each new measurement, it checks whether it is faster than the current one in array position K. If so, 
it replaces array element K and then performs a series of interchanges between adjacent array positions to 
move this value to the appropriate position in the array. This process continues until either the error criterion 
is satisfied, in which case we indicate that the measurements have “converged,” or we exceed the limit M, 
in which case we indicate that the measurements failed to converge. 


Experimental Evaluation 


We conducted a series of experiments to test the accuracy of the K -best measurement scheme. Some issues 
we wished to determine were: 


1. Does this scheme produce accurate measurements? 
2. When and how quickly do the measurements converge? 


3. Can the scheme determine the accuracy of its own measurements? 


One challenge in designing such an experiment is to know the actual run times of the programs we are trying 
to measure. Only then can we determine the accuracy of our measurements. We know that our cycle timer 
gives accurate results as long as the computation we are measuring do not get interrupted. The likelihood of 
an interrupt is small for computations that are much shorter than the timer interval and when running on a 
lightly loaded machine. We exploit these properties to get reliable estimates of true run times. 


As our object to measure, we used a procedure that repeatedly writes values to an array of 2,048 integers 
and then reads them back, similar to the code for clear_cache. By setting the number of repetitions r, 
we could create computations requiring a range of times. We first determined the expected run time of this 
procedure as a function of r, denoted T(r), by timing it for r ranging from 1 to 10 (giving times ranging from 
0.09 to 0.9 milliseconds), and performing a least squares fit to find a formula of the form T(r) = mr +b. By 
using small values of r, performing 100 measurements for each value of r, and running on a lightly loaded 
system we were able to get a very accurate characterization of T(r). Our least squares analysis indicated 
that the formula T(r) = 49273.4r + 166 (in units of clock cycles) fits this data with a maximum error less 
than 0.04%. This gave us confidence in our ability to accurately predict the actual computation time for the 
procedure as a function of r. 


We then measured performance using the K-best scheme with parameters K = 3, e = 0.001, and M = 30. 
We did this for a number of values of r to get expected run times in a range from 0.27 to 50 milliseconds. 
For each of the resulting measurements M(r) we computed the measurement error Em(r) as Em(r) = 
(M(r) — T(r))/T(r). Figure 9.14 shows an experimental validation of the K-best scheme on an Intel 
Pentium II running Linux. In this figure we show the measurement error En, (7) as a function of T(r), 
where we show T(r) in units of milliseconds. Note that we show Em(r) on a logarithmic scale; each 
horizontal line represents an order of magnitude difference in measurement error. In order to be accurate 
within 1% we must have an error below 0.01. We do not attempt to show any errors smaller than 0.001 (i.e., 
0.1%), since our testing setup does not provide high enough precision for this. 


The three series indicate the errors under three different loading conditions. Observe that in all three cases 
the measurements for run times shorter than around 7.5 ms were very accurate. Thus, our scheme can be 


9.4. MEASURING PROGRAM EXECUTION TIME WITH CYCLE COUNTERS 469 


Intel Pentium III, Linux 


—= Load 2 
—«— Load 11 


i 
G 
= 
W 
5 
® 
D 
© 
® 
2 
x 
山 
ke 
2 
5 
a 
© 
o 
= 


Expected CPU Time (ms) 


Figure 9.14: Experimental Validation if K-Best Measurement Scheme on Linux System We can con- 
sistently obtain very accurate measurements (around 0.1% error) for execution times up to around 8 ms. 
Beyond this, we encounter a systematic overestimate of around 4 to 6% on a lightly loaded machine and 
very poor results on a heavily loaded machine. 
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used to measure relatively short execution times even on a heavily loaded machine. Series “Load 1” indicates 
the case where there is only one active process. For execution times above 10 ms, the measurements Tm 
consistently overestimate the computation times Te by around 4 to 6%. These overestimates are due to the 
time spent handling timer interrupts. They are consistent with the trace shown in Figure 9.3, showing that 
even on a lightly loaded machine, an application program can execute for only 95 to 96% of the time. Series 
“Load 2” and “Load 11” show the performance when other processes are actively executing. In both cases, 
the measurements become hopelessly inaccurate for execution times above around 7 ms. Note that an error 
of 1.0 means that Tm is twice Te, while an error of 10.0 means that Tm is eleven times greater than Tọ. 
Evidently, the operating system schedules each active process for one time interval. When n processes are 
active, each one only gets 1/nth of the processor time. 


From these results, we conclude that the K -best scheme provides accurate results only for very short com- 
putations. It is not really good enough for measuring execution times longer than around 7 ms, especially in 
the presence of other active processes. 


Unfortunately, we found that our measurement program could not reliably determine whether or not it 
had obtained an accurate measurement. Our measurement procedure computes a prediction of its error as 
E,(r) = (vg — v1)/v1, where v; is the ith smallest measurement. That is, it computes how well it achieves 
our convergence criterion. We found these estimates to be wildly optimistic. Even for the Load 11 case, 
where the measurements were off by a factor of 10, the program consistently estimated its error to be less 
than 0.001. 


Setting the value of K 


In our earlier experiments, we arbitrarily chose a value of 3 for the parameter K, determining the number of 
measurements we require to be within a small factor of the fastest in order to terminate. To more carefully 
evaluate the effect of this factor, we performed a series of measurements using values of K ranging from 1 
to 5, as shown in Figure 9.15. We performed these measurements for execution times ranging up to 9 ms, 
since this is the upper limit of times for which our scheme can get useful results. 


When we have K = 1, the procedure returns after making a single measurement. This can yield highly 
erratic results, especially when the machine is heavily loaded. If a timer interrupt happens to occur, the 
result is extremely inaccurate. Even without such a catastrophic event, the measurements will be subject to 
many sources of inaccuracy. Setting K to 2 greatly improves the accuracy. For execution times less than 
5 ms, we consistently get accuracy better than 0.1%. Setting K even higher gives better results, both in 
consistency and accuracy, up to a limit of around 8 ms. These experiments show that our initial guess of 
K = 3 is a reasonable choice. 


Compensating for Timer Interrupt Handling 


The timer interrupts occur in a predictable way and cause a large systematic error in our measurements for 
execution times over around 7 ms. It would be good to remove this bias by subtracting from the measured 
run time for a program an estimate of the time spent handling timer interrupts. This requires determining 
two factors. 
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Figure 9.15: Effectiveness of K-best scheme for different values of K. K must be at least 2 to have 
reasonable accuracy. Values greater than 2 help on heavily loaded systems as the program times approach 
the timer interval. 
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Figure 9.16: Measurements with Compensation for Timer Interrupt Overhead This approach greatly 
improves the accuracy of longer duration measurements on a lightly loaded machine. 


1. We must determine how much time is required to handle a single timer interrupt. To preserve the 
property that we never underestimate the execution time of the procedure, we should determine the 
minimum number of clock cycles required to service a timer interrupt. That way we will never 
overcompensate. 


2. We must determine how many timer interrupts occur during the period we are measuring. 


Using a method similar to that used to generate the traces shown in Figures 9.3 and 9.5, we can detect 
periods of inactivity and determine their duration. Some of these will be due to timer interrupts, and some 
will be due to other system events. We can determine whether a timer interrupt has occurred by using the 
times procedure, since the value it returns will be increase one tick each time a timer interrupt occurs. 
We conducted such an evaluation for 100 periods of inactivity and found that the minimum timer interrupt 
processing period required 251,466 cycles. To determine the number of timer interrupts that occur during 
the program we are measuring, we simply call the times function twice—once before and once after the 
program, and then compute their difference. 


Figure 9.16 shows the results obtained by this revised measurement scheme. As the figure illustrates, we 
can now get very accurate (within 1.0%) measurements on a lightly loaded machine, even for programs that 
execute for multiple time intervals. By removing the systematic error of timer interrupts, we now have a 
very reliable measurement scheme. On the other hand, we can see that this compensation does not help for 
programs running on heavily loaded machines. 
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Figure 9.17: Experimental Validation if K-Best Measurement Scheme on IA32/Linux System with 
Older Version of the Kernel. On this system we could get more accurate measurements even for programs 
with longer execution times, especially on lightly loaded machine. 


Evaluation on Other Machines 


Since our scheme depends heavily on the scheduling policy of the operating system, we also ran experiments 
on three other system configurations: 


1. Intel Pentium II running older version (2.0.36 vs. 2.2.16) of the Linux kernel. 


2. Intel Pentium II running Windows-NT. Although this system uses an IA32 processor, the operating 
system is fundamentally different from Linux. 


3. Compaq Alpha running Tru64 Unix. This uses a very different processor, but the operating system is 
similar to Linux. 


As Figure 9.17 indicates, the performance characteristics under an older version of Linux are very different. 
On a lightly loaded machine, the measurements are within 0.2% accuracy for programs of almost arbitrary 
duration. We found that the processor spends only around 3500 cycles processing a timer interrupt with this 
version of Linux. Even on a heavily loaded machine, it will allow processes to run up to around 180 ms 
at a time. This experiment shows that the internal details of the operating system can greatly affect system 
performance and our ability to obtain accurate measurements. 


Figure 9.18 shows the results on the Windows-NT system. Overall, the results are similar to those for 
the older Linux system. For short computations, or on a lightly loaded machine, we could get accurate 
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Figure 9.18: Experimental Validation of K-Best Measurement Scheme on Windows-NT System. On a 
lightly loaded system, we can consistently obtain accurate measurements (around 1.0% error). On a heavily 
loaded system, the accuracy becomes very poor for measurements longer than around 48 ms. 


9.4. MEASURING PROGRAM EXECUTION TIME WITH CYCLE COUNTERS 475 


Compag Alpha 


100 


y aad ¥ 一 一 Load 1 


—= Load 2 


一 一 Load 11 
0.1 


Measured:Expected Error 


0.01 r x DM 559 EE 
> PI EECA EPE PE E 
a AARAA tee pette + y 
uT uo 


0 10 20 30 40 50 
Expected CPU Time (ms) 


Figure 9.19: Experimental Validation if K-Best Measurement Scheme on Compag Alpha System. For 
a lightly loaded system, we can consistently obtain accurate (< 1.0% error) measurements. For a heavily 
loaded system, durations beyond around 10 ms cannot be measured accurately. 


measurements. In this case, our accuracies were around 0.01 (i.e., 1.0%), rather than 0.001. Still, this is 
good enough for most applications. In addition, our threshold between reliable and unreliable measurements 
on a heavily loaded machine was around 48 ms. One interesting feature is that we were sometimes able 
to get accurate measurements on a heavily loaded machine even for computations ranging up to 245 ms. 
Evidently, the NT scheduler will sometimes allow processes to remain active for longer durations, but we 
cannot rely on this property. 


The Compaq Alpha results are shown in Figure 9.19. Again, we find that on a lightly loaded machine, 
programs of almost arbitrary duration can be measured with an error of less than 1%. On a heavily loaded 
machine, only programs with durations less than around 10 ms can be measured accurately. 


Practice Problem 9.7: 


Suppose we wish to measure a procedure that requires t milliseconds. The machine is heavily loaded 
and hence will not allow our measurement process to run more than 50 ms at a time. 


A. Each trial involves measuring one execution of the procedure. What is the probability this trial will 
be allowed to run to completion without being swapped out, assuming it starts at some arbitrary 
point within the 50 ms time segment? Express your answer as a function of t, considering all 
possible values of t. 


B. What is the expected number of trials required so that three of them are reliable measurements of 
the procedure, i.e., each runs within a single time segment? Express your answer as a function of 
t. What values do you predict for t = 20 and t = 40? 
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Observations 


These experiments demonstrate that the K-best measurement scheme works fairly well on a variety of 
machines. On lightly loaded processors, it consistently gets accurate results on most machines, even for 
computations with long durations. Only the newer version of Linux incurs a sufficiently high timer interrupt 
overhead to seriously affect the measurement accuracy. For this system, compensating for this overhead 
greatly improves the measurement accuracy. 


On heavily loaded machines, getting accurate measurements becomes difficult as execution times become 
longer. Most systems have some maximum execution time beyond which the measurement accuracy be- 
comes very poor. The exact value of this threshold is highly system dependent, but typically ranges between 
10 and 200 milliseconds. 


9.5 Time-of-Day Measurements 


Our use of the IA32 cycle counter provides high-precision timing measurements, but it has the drawback 
that it only works on IA32 systems. It would be good to have a more portable solution. We have seen that 
the library functions times and clock are implemented using interval counters and hence are not very 
accurate. 


Another possibility is to use the library function gett imeofday. This function queries the system clock 
to determine the current date and time. 


#include "time.h" 


struct timeval { 
long tv_sec; /* Seconds */ 
long tv_usec; /* Microseconds */ 


} 


int gettimeofday (struct timeval *tv, NULL); 


Returns: 0 for success, -1 for failure 


The function writes the time into a structure passed by the caller that includes one field in units of seconds, 
and another field in units of microseconds. The first field encodes the total number of seconds that have 
elapsed since January 1, 1970. (This is the standard reference point for all Unix systems.) Note that 
the second argument to gettimeofday should simply be NULL on Linux systems, since it refers to an 
unimplemented feature for performing time zone correction. 


Practice Problem 9.8: 


On what date will the tv_sec field written by gett imeofday become negative on a 32-bit machine? 


As shown in Figure 9.20, we can can use get timeof day to create a pair of timer functions start_timer 
and get_timer that are similar to our cycle-timing functions, except that they measure time in seconds 
rather than clock cycles. 
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code/perf/tod.c 


#include <sys/time.h> 
#include <unistd.h> 


static struct timeval tstart; 


/* Record current time */ 
void start_timer () 
{ 
gettimeofday (&tstart, NULL); 
} 


/* Get number of seconds since last call to start_timer */ 
double get_timer () 
{ 

struct timeval tfinish; 

long sec, usec; 


gettimeofday (&tfinish, NULL); 

sec = tfinish.tv_sec - tstart.tv_sec; 
usec = tfinish.tv_usec - tstart.tv_usec; 
return sec + le-6*usec; 
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Figure 9.20: Timing Procedures Using Unix Time of Day Clock. This code is very portable, but its 
accuracy depends on how the clock is implemented. 
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Figure 9.21: Characteristics of gettimeofday Implementations. Some implementations use interval 
counting, while others use cycle timers. This greatly affects the measurement precision. 
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The utility of this timing mechanism depends on how gett imeofday is implemented, and this varies from 
one system to another. Although the fact that the function generates a measurement in units of microseconds 
looks very promising, it turns out that the measurements are not always that precise. Figure 9.21 shows the 
result of testing the function on several different systems. We define the resolution of the function to be the 
minimum time value the timer can resolve. We computed this by repeatedly calling gett imeofday until 
the value written to the first argument changed. The resolution is then the number of microseconds by which 
it changed. As indicated in the table, some implementations can actually resolve times at a microsecond 
level, while others are much less precise. These variations occur, because some systems use cycle counters 
to implement the function, while others use interval counting. In the former case, the resolution can be very 
high—potentially higher than the 1 microsecond resolution provided by the data representation. In the latter 
case, the resolution will be poor—no better than what is provided by functions times and clock. 


Figure 9.21 also shows the latency required by a call to get_timer on various systems. This property 
indicates the minimum time required for a call to the function. We computed this by repeatedly calling the 
function until one second had elapsed and dividing 1 by the number of calls. As can be seen, this function 
requires around 1-microsecond on most systems, and several microseconds on others. By comparison, our 
procedure get_counter requires only around 0.2 microseconds per call. In general, system calls involve 
more overhead than ordinary function calls. This latency also limits the precision of our measurements. 
Even if the data structure allowed expressing time in units with higher resolution, it is unclear how much 
more precisely we could measure time when each measurement incurs such a long delay. 


Figure 9.22 shows the performance we get from an implementation of the K-best measurement scheme 
using gettimeofday rather than our own functions to access the cycle counter. We show the results 
on two different machines to illustrate the effect of the time resolution on accuracy. The measurements 
on a Windows-NT system show characteristics similar to those we found for Linux using times (Figure 
9.8). Since gett imeofday is implemented using the process timers, the error can be negative or positive, 
and it is especially erratic for short duration measurements. The accuracy improves for longer durations, 
to the point where the error is less than 2.0% for durations greater than 200 ms. The measurements on 
a Linux system give results similar to those seen when making direct use of cycle counters. This can be 
seen by comparing the measurements to the Load 1 results in Figure 9.14 (without compensation) and in 
Figure 9.16 (with compensation). Using compensation, we can achieve better than 0.04% accuracy, even 
for measurements as long as 300 ms. Thus, gett imeofday performs just as well as directly accessing 
the cycle counter on this machine. 


9.6 Putting it Together: An Experimental Protocol 


We can summarize our experimental findings in the form of a protocol to determine how to answer the 
question “How fast does Program X run on Machine Y?” 


e Ifthe anticipated run times of X are long (e.g., greater than 1.0 second), then interval counting should 
work well enough and be less sensitive to processor load. 


e If the anticipated run times of X are in a range of around 0.01 to 1.0 seconds, then it is essential to 
perform measurements on a lightly loaded system, and to use accurate, cycle-based timing. We should 
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Figure 9.22: Experimental Validation if K-Best Measurement Scheme Using gett imeofday Func- 
tion. Linux implements this function using cycle counters and hence achieve the same accuracy as do our 
own timing routines. Windows-NT implements this function using interval counting, and hence the accuracy 
is low, especially for small duration measurements. 
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perform tests of the gett imeofday library function to determine whether its implementation on 
machine Y is cycle based or interval based. 


— If the function is cycle based, then use it as the basis for the K -best timing function. 


— If the function is interval based, then we must find some method of using the machine’s cycle 
counters. This may require assembly language coding. 


e Ifthe anticipated run times of X are less than around 0.01 second, then accurate measurements can be 
performed even on a heavily loaded system, as long as it is uses cycle-based timing. We then proceed 
in implementing a K-best timing function using either gett imeofday or by direct access to the 
machine’s cycle counter. 


9.7 Looking into the Future 


There are several features that are being incorporated into systems that will have significant impact on 
performance measurements. 


e Process-specific cycle timing. Itis relatively easy for the operating system to manage the cycle counter 
so that it indicates the elapsed number of cycles for a specific process. All that is required is to store 
the count as part of the process’ state. Then when the process is reactivated, the cycle counter is set 
to the value it had when the process was last deactivated, effectively freezing the counter while the 
process is inactive. Of course, the counter will still be affected by the overhead of kernel operation 
and by cache effects, but at least the effects of other processes will not be as severe. Already some 
systems support this feature. In terms of our protocol, this will allow us to use cycle-based timing 
to get accurate measurements of durations greater than around 0.01 second, even on heavily loaded 
systems. 


e Variable Rate Clocks. In an effort to reduce power consumption, future systems will vary the clock 
rate, since power consumption is directly proportional to the clock rate. In that case, we will not 
have a simple conversion between clock cycles and nanoseconds. It even becomes difficult to know 
which unit should be used to express program performance. For a code optimizer, we gain more 
insight by counting cycles, but for someone implementing an application with real-time performance 
constraints, actual run times are more important. 


9.8 Life in the Real World: An Implementation of the K -Best Measurement 
Scheme 


We have created a library function fcyc that uses the K-best scheme to measure the number of clock cycles 
required by a function f. 
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#include "clock.h" 
#include "fcyc.h" 


typedef void (*test_funct) (int *); 


double fcyc(test_funct f, int *params) ; 


Returns: number of cycles used by f running params 


The parameter params is a pointer to an integer. In general, it can point to an array of integers that form 
the parameters of the function being measured. For example, when measuring the lower-case conversion 
functions lower1 and lower2, we pass as a parameter a pointer to a single int, which is the length of 
the string to be converted. When generating the memory mountain (Chapter 6, we pass a pointer to an array 
of size two containing the size and the stride. 


There are a number of parameters that control the measurement, such as the values of K, e, and M, and 
whether or not to clear the cache before each measurement. These parameters can be set by functions that 
are also in the library. See the file fcyc .h for details. 


9.9 Summary 


We have seen that computer systems have two fundamentally different methods of recording the passage of 
time. Timer interrupts occur at a rate that seems very fast when viewed on a macroscopic scale but very 
slow when viewed on a microscopic scale. By counting intervals, the system can get a very rough measure 
of program execution time. This method is only useful for long-duration measurements. Cycle counters are 
very fast, giving good measurements on a microscopic scale. For cycle counters that measure absolute time, 
the effects of context switching can induce error ranging from small (on a lightly loaded system) to very 
large (on a heavily loaded system). Thus, no scheme is ideal. It is important to understand the accuracy 
achievable on a particular system. 


Through this effort to devise an accurate timing scheme and to evaluate its performance on a number of 
different systems, we have learned some important lessons: 


e Every system is different. Details about the hardware, operating system, and library function imple- 
mentations can have a significant effect on what kinds of programs can be measured and with what 
accuracy. 


e Experiments can be quite revealing. We gained a great deal of insight into the operating system 
scheduler running simple experiments to generate activity traces. This led to the compensation scheme 
that greatly improves accuracy on a lightly loaded Linux system. Given the variations from one system 
to the next, and even from one release of the OS kernel to the next, it is important to be able to analyze 
and understand the many aspects of a system that affect its performance. 


e Getting accurate timings on heavily loaded systems is especially difficult. Most systems researchers 
do all of their measurements on dedicated benchmark systems. They often run the system with many 
OS and networking features disabled to reduce sources of unpredictable activity. Unfortunately, or- 
dinary programmers to not have this luxury. They must share the system with other users. Even on 
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heavily loaded systems, our K -best scheme is reasonably robust for measuring durations shorter than 
the timer interval. 


e The experimental setup must control some sources of performance variations. Cache effects can 
greatly affect the execution time for a program. The conventional technique is to make sure that the 
cache is flushed of any useful data before the timing begins, or else that it is loaded with any data that 
would typically be in the cache initially. 


Through a series of experiments, we were able to design and validate the K-best timing scheme, where 
we make repeated measurements until the fastest K are within some close range to each other. On some 
systems, we can make measurements using the library functions for finding the time of day. On other 
systems, we must access the cycle counters via assembly code. 


Bibliographic Notes 


There is surprisingly little literature on program timing. Stevens’ Unix programming book [77] documents 
all of the different library functions for program timing. Wadleigh and Crawford’s book on software opti- 
mization [81] describe code profiling and standard timing functions. 


Homework Problems 


Homework Problem 9.9 [Category 2]: 


Determine the following based on the trace shown in Figure 9.3. Our program estimated the clock rate as 
549.9 MHz. It then computed the millisecond timings in the trace by scaling the cycle counts. That is, for 
a time expressed in cycles as c, the program computed the millisecond timing as c/549900. Unfortunately, 
the program’s method of estimating the clock rate is imperfect, and hence some of the millisecond timings 
are slightly inaccurate. 


A. The timer interval for this machine is 10 ms. Which of the time periods above were initiated by a 
timer interrupt? 


B. Based on this trace, what is the minimum number of clock cycles required by the operating system to 
service a timer interrupt? 


C. From the trace data, and assuming the timer interval is exactly 10.0 ms, what can you infer as the 
value of the true clock rate? 


Homework Problem 9.10 [Category 2]: 


Write a program that uses library functions sleep and times to determine the approximate number of 
clock ticks per second. Try compiling the program and running it on multiple systems. Try to find two 
different systems that produce results that differ by at least a factor of two. 
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Homework Problem 9.11 [Category 1]: 


We can use the cycle counter to generate activity traces such as was shown in Figures 9.3 and 9.5. Use the 
functions start_counter and get_counter to write a function: 


#include "clock.h" 


int inactiveduration(int thresh); 


Returns: Number of inactive cycles 


This function continually checks the cycle counter and detects when two successive readings differ by more 
than thresh cycles, an indication that the process has been inactive. Return the duration (in clock cycles) 
of that inactive period. 


Homework Problem 9.12 [Category 1]: 


Suppose we call function mhz (Figure 9.10) with parameter sleept ime equal to 2. The system has a 
10 ms timer interval. Assume that sleep is implemented as follows. The processor maintains a counter 
that is incremented by one every time a timer interrupt occurs. When the system executes sleep (x) , the 
system schedules the process to be restarted when the counter reaches t+ 100 x, where t is the current value 
of the counter. 


A. Let w denote the time that our process is inactive due to the call to sleep. Ignoring the various 
overheads of function calls, timer interrupts, etc., what range of values can w have? 


B. Suppose a call to mhz yields 1000.0. Again ignoring the various overheads, what is the possible range 
of the true clock rate? 
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Chapter 10 


Virtual Memory 


Processes in a system share the CPU and main memory with other processes. However, sharing the main 
memory poses some special challenges. As demand on the CPU increases, processes slow down in some 
reasonably smooth way. But if too many processes need too much memory, then some of them will simply 
not be able to run. When a program is out of space, it is out of luck. 


Memory is also vulnerable to corruption. If some process inadvertently writes to the memory used by 
another process, that process might fail in some bewildering fashion totally unrelated to the program logic. 


In order to manage memory more efficiently and robustly, modern systems provide an abstraction of main 
memory known as virtual memory (VM). Virtual memory is an elegant interaction of hardware exceptions, 
hardware address translation, main memory, disk files, and kernel software that provides each process with 
a large, uniform, and private address space. With one clean mechanism, virtual memory provides three 
important capabilities. (1) It uses main memory efficiently by treating it as a cache for an address space 
stored on disk, keeping only the active areas in main memory, and transferring data back and forth between 
disk and memory as needed. (2) It simplifies memory management by providing each process with a uniform 
address space. (3) It protects the address space of each process from corruption by other processes. 


Virtual memory is one of the great ideas in computer systems. A big reason for its success is that it works 
silently and automatically, without any intervention from the application programmer. Since virtual memory 
works so well behind the scenes, why would a programmer need to understand it? There are several reasons. 


e Virtual memory is central. Virtual memory pervades all levels of computer systems, playing key roles 
in the design of hardware exceptions, assemblers, linkers, loaders, shared objects, files, and processes. 
Understanding virtual memory will help you better understand how systems work in general. 


e Virtual memory is powerful. Virtual memory gives applications powerful capabilities to create and 
destroy chunks of memory, map chunks of memory to portions of disk files, and share memory with 
other processes. For example, did you know that you can read or modify the contents of a disk file 
by reading and writing memory locations? Or that you can load the contents of a file into memory 
without doing any explicit copying? Understanding virtual memory will help you harness its powerful 
capabilities in your applications. 


e Virtual memory is dangerous. Applications interact with virtual memory every time they reference a 
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variable, dereference a pointer, or make a call to a dynamic allocation package such as malloc. If 
virtual memory is used improperly, applications can suffer from perplexing and insidious memory- 
related bugs. For example, a program with a bad pointer can crash immediately with a “Segmentation 
fault” or a “Protection fault”, run silently for hours before crashing, or scariest of all, run to completion 
with incorrect results. Understanding virtual memory, and the allocation packages such as malloc 
that manage it, can help you avoid these errors. 


This chapter looks at virtual memory from two angles. The first half of the chapter describes how virtual 
memory works. The second half describes how virtual memory is used and managed by applications. There 
is no avoiding the fact that VM is complicated, and the discussion reflects this in places. The good news is 
that if you work through the details, you will be able to simulate the virtual memory mechanism of small 
system by hand, and the virtual memory idea will be forever demystified. The second half builds on this 
understanding, showing you how to use and manage virtual memory in your programs. You will learn how 
to manage virtual memory via explicit memory mapping and calls to dynamic storage allocators such as the 
malloc package. You will also learn about a host of common memory-related errors in C programs and 
how to avoid them. 


10.1 Physical and Virtual Addressing 


The main memory of a computer system is organized as an array of M contiguous byte-sized cells. Each 
byte has a unique physical address (PA). The first byte has an address of 0, the next byte an address of 1, 
the next byte an address of 2, and so on. Given this simple organization, the most natural way for a CPU to 
access memory would be to use physical addresses. We call this approach physical addressing. Figure 10.1 
shows an example of physical addressing in the context of a load instruction that reads the word starting at 
physical address 4. 


Main memory 


Physical 9; 
address 2: 

CPU 上 3: 
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5: 

6: 

i 

8: 


Data word 


Figure 10.1: A system that uses physical addressing. 


When the CPU executes the load instruction, it generates an effective physical address and passes it to main 
memory over the memory bus. The main memory fetches the four-byte word starting at physical address 4 
and returns it to the CPU, which stores it in a register. 
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Early PCs used physical addressing, and systems such as digital signal processors, embedded microcon- 
trollers, and Cray supercomputers continue to do so. However, modern processors designed for general- 
purpose computing use a form of addressing known as virtual addressing (Figure 10.2). 
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Figure 10.2: A system that uses virtual addressing. 


Data word 


With virtual addressing, the CPU accesses main memory by generating a virtual address (VA), which is 
converted to the appropriate physical address before being sent to the memory. The task of converting a vir- 
tual address to a physical one is known as address translation. Like exception handling, address translation 
requires close cooperation between the CPU hardware and the operating system. Dedicated hardware on 
the CPU chip called the memory management unit (MMU) translates virtual addresses on the fly, using a 
look-up table stored in main memory whose contents are managed by the operating system. 


10.2 Address Spaces 


An address space is an ordered set of nonnegative integer addresses 
I2 asak 


If the integers in the address space are consecutive, then we say that itis a linear address space. To simplify 
our discussion, we will always assume linear address spaces. In a system with virtual memory, the CPU 
generates virtual addresses from an address space of N = 2” addresses called the virtual address space: 


{0,1,2,..., N — 1}. 


The size of an address space is characterized by the number of bits that are needed to represent the largest 
address. For example, a virtual address space with N = 2” addresses is called an n-bit address space. 
Modern systems typically support either 32-bit or 64-bit virtual address spaces. 


A system also has a physical address space that corresponds to the M bytes of physical memory in the 
system: 


{0,1,2,..., M — 1}. 


M is not required to be a power of two, but to simplify the discussion we will assume that M = 2”. 
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The concept of an address space is important because it makes a clean distinction between data objects 
(bytes) and their attributes (addresses). Once we recognize this distinction, then we can generalize and 
allow each data object to have multiple independent addresses, each chosen from a different address space. 
This is the basic idea of virtual memory. Each byte of main memory has a virtual address chosen from the 
virtual address space, and a physical address chosen from the physical address space. 


Practice Problem 10.1: 

Complete the following table, filling in the missing entries and replacing each question mark with the 
appropriate integer. Use the following units: K = 21° (Kilo), M = 27° (Mega), G = 23° (Giga), 
T = 2° (Tera), P = 2°° (Peta), or E = 26° (Exa). 


# virtual address bits (n) | # virtual addresses (V) | Largest possible virtual address 


10.3 VM as a Tool for Caching 


Conceptually, a virtual memory is organized as an array of N contiguous byte-sized cells stored on disk. 
Each byte has a unique virtual address that serves as an index into the array. The contents of the array on 
disk are cached in main memory. As with any other cache in the memory hierarchy, the data on disk (the 
lower level) is partitioned into blocks that serve as the transfer units between the disk and the main memory 
(the upper level). VM systems handle this by partitioning the virtual memory into fixed-sized blocks called 
virtual pages (VPs). Each virtual page is P = 2? bytes in size. Similarly, physical memory is partitioned 
into physical pages (PPs), also P bytes in size. (Physical pages are also referred to as page frames.) 


Virtual Memory Physical memory 


Virtual pages (VP's) Physical pages (PP's) 
stored on disk cached in DRAM 


VP 2np-1 


N-1 


Figure 10.3: How a VM system uses main memory as a cache. 


At any point in time, the set of virtual pages is partitioned into three disjoint subsets: 


e Unallocated: Pages that have not yet been allocated (or created) by the VM system. Unallocated 
blocks do not have any data associated with them, and thus do not occupy any space on disk. 
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e Cached: Allocated pages that are currently cached in physical memory. 


e Uncached: Allocated pages that are not cached in physical memory. 


The example in Figure 10.3 shows a small virtual memory with 8 virtual pages. Virtual pages 0 and 3 have 
not been allocated yet, and thus do not yet exist on disk. Virtual pages 1, 4, and 6 are cached in physical 
memory. Pages 2, 3, 5, and 7 are allocated, but are not currently cached in main memory. 


10.3.1 DRAM Cache Organization 


To help us keep the different caches in the memory hierarchy straight, we will use the term SRAM cache to 
denote the L1 and L2 cache memories between the CPU and main memory, and the term DRAM cache to 
denote the VM system’s cache that caches virtual pages in main memory. 


The position of the DRAM cache in the memory hierarchy has a big impact on the way that it is organized. 
Recall that a DRAM is about 10 times slower than an SRAM and that disk is about 100,000 times slower 
than a DRAM. Thus, misses in DRAM caches are very expensive compared to misses in SRAM caches 
because DRAM cache misses are served from disk, while SRAM cache misses are usually served from 
DRAM-based main memory. Further, the cost of reading the first byte from a disk sector is about 100,000 
times slower than reading successive bytes in the sector. The bottom line is that the organization of the 
DRAM cache is driven entirely by the enormous cost of misses. 


Because of the large miss penalty and the expense of accessing the first byte, virtual pages tend to be large, 
typically four to eight KB. Due to the large miss penalty, DRAM caches are fully associative, that is, any 
virtual page can be placed in any physical page. The replacement policy on misses also assumes greater 
importance, because the penalty associated with replacing the wrong virtual page is so high. Thus, operating 
systems use much more sophisticated replacement algorithms for DRAM caches than the hardware does for 
SRAM caches. (These replacement algorithms are beyond our scope.) Finally, because of the large access 
time of disk, DRAM caches always use write-back instead of write-through. 


10.3.2 Page Tables 


As with any cache, the VM system must have some way to determine if a virtual page is cached somewhere 
in DRAM. If so, the system must determine which physical page it is cached in. If there is a miss, the 
system must determine where the virtual page is stored on disk, select a victim page in physical memory, 
and copy the virtual page from disk to DRAM, replacing the victim page. 


These capabilities are provided by a combination of operating system software, address translation hardware 
in the MMU (memory management unit), and a data structure stored in physical memory known as a page 
table that maps virtual pages to physical pages. The address translation hardware reads the page table each 
time it converts a virtual address to a physical address. The operating system is responsible for maintaining 
the contents of the page table and transferring pages back and forth between disk and DRAM. 


Figure 10.4 shows the basic organization of a page table. A page table is an array of page table entries 
(PTEs). Each page in the virtual address space has a PTE at a fixed offset in the page table. For our 
purposes, we will assume that each PTE consists of a valid bit and an n-bit address field. The valid bit 
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indicates whether the virtual page is currently cached in DRAM. If the valid bit is set, the address field 
indicates the start of the corresponding physical page in DRAM where the virtual page is cached. If the 
valid bit is not set, then a null address indicates that the virtual page has not yet been allocated. Otherwise, 
the address points to the start of the virtual page on disk. 


Physical Memory 


Physical page (DRAM) 
number or _ 
Valid disk address eee PPO 


pee i 


(DRAM) 、、 


Figure 10.4: Page table. 


The example in Figure 10.4 shows a page table for a system with 8 virtual pages and 4 physical pages. Four 
virtual pages (VP 1, VP 2, VP 4, and VP 7) are currently cached in DRAM. Two pages (VP 0 and VP 5) 
have not yet been allocated, and the rest (VP 3 and VP 6) have been allocated but are not currently cached. 
An important point to notice about Figure 10.4 is that because the DRAM cache is fully associative, any 
physical page can contain any virtual page. 


Practice Problem 10.2: 


Determine the number of page table entries (PTEs) that are needed for the following combinations of 
virtual address size (n) and page size (P). 


10.3.3 Page Hits 


Consider what happens when the CPU reads a word of virtual memory contained in VP 2, which is cached 
in DRAM (Figure 10.5). Using a technique we will describe in detail in Section 10.6, the address translation 
hardware uses the virtual address as an index to locate PTE 2 and read it from memory. Since the valid bit is 
set, the address translation hardware knows that VP 2 is cached in memory. So it uses the physical memory 
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address in the PTE (which points to the start of the cached page in PP 0) to construct the physical address 
of the word. 


i Physical M 
Physical page E 人 ‘rls 


Virtual address 
number or 
Valid disk address PP 0 


Memory resident “~、、 “Se 


peg pe Ts. 


(DRAM) 、、 
~E oya | 


Figure 10.5: VM page hit. The reference to a word in VP 2 is a hit. 


10.3.4 Page Faults 


In virtual memory parlance, a DRAM cache miss is known as a page fault. Figure 10.6 shows the state of 
our example page table before the fault. The CPU has referenced a word in VP 3, which is not cached in 
DRAM. The address translation hardware reads PTE 3 from memory, infers from the valid bit that VP 3 is 
not cached, and triggers a page fault exception. 
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Figure 10.6: VM page fault (before). The reference to a word in VP 3 is a miss and triggers a page fault. 


The page fault exception invokes a page fault exception handler in the kernel, which selects a victim page, 
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in this case VP 4 stored in PP 3. If VP 4 has been modified, then the kernel copies it back to disk. In either 
case, the kernel modifies the page table entry for VP 4 to reflect the fact that VP 4 is no longer cached in 
main memory. 


Next the kernel copies VP 3 from disk to PP 3 in memory, updates PTE 3, and then returns. When the 
handler returns, it restarts the faulting instruction, which resends the faulting virtual address to the address 
translation hardware. But now, VP 3 is cached in main memory, and the page hit is handled normally by the 
address translation hardware, as we saw in Figure 10.5. Figure 10.7 shows the state of our example page 
table after the page fault. 
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Figure 10.7: VM page fault (after). The page fault handler selects VP 4 as the victim and replaces it with 
a copy of VP 3 from disk. After the page fault handler restarts the faulting instruction, it will read the word 
from memory normally, without generating an exception. 


Virtual memory was invented in the early 1960s, long before the widening CPU-memory gap spawned 
SRAM caches. As a result, virtual memory systems use a different terminology from SRAM caches, even 
though many of the ideas are similar. In virtual memory parlance, blocks are known as pages. The activity 
of transferring a page between disk and memory is known as swapping or paging. Pages are swapped 
in (paged in) from disk to DRAM, and swapped out (paged out) from DRAM to disk. The strategy of 
waiting until the last moment to swap in a page, when a miss occurs, is known as demand paging. Other 
approaches, such as trying to predict misses and swap pages in before they are actually referenced, are 
possible. However, all modern systems use demand paging. 


10.3.5 Allocating Pages 


Figure 10.8 shows the effect on our example page table when the operating system allocates a new page of 
virtual memory, for example, as a result of calling malloc. In the example, VP 5 is allocated by creating 
room on disk and updating PTE 5 to point to the newly created page on disk. 
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Figure 10.8: Allocating a new virtual page. The kernel allocates VP 5 on disk and points PTE 5 to this 
new location. 


10.3.6 Locality to the Rescue Again 


When many of us learn about the idea of virtual memory, our first impression is often that it must be terribly 
inefficient. Given the large miss penalties, we worry that paging will destroy program performance. In 
practice, virtual memory works pretty well because of our old friend locality. 


Although the total number of pages that programs reference during an entire run might exceed the total size 
of physical memory, the principle of locality promises that at any point in time they will tend to work on 
a smaller set of active pages known as the working set or resident set. After an initial overhead where the 
working set is paged into memory, subsequent references to the working set result in hits, with no additional 
disk traffic. 


As long as our programs have good temporal locality, virtual memory systems work quite well. But of 
course, not all programs exhibit good temporal locality. If the working set size exceeds the size of physi- 
cal memory, then the program can produce an unfortunate situation known as thrashing, where pages are 
swapped in and out continuously. Although virtual memory is usually efficient, if a program’s performance 
slows to a crawl, the wise programmer will consider the possibility that it is thrashing. 


Aside: Counting page faults. 
You can monitor the number of page faults (and lots of other information) with the Unix get rusage function. 
End Aside. 


10.4 VM asa Tool for Memory Management 


In the last section we saw how virtual memory provides a mechanism for using the DRAM to cache pages 
from a typically larger virtual address space. Interestingly, some early systems such as the DEC PDP-11/70 
supported a virtual address space that was smaller than the physical memory. Yet virtual memory was still a 
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useful mechanism because it greatly simplified memory management and provided a natural way to protect 
memory. 


To this point we have assumed a single page table that maps a single virtual address space to the physical 
address space. In fact, operating systems provide a separate page table, and thus a separate virtual address 
space, for each process. Figure 10.9 shows the basic idea. In the example, the page table for process 7 maps 
VP 1 to PP 2 and VP 2 to PP 7. Similarly, the page table for process 7 maps VP 1 to PP 7 and VP 2 to PP 
10. Notice that multiple virtual pages can be mapped to the same shared physical page. 


Virtual address spaces Physical memory 
0 
p Address Translation 
. VP1 
Process i: VP 2 á 
N-1 
0 Shared page 
Process j: VP 4 
VP2 >| 
N-1 


M-1 


Figure 10.9: How VM provides processes with separate address spaces. The operating maintains a 
separate page table for each process in the system. 


The combination of demand paging and separate virtual address spaces has a profound impact on the way 
that memory is used and managed in a system. In particular, VM simplifies linking and loading, the sharing 
of code and data, and allocating memory to applications. 


10.4.1 Simplifying Linking 


A separate address space allows each process to use the same basic format for its memory image, regardless 
of where the code and data actually reside in physical memory. For example, every Linux process uses the 
format shown in Figure 10.10. 


The text section always starts at virtual address 0x08048000, the stack always grows down from address 
Oxbfffffff, shared library code always starts at address 040000000, and the operating system code 
and data start always start at address 0xc0000000. Such uniformity greatly simplifies the design and 
implementation of linkers, allowing them to produce fully linked executables that are independent of the 
ultimate location of the code and data in physical memory. 


10.4.2 Simplifying Sharing 


Separate address spaces provide the operating system with a consistent mechanism for managing sharing 
between user processes and the operating system itself. In general, each process has its own private code, 
data, heap, and stack areas that are not shared with any other process. In this case, the operating system 
creates page tables that map the corresponding virtual pages to disjoint physical pages. 
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Figure 10.10: The memory image of a Linux process. Programs always start at virtual address 
0x08048000. The user stack always starts at virtual address Oxbfffffff. Shared objects are always 
loaded in the region beginning at virtual address 040000000. 


However, in some instances it is desirable for processes to share code and data. For example, every process 
must call the same operating system kernel code, and every C program makes calls to routines in the standard 
C library such as printf. Rather than including separate copies of the kernel and standard C library in 
each process, the operating system can arrange for multiple processes to share a single copy of this code by 
mapping the appropriate virtual pages in different processes to the same physical pages. 


10.4.3 Simplifying Memory Allocation 


Virtual memory provides a simple mechanism for allocating additional memory to user processes. When a 
program running in a user process requests additional heap space (e.g., as a result of calling malloc), the 
operating system allocates an appropriate number, say k, of contiguous virtual memory pages, and maps 
them to k arbitrary physical pages located anywhere in physical memory. Because of the way page tables 
work, there is no need for the operating system to locate k contiguous pages of physical memory. The pages 
can be scattered randomly in physical memory. 


10.4.4 Simplifying Loading 


Virtual memory also makes it easy to load executable and shared object files into memory. Recall that the 
. text and . data sections in ELF executables are contiguous. To load these sections into a newly created 
process, the Linux loader allocates a contiguous chunk of virtual pages starting at address 0x08048000, 
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marks them as invalid (i.e., not cached), and points their page table entries to the appropriate locations in 
the object file. 


The interesting point is that the loader never actually copies any data from disk into memory. The data is 
paged in automatically and on demand by the virtual memory system the first time each page is referenced, 
either by the CPU when it fetches an instruction, or by an executing instruction when it references a memory 
location. 


This notion of mapping a set of contiguous virtual pages to an arbitrary location in an arbitrary file is known 
as memory mapping. Unix provides a system call called mmap that allows application programs to do their 
own memory mapping. We will describe application-level memory mapping in more detail in Section 10.8. 


10.5 VM asa Tool for Memory Protection 


Any robust computer system must provide the means for the operating system to control access to the 
memory system. A user process should not be allowed to modify its read-only text section. It should not be 
allowed to read or modify any of the code and data structures in the kernel. It should not be allowed to read 
or write the private memory of other processes. And it should not be allowed to modify any virtual pages 
that are shared with other processes unless all parties explicitly allow it (via calls to explicit interprocess 
communication system calls). 


As we have seen, providing separate virtual address spaces makes it easy to isolate the private memories 
of different processes. But the address translation mechanism can be extended in a natural way to provide 
even finer access control. Since the address translation hardware reads a PTE each time the CPU generates 
an address, it is straightforward to control access to the contents of a virtual page by adding some additional 
permission bits to the PTE. Figure 10.11 shows the general idea. 


Page tables with permission bits 


SUP READ WRITE Address Physical memory 
VP 0:| no yes no PP 9 
Processi: VP 1:| no yes | yes PP4 œ% | PPO 
VP 2:| yes | yes | yes PP2 e Pp 2 
s PP 4 
PP 6 
SUP READ WRITE Address 
VP0: no yes no PP9 e PP9 
Process j: VP1: yes | yes | yes PP 6 
VP2: no | yes | yes PP 1 一 一 人 PP 


Figure 10.11: Using VM to provide page-level memory protection. 


In this example, we have added three permission bits to each PTE. The SUP bit indicates whether processes 
must be running in kernel (supervisor) mode to access the page. Processes running in kernel mode can 
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Symbol_[Descipion | 


Number of addresses in virtual address space 
Number of addresses in physical address space 


Page size (bytes) 


Components of a virtual address (VA) 
Symbol_[[ Description SSCS 


VPO Virtual page offset (bytes) 
VPN Virtual page number 
TLBI TLB index 

TLBT TLB tag 


Components of a physical address (PA) 


[Symbol | Despo SCS 


Physical page offset (bytes) 
Physical page number 
Byte offset within cache block 


Cache index 
Cache tag 


Figure 10.12: Summary of address translation symbols. 


access any page, but processes running in user mode are only allowed to access pages for which SUP is 0. 
The READ and WRITE bits control read and write access to the page. For example, if process 7 is running 
in user mode, then it has permission to read VP 0 and to read or write VP 1. However, it is not allowed to 
access VP 2. 


If an instruction violates these permissions, then the CPU triggers a general protection fault that transfers 
control to an exception handler in the kernel. Unix shells typically report this exception as a “segmentation 
fault.” 


10.6 Address Translation 


This section covers the basics of address translation. Our aim is to give you an appreciation of the hardware’s 
role in supporting virtual memory, with enough detail so that you can work through some concrete examples 
by hand. However, keep in mind that we are omitting a number of details, especially related to timing, that 
are important to hardware designers, but are beyond our scope. For your reference, Figure 10.12 summarizes 
the symbols that we will using throughout this section. 


Formally, address translation is a mapping between the elements of an N-element virtual address space 
(VAS) and an M-element physical address space (PAS), 


MAP: VAS — PASU Í 
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where 


MAP(A) = A’ if data at virtual addr A is present at physical addr A’ in PAS. 


= Ú if data at virtual addr A is not present in physical memory. 


Figure 10.13 shows how the MMU uses the page table to perform this mapping. A control register in the 
CPU, the page table base register (PTBR) points to the current page table. The n-bit virtual address has 
two components: a p-bit virtual page offset (VPO) and an (n — p)-bit virtual page number (VPN). The 
MMU uses the VPN to select the appropriate PTE. For example, VPN 0 selects PTE 0, VPN 1 selects VPN 
1, and so on. The corresponding physical address is the concatenation of the physical page number (PPN) 
from the page table entry and the VPO from the virtual address. Notice that since the physical and virtual 
pages are both P bytes, the physical page offset (PPO) is identical to the VPO. 


VIRTUAL ADDRESS 


page table n-1 ppl 0 


base register virtual page number (VPN) virtual page offset (VPO) 
(PTBR) 1 


valid _ physical page number (PPN) 


> 


° 9 Page 
The VPN acts Table 
as index into 

the page table 


if valid=0 

then page 

not in memory 
(page fault) 


m-1 Yy p pi Yy 0 
physical page number (PPN) _ | physical page offset (PPO) 


PHYSICAL ADDRESS 


Figure 10.13: Address translation with a page table. 


Figure 10.14(a) shows the steps that the CPU hardware performs when there is a page hit. 


e Step 1: The processor generates a virtual address and sends it to the MMU. 
e Step 2: The MMU generates the PTE address and requests it from the cache/main memory. 


Step 3: The cache/main memory returns the PTE to the MMU. 


e Step 3: The MMU constructs the physical address and sends it to cache/main memory. 


Step 4: The cache/main memory returns the requested data word to the processor. 


Unlike a page hit, which is handled entirely by hardware, handling a page fault requires cooperation between 
hardware and the operating system kernel (Figure 10.14(b)). 


e Steps I to 3: The same as Steps 1 to 3 in Figure 10.14(a). 
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Figure 10.14: Operational view of page hits and page faults. VA: virtual address. PTEA: page table entry 
address. PTE: page table entry. PA: physical address. 
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e Step 4: The valid bit in the PTE is zero, so the MMU triggers an exception, which transfers control in 
the CPU to a page fault exception handler in the operating system kernel. 


e Step 5: The fault handler identifies a victim page in physical memory, and if that page has been 
modified, pages it out to disk. 


e Step 6: The fault handler pages in the new page and updates the PTE in memory. 


e Step 7: The fault handler returns to the original process, causing the faulting instruction to be restarted. 
The CPU resends the offending virtual address to the MMU. Because the virtual page is now cached 
in physical memory, there is a hit, and after the MMU performs the steps in Figure 10.14(b), the main 
memory returns the requested word to the processor 


Practice Problem 10.3: 


Given a 32-bit virtual address space and a 24-bit physical address, determine the number of bits in the 
VPN, VPO, PPN, and PPO for the following page sizes P: 


P [F VPN bits | # VPO bits | FPPN bis | # PO bits 


10.6.1 Integrating Caches and VM 


In any system that uses both virtual memory and SRAM caches, there is the issue of whether to use virtual 
or physical addresses to access the cache. Although a detailed discussion of the tradeoffs is beyond our 
scope, most systems opt for physical addressing. With physical addressing it is straightforward for multiple 
processes to have blocks in the cache at the same time and to share blocks from the same virtual pages. 
Further, the cache does not have to deal with protection issues because access rights are checked as part of 
the address translation process. 


Figure 10.15 shows how a physically-addressed cache might be integrated with virtual memory. The main 
idea is that the address translation occurs before the cache lookup. Notice that page table entries can be 
cached, just like any other data words. 


10.6.2 Speeding up Address Translation with a TLB 


As we have seen, every time the CPU generates a virtual address, the MMU must refer to a PTE in order 
the translate the virtual address into a physical address. In the worst case, this requires an additional fetch 
from memory, at a cost of tens to hundreds of cycles. If the PTE happens to be cached in L1, then the cost 
goes down to one or two cycles. However, many systems try to eliminate even this cost by including a small 
cache of PTEs in the MMU called a translation lookaside buffer (TLB). 
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Figure 10.15: Integrating VM with a physically-addressed cache. VA: virtual address. PTEA: page table 
entry address. PTE: page table entry. PA: physical address. 


A TLB is a small, virtually-addressed cache where each line holds a block consisting of a single PTE. A 
TLB usually has a high degree of associativity. As shown in Figure 10.16, the index and tag fields that are 
used for set selection and line matching are extracted from the virtual page number in the virtual address. If 
the TLB has T = 2 sets, then the TLB index (TLBI) consists of the t least significant bits of the VPN, and 
the TLB tag (TLBT) consists of the remaining bits in the VPN. 


n-1 p+t p+t-1 p p-1 0 
TLB tag (TLBT) | TLB index (TLBI) | VPO 


-一 
VPN 


Figure 10.16: Components of a virtual address that are used to access the TLB. 


Figure 10.17(a) shows the steps involved when there is a TLB hit (the usual case). The key point here is that 
all of the address translation steps are performed inside the on-chip MMU, and thus are fast. 


e Step 1: The CPU generates a virtual address. 


e Steps 2 and 3: The MMU fetches the appropriate PTE from the TLB. 


e Step 4: The MMU translates the virtual address to a physical address and sends it to the cache/main 
memory. 


e Step 5: The cache/main memory returns the requested data word to the CPU. 


When there is a TLB miss, then the MMU must fetch the PTE from the L1 cache, as shown in Fig- 
ure 10.17(b). The newly fetched PTE is stored in the TLB, possibly overwriting an existing entry. 


10.6.3 Multi-level Page Tables 


To this point we have assumed that the system uses a single page table to do address translation. But if we 
had a 32-bit address space, 4-KB pages, and a 4-byte PTE, then we would need a 4-MB page table resident 
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Figure 10.17: Operational view of a TLB hit and miss. 
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in memory at all times, even if the application referenced only a small chunk of the virtual address space. 
The problem is compounded for systems with 64-bit addresses spaces. 


The common approach for compacting the page table is to a use a hierarchy of page tables instead. The idea 
is easiest to understand with a concrete example. Suppose the 32-bit virtual address space is partitioned into 
four-KB pages, and that page table entries are four bytes each. Suppose also that at this point in time the 
virtual address space has the following form: The first 2K pages of memory are allocated for code and data, 
the next 6K pages are unallocated, the next 1023 pages are also unallocated, and the next page is allocated 
for the user stack. Figure 10.18 shows how we might construct a two-level page table hierarchy for this 
virtual address space. 


Level 1 Level 2 Virtual 
Page Table Page Tables Memory 


EE 


> 2K allocated VM pages 
for code and data 


vP 2047 |) 


> 6K unallocated VM pages 
1023 null 
(1K-9) PTEs J 
null PTEs 


PTE 1023 023 
unallocated 1023 unallocated pages 


pages 


| vesis [} 


1 allocated VM page 
for the stack 


Figure 10.18: A two-level page table hierarchy. Notice that addresses increase from top to bottom. 


Each PTE in the level-1 table is responsible for mapping a four-MB chunk of the virtual address space, 
where each chunk consists of 1024 contiguous pages. For example, PTE 0 maps the first chunk, PTE 1 the 
next chunk, and so on. Given that the address space is four GB, 1024 PTEs are sufficient to cover the entire 
space. 


If every page in chunk % is unallocated, then level-1 PTE 7 is null. For example, in Figure 10.18, chunks 2-7 
are unallocated. However, if at least one page in chunk 7 is allocated, then level-1 PTE 2 points to the base 
of a level-2 page table. For example, in Figure 10.18, all or portions of chunks 0, 1, and 8 are allocated, so 
their level-1 PTEs point to level-2 page tables. 


Each PTE in a level-2 page table is responsible for mapping a 4-KB page of virtual memory, just as before 
when we looked at single-level page tables. Notice that with 4-byte PTEs, each level-1 and level-2 page 
table is 4K bytes, which conveniently is the same size as a page. 


This scheme reduces memory requirements in two ways. First, if a PTE in the level-1 table is null, then the 
corresponding level-2 page table does not even have to exist. This represents a significant potential savings, 
since most of the 4-GB virtual address space for a typical program is unallocated. Second, only the level-1 
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table needs to be in main memory at all times. The level-2 page tables can be created and paged in and out 
by the VM system as they are needed, which reduces pressure on main memory. Only the most heavily used 
level-2 page tables need to be cached in main memory. 


Figure 10.19 summarizes address translation with a k-level page table hierarchy. The virtual address is 
partitioned into k VPNs and a VPO. Each VPN 7, 1 <2 < k, is an index into a page table at level 2. Each 
PTE in a level-j table, 1 < 7 < k — 1, points to the base of some page table at level 7 + 1. Each PTE in 
a level-k table contains either the PPN of some physical page or the address of a disk block. To construct 
the physical address, the MMU must access k PTEs before it can determine the PPN. As with a single-level 
hierarchy, the PPO is identical to the VPO. 


VIRTUAL ADDRESS 


n-1 p-1 0 
1VPN1 [p VPN2 | + VPNk | VPO 
Level 1 Level 2 Level k 
Page Table Page Table Page Table 
> Poe oe 
>| G 
PPN} 
m-1 $ p-1 0 
PPN PPO 
PHYSICAL ADDRESS 


Figure 10.19: Address translation with a k-level page table. 


Accessing k PTEs may seem expensive and impractical at first glance. However, the TLB comes to the 
rescue here by caching PTEs from the page tables at the different levels. In practice, address translation 
with multi-level page tables is not significantly slower than with single-level page tables. 


10.6.4 Putting it Together: End-to-end Address Translation 


In this section we put it all together with a concrete example of end-to-end address translation on a small 
system with a TLB and L1 d-cache. To keep things manageable, we make the following assumptions: 


e The memory is byte addressable. 

e Memory accesses are to 1-byte words (not 4-byte words). 
e Virtual addresses are 14 bits wide (n = 14). 

e Physical addresses are 12 bits wide (m = 12). 

e The page size is 64 bytes (P = 64). 

e The TLB is four-way set associative with 16 total entries. 


e The L1 d-cache is physically-addressed and direct mapped, with a 4-byte line size and 16 total sets. 
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Figure 10.20 shows the formats of the virtual and physical addresses. Since each page is 2° = 64 bytes, 
the low-order six bits of the virtual and physical addresses serve as the VPO and PPO respectively. The 
high-order eight bits of the virtual address serve as the VPN. The high-order six bits of the physical address 
serve as the PPN. 


13 12 11 10 9 8 7 6 5 4 3 2 1 0 
Virtual 
Address 
< VPN >< VPO > 
(Virtual Page Number) (Virtual Page Offset) 
11 10 9 8 7 6 5 4 3 2 1 0 
Physical 
Address 
< PPN Pe PPO > 
(Physical Page Number) (Physical Page Offset) 


Figure 10.20: Addressing for small memory system. Assume 14-bit virtual addresses (n = 14), 12-bit 
physical addresses (m = 12), and 64-byte pages (P = 64). 


Figure 10.21 shows a snapshot of our little memory system, including the TLB (a), a portion of the page 
table (b), and the L1 cache (c). Above the figures of the TLB and cache, we have also shown how the bits 
of the virtual and physical addresses are partitioned by the hardware it accesses these devices. 


e TLB: The TLB is virtually addressed using the bits of the VPN. Since the TLB has four sets, the two 
low-order bits of the VPN serve as the set index (TLBI). The remaining six high-order bits serve as 
the tag (TLBT) that distinguishes the different VPNs that might map to the same TLB set. 


e Page table. The page table is a single-level design with a total of 28 = 256 page table entries (PTEs). 
However, we are only interested in the first sixteen of these. For convenience, we have labelled each 
PTE with the VPN that indexes it; but keep in mind though that these VPNs are not part of the page 
table and not stored in memory. Also, notice that the PPN of each invalid PTE is denoted with a dash 
to reinforce the idea that whatever bit values might happen to be stored there are not meaningful. 


e Cache. The direct-mapped cache is addressed by the fields in the physical address. Since each block 
is 4 bytes, the low-order 2 bits of the physical address serve as the block offset (CO). Since there are 
16 sets, the next 4 bits serve as the set index (CI). The remaining 6 bits serve as the tag (CT). 


Given this initial setup, lets see what happens when the CPU executes a load instruction that reads the byte 
at address 0x03d4. (Recall that our hypothetical CPU reads one-byte words rather than four-byte words.) 
To begin this kind of manual simulation, we find it helpful to write down the bits in the virtual address, 
identify the various fields we will need, and determine their hex values. The hardware perform a similar 
task when it decodes the address. 
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< TLBT >4— TLBI > 
13 12 11 10 9 8 7 6 5 4 3 2 1 0 
VPN >< VPO > 

Tag PPN Valid Tag PPN Valid Tag PPN Valid Tag PPN Valid 
03 | - o |o | o |] 1 oo | - o | o7 | 02 1 
03 | 2 | 1 02 | - 0 |o | - oļal- 0 
02 | - os | - 0 | o | - ofo | - 0 
o7 | = o [ 03 |] oD | 14 oA | 34 1 o2 | - 0 


(a) TLB: Four sets, sixteen entries, four-way set associative. 


VPN 


00 
01 
02 
03 
04 
05 
06 
07 


VPN 


08 
09 
0A 
0B 
0c 
oD 
0E 
OF 


(b) Page table: Only the first sixteen PTEs are shown. 


as CT >< Cl »>4— CO > 
11 10 9 8 7 6 5 4 3 2 1 0 
Physical 
Address 
4 PPN pe PPO > 
Idx Tag Valid BIkKO Biki Bk2 Bk3 
0 1 
1 0 
2 1 
3 0 
4 1 
5 1 
6 0 
7 1 
8 1 
9 0 
A 1 
B 0 
C 0 
D 1 
E 1 
F 0 


(c) Cache: 16 sets, four-byte blocks, direct mapped. 


Figure 10.21: TLB, page table, and cache for small memory system. All values in the TLB, page table, 
and cache are in hexadecimal notation. 
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To begin, the MMU extracts the VPN (0x0F) from the virtual address and checks with the TLB to see if 
has cached a copy of PTE 0x0F from some previous memory reference. The TLB extracts the TLB index 
(0x03) and the TLB tag (0x3) from the VPN, hits on a valid match in the second entry of Set 0x3, and 
returns the cached PPN (0x0D) to the MMU. 


If the TLB had missed, then the MMU would need to fetch the PTE from main memory. However, in this 
case we got lucky and had a TLB hit. The MMU now has everything it needs to form the physical address. 
It does this by concatenating the PPN (0x0D) from the PTE with the VPO (0x14) from the virtual address, 
which forms the physical address (0x354). 


Next, the MMU sends the physical address to the cache, which extracts the cache offset CO (0x0), the 
cache set index CI (0x5), and the cache tag CT (0x0D) from the physical address. 


一 一 wa l 
poston [11 TiOT9 T8716 T4312liTo 
PA=0x3541 0] 0{1{1]0]1] 0] 1] 01 oo 
[PNT po | 


Since the tag in Set 0x5 matches CT, the cache detects a hit, reads out the data byte (0x36) at offset CO, 
and returns it to the MMU, which then passes it back to the CPU. 


Other paths through the translation process are also possible. For example, if the TLB misses, then the 
MMU must fetch the PPN from a PTE in the page table. If the resulting PTE is invalid, then there is a page 
fault and the kernel must page in the appropriate page and rerun the load instruction. Another possibility is 
that the PTE is valid, but the necessary memory block misses in the cache. 


Practice Problem 10.4: 


Show how the example memory system in Section 10.6.4 translates a virtual address into a physical 
address and accesses the cache. For the given virtual address, indicate the TLB entry accessed, physical 
address, and cache byte value returned. Indicate whether the TLB misses, whether a page fault occurs, 
and whether a cache miss occurs. If there is a cache miss, enter “—” for “Cache byte returned”. If there 
is a page fault, enter “—” for “PPN” and leave parts C and D blank. 


Virtual address: 0x03d7 


A. Virtual address format 
13 12 11 10 9 8 T 6 5 4 3 2 1 0 
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B. Address translation 


C. Physical address format 
11 10 9 8 7 
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D. Physical memory reference 
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Cache hit? (Y/N) 
Cache byte returned 


10.7 Case Study: The Pentium/Linux Memory System 


We conclude our discussion of caches and virtual memory with a case study of a real system: a Pentium- 
class system running Linux. Figure 10.22 gives the highlights of the Pentium memory system. The Pentium 
has a 32-bit (4 GB) address space. The processor package includes the CPU chip, a unified L2 cache, 
and a cache bus (backside bus) that connects them. The CPU chip proper contains four different caches: 
an instruction TLB, data TLB, L1 i-cache, and L1 d-cache. The TLBs are virtually addressed. The L1 
and L2 caches are physically addressed. All caches in the Pentium (including the TLBs) are four-way set 
associative. 


The TLBs cache 32-bit page table entries. The instruction TLB caches PTEs for the virtual addresses 
generated by the instruction fetch unit. The data TLB caches PTEs for the virtual instructions generated 
by instructions. The instruction TLB has 32 entries. The data TLB has 64 entries. The page size can be 
configured at start-up time as either 4 KB or 4 MB. Linux running on a Pentium uses 4-KB pages. 

The L1 and L2 caches have 32-byte blocks. Each L1 caches is 16 KB in size and has 128 sets, each of 


which contains four lines. The L2 cache size can vary from a minimum of 128 KB to a maximum of 2 MB. 
A typical size is 512 KB. 


10.7.1 Pentium Address Translation 


This section discusses the address translation process on the Pentium. For your reference, Figure 10.23 
summarizes the entire process, from the time the CPU generates a virtual address until a data word arrives 
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Figure 10.22: The Pentium memory system. 


from memory. 


Aside: Optimizing address translation. 

In our discussion of address translation, we have described a sequential two-step process where the MMU (1) 
translates the virtual address to a physical address, and then (2) passes the physical address to the L1 cache. However, 
real hardware implementations use a neat trick that allows these steps to be partially overlapped, thus speeding up 
accesses to the L1 cache. 


For example, a virtual address on a Pentium with 4-KB pages has 12 bits of VPO, and these bits are identical to the 
12 bits of PPO in the corresponding physical address. Since the four-way set-associative physically-addressed L1 
caches have 128 sets and 32-byte cache blocks, each physical address has five (log, 32) cache offset bits and seven 
(log, 128) index bits. These 12 bits fit exactly in the VPO of a virtual address, which is no accident! When the CPU 
needs a virtual address translated, it sends the VPN to the MMU and the VPO to the L1 cache. While the MMU is 
requesting a page table entry from the TLB, the L1 cache is busy using the VPO bits to find the appropriate set and 
read out the four tags and corresponding data words in that set. When the MMU gets the PPN back from the TLB, 
the cache is ready to try to match the PPN to one of these four tags. 


This suggests the following question for you to ponder: What options do Intel engineers have if they want to increase 
the L1 cache size in future systems and still be able to use this trick? End Aside. 
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Every Pentium system uses the two-level page table shown in Figure 10.24. The level-1 table, known as the 
page directory, contains 1024 32-bit page directory entries (PDEs), each of which points to one of 1024 
level-2 page tables. Each page table contains 1024 32-bit page table entries (PTEs), each of which points 
to a page in physical memory or on disk. 


Each process has a unique page directory and set of page tables. When a Linux process is running, both 
the page directory and the page tables associated with allocated pages are all memory resident, although the 
Pentium architecture allows the page tables to be swapped in and out. The page directory base register 
(PDBR) points to the beginning of the page directory. 
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Figure 10.23: Summary of Pentium address translation. 
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Figure 10.24: Pentium multi-level page table. 
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Figure 10.25(a) shows the format of a PDE. When P = 1 (which is always the case with Linux), the address 
field contains a 20-bit physical page number that points to the beginning of the appropriate page table. 
Notice that this imposes a 4-KB alignment requirement on page tables. Figure 10.25(b) shows the format 


31 12 11 9 8 7 6 5 4 3 2 1 0 
Page table physical base addr unused | G |PS A |CD|WT|U/S/R/W)/P=1 


page table is present in physical memory (1) or not (0) 
read-only or read-write access permission 

user or supervisor mode (kernel mode) access permission 
write-through or write-back cache policy for this page table 
cache disabled (1) or enabled (0) 


has the page been accessed? (set by MMU on reads and writes, cleared by software) 
PS page size 4K (0) or 4M (1) 
G global page (don’t evict from TLB on task switch) 
PT base addr | 20 most significant bits of physical page table address 


(a) Page Directory Entry (PDE). 


31 12 11 9 8 Fi 6 5 4 3 2 1 0 
Page physical base address unused | G| O |D | A |CD|WT|U/S|R/W/P=1 


Available for OS (page location in secondary storage) P=0 


page is present in physical memory (1) or not (0) 
read-only or read/write access permission 
user/supervisor mode (kernel mode) access permission 
write-through or write-back cache policy for this page 
cache disabled or enabled 


reference bit (set by MMU on reads and writes, cleared by software) 
dirty bit (set by MMU on writes, cleared by software) 
global page (don’t evict from TLB on task switch) 

page base addr | 20 most significant bits of physical page address 


(b) Page Table Entry (PTE). 


Figure 10.25: Formats of Pentium page directory entry (PDE) and page table entry (PTE). 


of a PTE. When P = 1, the address field contains a 20-bit physical page number that points to the base of 
some page in physical memory. Again, this imposes a 4-KB alignment requirement on physical pages. 


The PTE has two permission bits that control access to the page. The R/W bit determines whether the 
contents of a page are read/write or read/only. The U/S bit, which determines whether the page can be 
accessed in user mode, protects code and data in the operating system kernel from user programs. 
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As the MMU translates each virtual address, it also updates two other bits that can be used by the kernel’s 
page fault handler. The MMU sets the A bit, which is known as a reference bit, each time a page is accessed. 
The kernel can use the reference bit to implement its page replacement algorithm. The MMU sets the D 
bit, or dirty bit, each time the page is written to. A page that has been modified is sometimes called a dirty 
page. The dirty bit tells the kernel whether or not it must write-back a victim page before it copies in a 
replacement page. The kernel can call a special kernel-mode instruction to clear the reference the dirty bits. 


Aside: Execute permissions and buffer overflow attacks. 

Notice that a Pentium page table entry lacks an execute permission bit to control whether the contents of a page 
can be executed. Buffer overflow attacks exploit this omission by loading and running code directly on the user 
stack (Section 3.13). If there were such an execute bit, then the kernel could eliminate the threat of such attacks by 
restricting execute privileges to the read-only code segment. End Aside. 


Pentium Page Table Translation 


Figure 10.26 shows how the Pentium MMU uses the two-level page table to translate a virtual address to 
a physical address. The 20-bit VPN is partitioned into two 10-bit chunks. VPN1 indexes a PDE in the 
page directory pointed at by the PDBR. The address in the PDE points to the base of some page table that 
is indexed by VPN2. The PPN in the PTE indexed by VPN2 is concatenated with the VPO to form the 
physical address. 
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Figure 10.26: Pentium page table translation. 


Pentium TLB Translation 


Figure 10.27 summarizes the process of TLB translation in a Pentium system. If the PTE is cached in the set 
indexed by the TLBI (a TLB hit), then the PPN is extracted from this cached PTE and concatenated with the 
VPO to form the physical address. If the PTE is not cached, but the PDE is cached (a partial TLB hit), then 
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the MMU must fetch the appropriate PTE from memory before it can form the physical address. Finally, if 
neither the PDE or PTE is cached (a TLB miss), then the MMU must fetch both the PDE and the PTE from 
memory in order to form the physical address. 
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Figure 10.27: Pentium TLB translation. 


10.7.2 Linux Virtual Memory System 


A virtual memory system requires close cooperation between the hardware and the kernel software. While a 
complete description is beyond our scope, our aim in this section is to describe enough of the Linux virtual 
memory system to give you a sense of how a real operating system organizes virtual memory and how it 
handles page faults. 


Linux maintains a separate virtual address space for each process of the form shown in Figure 10.28. We 
have seen this picture a number of times already, with its familiar code, data, heap, shared library, and stack 
segments. Now that we understand address translation, we can fill in some more details about the kernel 
virtual memory that lies above address 0xc0000000. 


The kernel virtual memory contains the code and data structures in the kernel. Some regions of the kernel 
virtual memory are mapped to physical pages that are shared by all processes. For example, each process 
shares the kernel’s code and global data structures. Interestingly, Linux also maps a set of contiguous virtual 
pages (equal in size to the total amount of DRAM in the system) to the corresponding set of contiguous 
physical pages. This provides the kernel with a convenient way to access any specific location in physical 
memory, for example, when it needs to perform memory-mapped I/O operations on devices that are mapped 
to particular physical memory locations. 


Other regions of kernel virtual memory contain data that differs for each process. Examples include page 
tables, the stack that the kernel uses when it is executing code in the context of the process, and various data 
structures that keep track of the current organization of the virtual address space. 


Linux Virtual Memory Areas 


Linux organizes the virtual memory as a collection of areas (also called segments). An area is a contiguous 
chunk of existing (allocated) virtual memory whose pages are related in some way. For example, the code 
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Figure 10.28: The virtual memory of a Linux process. 


segment, data segment, heap, shared library segment, and user stack are all distinct areas. Each existing 
virtual page is contained in some area, and any virtual page that is not part of some area does not exist, and 
cannot be referenced by the process. The notion of an area is important because it allows the virtual address 
space to have gaps. The kernel does not keep track of virtual pages that do not exist, and such pages do not 
consume any additional resources in memory, on disk, or in the kernel itself. 


Figure 10.29 highlights the kernel data structures that keep track of the virtual memory areas in a process. 
The kernel maintains a distinct task structure (task_struct in the source code) for each process in the 
system. The elements of the task structure either contain or point to all of the information that the kernel 
needs to run the process, (e.g., the PID, pointer to the user stack, name of the executable object file, and 
program counter). 


One of the entries in the task structure points to an mm_st ruct that characterizes the current state of the 
virtual memory. The two fields of interest to us are pgd, which points to the base of the page directory 
table, and mmap, which points to a list of vm_area_st ructs (area structs), each of which characterizes 
an area of the current virtual address space. When the kernel runs this process, it stores pgd in the PDBR 
control register. 


For our purposes, the area struct for a particular area contains the following fields: 


e vm_start: Points to the beginning of the area. 


vm_end: Points to the end of the area. 


e vm_prot: Describes the read/write permissions for all of the pages contained in the area. 


vm_flags: Describes (among other things) whether the pages in the area are shared with other 
processes or private to this process. 
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Figure 10.29: How Linux organizes virtual memory. 


e vm_next: Points to the next area struct in the list. 


Linux Page Fault Exception Handling 


Suppose the MMU triggers a page fault while trying to translate some virtual address A. The exception 
results in a transfer of control to the kernel’s page fault handler, which then performs the following steps: 


1. Is virtual address A legal? In other words, does A lie within an area defined by some area struct? 
To answer this question, the fault handler searches the list of area structs, comparing A with the 
vm_start and vm_end in each area struct. If the instruction is not legal, then the fault handler trig- 
gers a segmentation fault, which terminates the process. This situation is labeled “1” in Figure 10.30. 


Because a process can create an arbitrary number of new virtual memory areas (using the mmap 
system call described later in Section 10.8), a sequential search of the list of area structs might be 
very costly. So in practice, Linux superimposes a tree on the list, using some fields that we have not 
shown, and performs the search on this tree. 


2. Is the attempted memory access legal? In other words, does the process have permission to read or 
write the pages in this area? For example, was the page fault the result of a store instruction trying 
to write to a read-only page in the code segment? Is the page fault the result of a process running in 
user mode that is attempting to read a word from kernel virtual memory? If the attempted access is 
not legal, then the fault handler triggers a protection exception, which terminates the process. This 
situation is labeled “2” in Figure 10.30. 


3. At this point, the kernel knows that the page fault resulted from a legal operation on a legal virtual 
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Figure 10.30: Linux page fault handling. 


address. It handles the fault by selecting a victim page, swapping out the victim page if it is dirty, 
swapping in the new page, and updating the page table. When the page fault handler returns, the CPU 
restarts the faulting instruction, which sends A to the MMU again. This time, the MMU translates A 
normally, without generating a page fault. 


10.8 Memory Mapping 


Linux (along with other forms of Unix) initializes the contents of a virtual memory area by associating it 
with an object on disk, a process known as memory mapping. Areas can be mapped to one of two types of 
objects: 


1. Regular file in the Unix filesystem: An area can be mapped to a contiguous section of a regular disk 


file, such as an executable object file. The file section is divided into page-sized pieces, with each 
piece containing the initial contents of a virtual page. Because of demand paging, none of these 
virtual pages is actually swapped into physical memory until the CPU first touches the page (i.e., 
issues a virtual address that falls within that page’s region of the address space). If the area is larger 
than the file section, then the area is padded with zeros. 


2. Anonymous file: An area can also be mapped to an anonymous file, created by the kernel, that contains 


all binary zeros. The first time the CPU touches a virtual page in such an area, the kernel finds an 
appropriate victim page in physical memory, swaps out the victim page if it is dirty, overwrites the 
victim page with binary zeros, and updates the page table to mark the page as resident. Notice that no 
data is actually transferred between disk and memory. For this reason, pages in areas that are mapped 
to anonymous files are sometimes called demand-zero pages. 
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In either case, once a virtual page is initialized, it is swapped back and forth between a special swap file 
maintained by the kernel. The swap file is also known as the swap space or the swap area. An important 
point to realize is that at any point in time, the swap space bounds the total amount of virtual pages that can 
be allocated by the currently running processes. 


10.8.1 Shared Objects Revisited 


The idea of memory mapping resulted from a clever insight that if the virtual memory system could be 
integrated into the conventional file system, then it could provide a simple and efficient way to load programs 
and data into memory. 


As we have seen, the process abstraction promises to provide each process with its own private virtual 
address space that is protected from errant writes or reads by other processes. However, many processes 
have identical read-only text areas. For example, each process that runs the Unix shell program t csh has 
the same text area. Further, many programs need to access identical copies of read-only run-time library 
code. For example, every C program requires functions from the standard C library such as printf. It 
would be extremely wasteful for each process to keep duplicate copies of these commonly used codes in 
physical memory. Fortunately, memory mapping provides us with a clean mechanism for controlling how 
objects are shared by multiple processes. 


An object can be mapped into an area of virtual memory as either a shared object or a private object. If a 
process maps a shared object into an area of its virtual address space, then any writes that the process makes 
to that area are visible to any other processes that have also mapped the shared object into their virtual 
memory. Further, the changes are also reflected in the original object on disk. 


Changes made to an area mapped to a private object, on the other hand, are not visible to other processes, 
and any writes that the process makes to the area are not reflected back to the object on disk. A virtual 
memory area that a shared object is mapped into is often called a shared area. Similarly for a private area. 


Suppose that process 1 maps a shared object into an area of its virtual memory, as shown in Figure 10.3 1(a). 
Now suppose that process 2 maps the same shared object into its address space (not necessarily at the same 
virtual address as process 1) as shown in Figure 10.31(b). 


Since each object has a unique file name, the kernel can quickly determine that process 1 has already mapped 
this object and can point the page table entries in process 2 to the appropriate physical pages. The key point 
is that only a single copy of the shared object needs to be stored in physical memory, even though the 
object is mapped into multiple shared areas. For convenience, we have shown the physical pages as being 
contiguous, but of course this is not true in general. 


Private objects are mapped into virtual memory using a clever technique known as copy-on-write. A private 
object begins life in exactly the same way as a shared object, with only one copy of the private object 
stored in physical memory. For example, Figure 10.32(a) shows a case where two processes have mapped a 
private object into different areas of their virtual memories, but share the same physical copy of the object. 
For each process that maps the private object, the page table entries for the corresponding private area are 
flagged as read-only, and the area struct is flagged as private copy-on-write. So long as neither process 
attempts to write to its respective private area, they continue to share a single copy of the object in physical 
memory. However, as soon as a process attempts to write to some page in the private area, the write triggers 
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Figure 10.31: A shared object. (a) After process 1 maps the shared object. (b) After process 2 maps the 


same shared object. (Note that the physical pages are not necessarily contiguous.) 
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Figure 10.32: A private copy-on-write object. (a) After both processes have mapped the private copy-on- 


write object. (b) After process 2 writes to a page in the private area. 
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a protection fault. 


When the fault handler notices that the protection exception was caused by the process trying to write to 
a page in a private copy-on-write area, it creates a new copy of the page in physical memory, updates 
the page table entry to point to the new copy, and then restores write permissions to the page, as shown 
in Figure 10.32(b). When the fault handler returns, the CPU reexecutes the write, which now proceeds 
normally on the newly created page. 


By deferring the copying of the pages in private objects until the last possible moment, copy-on-write makes 
the most efficient use of scarce physical memory. 


10.8.2 The fork Function Revisited 


Now that we understand virtual memory and memory mapping, we can get a clear idea of how the fork 
function creates a new process with its own independent virtual address space. 


When the fork function is called by the current process, the kernel creates various data structures for 
the new process and assigns it a unique PID. To create the virtual memory for the new process, it creates 
exact copies of the current process’s mm_st ruct, area structs, and page tables. It flags each page in both 
processes as read-only, and flags each area struct in both processes as private copy-on-write. 


When the fork returns in the new process, the new process now has an exact copy of the virtual memory 
as it existed when the fork was called. When either of the processes performs any subsequent writes, the 
copy-on-write mechanism creates new pages, thus preserving the abstraction of a private address space for 
each process. 


10.8.3 The execve Function Revisited 


Virtual memory and memory mapping also play key roles in the process of loading programs into memory. 
Now that we understand these concepts, we can understand how the execve function really loads and 
executes programs. Suppose that the program running in the current process makes the following call to 
execve: 


Execve ("a.out", NULL, NULL); 


The excecve function loads and runs the program contained in the executable object file a . out within the 
current process, effectively replacing the current program with the a.out program. Loading and running 
a.out requires the following steps: 


e Delete existing user areas. Delete the existing area structs in the user portion of the current process’s 
virtual address. 


e Map private areas. Create new area structs for the text, data, bss, and stack areas of the new program. 
All of these new areas are private copy-on-write The text and data areas are mapped to the text and 
data sections of the a. out file. The bss area is demand-zero, mapped to an anonymous file whose 
size is contained in a. out. The stack and heap area are also demand-zero, initially of zero-length. 
Figure 10.33 summarizes the different mappings of the private areas. 
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Figure 10.33: How the loader maps the areas of the user address space. 


e Map shared areas. If the a.out program was linked with shared objects, such as the standard C 
library libc . so, then these objects are dynamically linked into the program, and then mapped into 
the shared region of the user’s virtual address space. 


e Set the program counter (PC). The last thing that execve does is to set the program counter in the 
current process’s context to point to the entry point in the text area. 


The next time this process is scheduled, it will begin execution from the entry point. Linux will swap in 
code and data pages as needed. 


10.8.4 User-level Memory Mapping with the mmap Function 


Unix processes can use the mmap function to create new areas of virtual memory and to map objects into 
these areas. 


#include <unistd.h> 
#include <sys/mman.h> 


void *mmap(void *start, size_t length, int prot, int flags, int fd, offt 
offset); 


returns: pointer to mapped area if OK, -1 on error 


The mmap function asks the kernel to create a new virtual memory area, preferably one that starts at address 
start, and to map a contiguous chunk of the object specified by file descriptor fd to the new area. The 
contiguous object chunk has a size of length bytes and starts at an offset of of fset bytes from the be- 
ginning of the file. The st art address is merely a hint, and is usually specified as NULL. For our purposes, 
we will always assume a NULL start address. Figure 10.34 depicts the meaning of these arguments. 
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Figure 10.34: Visual interpretation of mmap arguments. 


The prot argument contains bits that describe the access permissions of the newly mapped virtual memory 
area (i.e., the vm_prot bits in the corresponding area struct). 


e PROT_EXEC: Pages in the area consist of instructions that may be executed by the CPU. 
e PROT_READ: Pages in the area may be read. 
e PROT_WRITE: Pages in the area may be written. 


e PROT_NONE: Pages in the area cannot be accessed. 


The flags argument consists of bits that describe the type of the mapped object. If the MAP_ANON flag 
bit is set and fd is NULL, then the backing store is an anonymous object and the corresponding virtual pages 
are demand-zero. MAP_PRIVATE indicates a private copy-on-write object, and MAP_SHARED indicates 
a shared object. For example, 


bufp Mmap (NULL, PROT_READ, MAP_PRIVATE|MAP_ANON, 0, 0); 


size, 


asks the kernel to create a new read-only, private, demand-zero area of virtual memory containing size 
bytes. If the call is successful, then bufp contains the address of the new area. 


The munmap function deletes regions of virtual memory. 


#include <unistd.h> 
#include <sys/mman.h> 


int munmap (void *start, size_t length); 


returns: 0 if OK, -1 on error 


The munmap function deletes the area starting at virtual address start and consisting of the next length 
bytes. Subsequent references to the deleted region result in segmentation faults. 
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Practice Problem 10.5: 


Write a C program mmapcopy.c that uses mmap to copy an arbitrary-sized disk file to stdout. The 
name of the input file should be passed as a command line argument. 


10.9 Dynamic Memory Allocation 


While it is certainly possible to use the low-level mmap and munmap functions to create and delete areas 
of virtual memory, most C programs use a dynamic memory allocator when they need to acquire additional 
virtual memory at run time. 


A dynamic memory allocator maintains an area of a process’s virtual memory known as the heap (Fig- 
ure 10.35). In most Unix systems, the heap is an area of demand-zero memory that begins immediately 
after the uninitialized bss area and grows upward (towards higher addresses). For each process, the kernel 
maintains a variable brk (pronounced “break’’) that points to the top of the heap. 
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Figure 10.35: The heap. 


An allocator maintains the heap as a collection of various sized blocks. Each block is a contiguous chunk 
of virtual memory that is either allocated or free. An allocated block has been explicitly reserved for use 
by the application. A free block is available to be allocated. A free block remains free until it is explicitly 
allocated by the application. An allocated block remains allocated until it is freed, either explicitly by the 
application, or implicitly by the memory allocator itself. 


Allocators come in two basic styles. Both styles require the application to explicitly allocate blocks. They 
differ about which entity is responsible for freeing allocated blocks. 


Explicit allocators require the application to explicitly free any allocated blocks. For example, the C stan- 
dard library provides an explicit allocator called the malloc package. C programs allocate a block by 
calling the malloc function and free a block by calling the free function. The new and free calls in 
C++ are comparable. 
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Implicit allocators, on the other hand, require the allocator to detect when an allocated block is no longer 
being used by the program and then free the block. Implicit allocators are also known as garbage collectors, 
and the process of automatically freeing unused allocated blocks is known as garbage collection. For 
example, higher-level languages such as Lisp, ML and Java rely on garbage collection to free allocated 
blocks. 


The remainder of this section discusses the design and implementation of explicit allocators. We will discuss 
implicit allocators in Section 10.10. For concreteness, our discussion focuses on allocators that manage heap 
memory. However, students should be aware that memory allocation is a general idea that arises in a variety 
of contexts. For example, applications that do intensive manipulation of graphs will often use the standard 
allocator to acquire a large block of virtual memory, and then use an application-specific allocator to manage 
the memory within that block as the nodes of the graph are created and destroyed. 


10.9.1 Themalloc and free Functions 


The C standard library provides an explicit allocator known as the malloc package. Programs allocate 
blocks from the heap by calling the malloc function. 


#include <stdlib.h> 


void *malloc(size_t size); 


returns: ptr if OK, NULL on error 


The malloc function returns a pointer to a block of memory of at least size bytes that is suitably aligned 
for any kind of data object that might be contained in the block. On the Unix systems that we are familiar 
with, malloc returns a block that is aligned to an 8-byte (double-word) boundary. The size_t type is 
defined as an unsigned int. 


Aside: How big is a word? 

Recall from our discussion of [A32 machine code in Chapter 3 that Intel refers to 4-byte objects as double-words. 
However, throughout this section we will assume that words are 4-byte objects and that double-words are 8-byte 
objects, which is consistent with conventional terminology. End Aside. 


If malloc encounters a problem (e.g., the program requests a block of memory that is larger than the 
available virtual memory), then it returns NULL and sets errno. Malloc does not initialize the memory 
it returns. Applications that want initialized dynamic memory can use calloc, a thin wrapper around the 
malloc function that initializes the allocated memory to zero. Applications that want to change the size of 
a previously allocated block can use the realloc function. 


Dynamic memory allocators such as malloc can allocate or deallocate heap memory explicitly by using 
the mmap and munmap functions, or they can use the sbrk function: 


#include <unistd.h> 


void *sbrk(int incr); 


returns: old brk pointer on success, -1 on error 
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The sbrk function grows or shrinks the heap by adding incr to the kernel’s brk pointer. If successful, it 
returns the old value of brk, otherwise it returns -1 and sets errno to ENOMEM. If incr is zero, then 
sbrk returns the current value of brk. Calling sbrk with a negative incr is legal but tricky because the 
return value (the old value of brk) points to abs (incr) bytes past the new top of the heap. 


Programs free allocated heap blocks by calling the free function. 


#include <stdlib.h> 


void free(void *ptr); 


returns: nothing 


The ptr argument must point to the beginning of an allocated block that was obtained from malloc. If 
not, then the behavior of f ree is undefined. Even worse, since it returns nothing, f ree gives no indication 
to the application that something is wrong. As we shall see in Section 10.11, this can produce some baffling 
run-time errors. 


Figure 10.36 shows how an implementation of malloc and free might manage a (very) small heap of 
16 words for a C program. Each box represents a 4-byte word. The heavy-lined rectangles correspond 
to allocated blocks (shaded) and free blocks (unshaded). Initially the heap consists of a single 16-word 
double-word aligned free block. 


e Figure 10.36(a): The program asks for a 4-word block. Malloc responds by carving out a 4-word 
block from the front of the free block and returning a pointer to the first word of the block. 


e Figure 10.36(b): The program requests a 5-word block. Malloc responds by allocating a 6-word 
block from the front of the free block. In this example, malloc pads the block with an extra word in 
order to keep the free block aligned on a double-word boundary. 


e Figure 10.36(c): The program requests a 6-word block and malloc responds by carving out a 6-word 
block from the free block. 


Figure 10.36(d) The program frees the 6-word block that was allocated in Figure 10.36(b). Notice 
that after the call to free returns, the pointer p2 still points to the freed block. It is the responsibility 
of the application not to use p2 again until it is reinitialized by a new call to malloc. 


Figure 10.36(e): The program requests a 2-word block. In this case, malloc allocates a portion of 
the block that was freed in the previous step and returns a pointer to this new block. 


10.9.2 Why Dynamic Memory Allocation? 


The most important reason that programs use dynamic memory allocation is that often they do not know the 
sizes of certain data structures until the program actually runs. For example, suppose we are asked to write 
a C program that reads a list of n ASCII integers, one integer per line, from stdin into a C array. The 
input consists of the integer n, followed by the n integers to be read and stored into the array. The simplest 
approach is to define the array statically with some hard-coded maximum array size: 
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p1 


EE TT 


(a)pl = malloc (4*sizeof(int)) 


(b)p2 = malloc (5*sizeof (int)) 
pi p2 p3 
a LU 
(c)p3 = malloc(6*sizeof (int) ) 
pi p2 p3 
4 4 


(d) free (p2) 


(e)p4 = malloc(2*sizeof (int) ) 


Figure 10.36: Allocating and freeing blocks with malloc. Each square corresponds to a word. Each 
heavy rectangle corresponds to a block. Allocated blocks are shaded. Free blocks are unshaded. Heap 
addresses increase from left to right. 
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#include "csapp.h" 
#define MAXN 15213 


int array [MAXN]; 


int main () 
{ 


ant: i, nN; 


scanf("%Sd", &n); 
if (n > MAXN) 
app_error("Input file too big"); 
for (i = 0; i < n; i++) 
scanf ("%d", &array[il]); 
exit (0); 


Nn OF WN FP OO DAA DUO DUN H 


Allocating arrays with hard-coded sizes like this is often a bad idea. The value of MAXN is arbitrary and 
has no relation to the actual amount of available virtual memory on the machine. Further, if the user of 
this program wanted to read a file that was larger than MAXN, the only recourse would be to recompile 
the program with a larger value of MAXN. While not a problem for this simple example, the presence of 
hard-coded array bounds can become a maintenance nightmare for large software products with millions of 
lines of code and numerous users. 


A better approach is to allocate the array dynamically, at run time, after the value of n becomes known. With 
this approach, the maximum size of the array is limited only by the amount of available virtual memory. 


1 #include "csapp.h" 

2 

3 int main() 

4 { 

5 int *array, i, n; 

6 

7 scanf ("%d", &n); 

8 array = (int *)Malloc(n * sizeof (int)); 
9 for (i = 0; i < n; itt) 

10 scanf ("%d", &array[i]);}; 
11 exit (0); 


Dynamic memory allocation is a useful and important programming technique. However, in order to use 
allocators correctly and efficiently, programmers need to have an understanding of how they work. We will 
discuss some of the gruesome errors that can result from the improper use of allocators in Section 10.11. 


10.9.3 Allocator Requirements and Goals 


Explicit allocators must operate within some rather stringent constraints. 
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e Handling arbitrary request sequences. An application can make an arbitrary sequence of allocate and 
free requests, subject to the constraint that each free request must correspond to a currently allocated 
block obtained from a previous allocate request. Thus the allocator cannot make any assumptions 
about the ordering of allocate and free requests. For example, the allocator cannot assume that all 
allocate requests are accompanied by a matching free, or that matching allocate and free requests are 
nested. 


e Making immediate responses to requests. The allocator must respond immediately to allocate re- 
quests. Thus the allocator is not allowed to reorder or buffer requests in order to improve performance. 


e Using only the heap. In order for the allocator to be scalable, any non-scalar data structures used by 
the allocator must be stored in the heap itself. 


e Aligning blocks (alignment requirement). The allocator must align blocks in such a way that they can 
hold any type of data object. On most systems, this means that the block returned by the allocator is 
aligned on an eight-byte (double-word) boundary. 


e Not modifying allocated blocks. Allocators can only manipulate or change free blocks. In particular, 
they are not allowed to modify or move blocks once they are allocated. Thus, techniques such as 
compaction of allocated blocks are not permitted. 


Working within these constraints, the author of an allocator attempts to meet the often conflicting perfor- 
mance goals of maximizing throughput and memory utilization: 


e Goal 1: Maximizing throughput. Given some sequence of n allocate and free requests 
Ro, Ri,...,Ry,.--, Rn-1 


we would like to maximize an allocator’s throughput, which is defined as the number of requests that 
it completes per unit time. For example, if an allocator completes 500 allocate requests and 500 free 
requests in 1 second, then its throughput is 1,000 operations per second. In general we can maximize 
throughput by minimizing the average time to satisfy allocate and free requests. As we’ll see, it is not 
too difficult to develop allocators with reasonably good performance where the worst-case running 
time of an allocate request is linear in the number of free blocks and the running time of a free request 
is constant. 


e Goal 2: Maximizing memory utilization. Naive programmers often incorrectly assume that virtual 
memory is an unlimited resource. In fact, the total amount of virtual memory allocated by all of the 
processes in a system is limited by the amount of swap space on disk. Good programmers realize that 
virtual memory is a finite resource that must be used efficiently. This is especially true for a dynamic 
memory allocator that might be asked to allocate and free large blocks of memory. 


There are a number of ways to characterize how efficiently an allocator uses the heap. In our experi- 
ence, the most useful metric is peak utilization. As before, we are given some sequence of n allocate 
and free requests 

Ro, Ri,..., Rey... Rn-1 
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If an application requests a block of p bytes, then the resulting allocated block has a payload of p bytes. 
After request Rx has completed, let the aggregate payload, denoted P, be the sum of the payloads 
of the currently allocated blocks, and let H} denote the current (monotonically nondecreasing) size 
of the heap. 


Then the peak utilization over the first k requests, denoted by Ux, is given by 


maxj<z Pi 


m= 


The objective of the allocator then is to maximize the peak utilization U„—1 over the entire sequence. 
As we will see, there is a tension between maximizing throughput and utilization. In particular, it is 
easy to write an allocator that maximizes throughput at the expense of heap utilization. One of the 
interesting challenges in any allocator design is finding an appropriate balance between the two goals. 


Aside: Relaxing the monotonicity assumption. 
We could relax the monotonically nondecreasing assumption in our definition of U;, and allow the heap to grow up 
and down by letting H, be the highwater mark over the first k requests. End Aside. 


10.9.4 Fragmentation 


The primary cause of poor heap utilization is a phenomenon known as fragmentation, which occurs when 
otherwise unused memory is not available to satisfy allocate requests. There are two forms of fragmentation: 
internal fragmentation and external fragmentation. 


Internal fragmentation occurs when an allocated block is larger than the payload. This might happen for 
a number of reasons. For example, the implementation of an allocator might impose a minimum size on 
allocated blocks that is greater than some requested payload. Or, as we saw in Figure 10.36(b), the allocator 
might increase the block size in order to satisfy alignment constraints. 


Internal fragmentation is straightforward to quantify. It is simply the sum of the differences between the 
sizes of the allocated blocks and their payloads. Thus, at any point in time, the amount of internal fragmen- 
tation depends only on the pattern of previous requests and the allocator implementation. 


External fragmentation occurs when there is enough aggregate free memory to satisfy an allocate request, 
but no single free block is large enough to handle the request. For example, if the request in Figure 10.36(e) 
were for six words rather than two words, then the request could not be satisfied without requesting addi- 
tional virtual memory from the kernel, even though there are six free words remaining in the heap. The 
problem arises because these six words are spread over two free blocks. 


External fragmentation is much more difficult to quantify than internal fragmentation because it depends not 
only on the pattern of previous requests and the allocator implementation, but also on the pattern of future 
requests. For example, suppose that after k requests, all of the free blocks are exactly four words in size. 
Does this heap suffer from external fragmentation? The answer depends on the pattern of future requests. 
If all of the future allocate requests are for blocks that are smaller than four words, then there is no external 
fragmentation. On the other hand, if one or more requests ask for blocks larger than four words, then the 
heap does suffer from external fragmentation. 
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Since external fragmentation is difficult to quantify and impossible to predict, allocators typically employ 
heuristics that attempt to maintain small numbers of larger free blocks rather than large numbers of smaller 
free blocks. 


10.9.5 Implementation Issues 


The simplest imaginable allocator would organize the heap as a large array of bytes and a pointer p that 
initially points to the first byte of the array. To allocate size bytes, malloc would save the current value 
of p on the stack, increment p by size, and return the old value of p to the caller. Free would simply 
return to the caller without doing anything. 


This naive allocator is an extreme point in the design space. Since each malloc and free execute only 
a handful of instructions, throughput would be extremely good. However, since the allocator never reuses 
any blocks, memory utilization would be extremely bad. A practical allocator that strikes a better balance 
between throughput and utilization must consider the following issues: 


e Free block organization: How do we keep track of free blocks? 
e Placement: How do we choose an appropriate free block in which to place a newly allocated block? 


e Splitting: After we place a newly allocated block in some free block, what do we do with the remain- 
der of the free block? 


e Coalescing: What do we do with a block that has just been freed? 


The rest of this section looks at these issues in more detail. Since the basic techniques of placement, splitting, 
and coalescing cut across many different free block organizations, we will introduce them in the context of 
a simple free block organization known as an implicit free list. 


10.9.6 Implicit Free Lists 


Any practical allocator needs some data structure that allows it to distinguish block boundaries and to distin- 
guish between allocated and free blocks. Most allocators embed this information in the blocks themselves. 
One simple approach is shown in Figure 10.37. 


In this case, a block consists of a one-word header, the payload, and possibly some additional padding. 
The header encodes the block size (including the header and any padding) as well as whether the block is 
allocated or free. If we impose a double-word alignment constraint, then the block size is always a multiple 
of eight and the three low-order bits of the block size are always zero. Thus, we need to store only the 29 
high-order bits of the block size, freeing the remaining three bits to encode other information. In this case, 
we are using the least significant of these bits (the allocated bit) to indicate whether the block is allocated 
or free. For example, suppose we have an allocated block with a block size of 24 (0x18) bytes. Then its 
header would be 


0x00000018 | 0x1 = 0x00000019. 


Similarly, a free block with a block size of 40 (0x28) bytes would have a header of 
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31 header 321 0 
malloc returns a block size 00a } a z i n 
pointer to the beginning a = U: tree 
of the payload 
payload The block size includes 
(allocated block only) the header, payload, and 
any padding. 
padding (optional) 


Figure 10.37: Format of a simple heap block. 


0x00000028 | 0x0 = 0x00000028. 


The header is followed by the payload that the application requested when it called malloc. The payload is 
followed by a chunk of unused padding that can be any size. There are a number of reasons for the padding. 
For example, the padding might be part of an allocator’s strategy for combating external fragmentation. Or 
it might be needed to satisfy the alignment requirement. 


Given the block format in Figure 10.37, we can organize the heap as a sequence of contiguous allocated and 
free blocks, as shown in Figure 10.38. 


1 double- 
| word 
' aligned 


ON ZZENNENEN Z 


Figure 10.38: Organizing the heap with an implicit free list. Allocated blocks are shaded. Free blocks 
are unshaded. Headers are labeled with (size (bytes)/allocated bit). 


We call this organization an implicit free list because the free blocks are linked implicitly by the size fields in 
the headers. The allocator can indirectly traverse the entire set of free blocks by traversing all of the blocks 
in the heap. Notice that we need some kind of specially marked end block, in this example a terminating 
header with the allocated bit set and a size of zero. (As we will see in Section 10.9.12, setting the allocated 
bit simplifies the coalescing of free blocks.) 


The advantage of an implicit free list is simplicity. A significant disadvantage is that the cost of any opera- 
tion, such as placing allocated blocks, that requires a search of the free list will be linear in the total number 
of allocated and free blocks in the heap. 


It is important to realize that the system’s alignment requirement and the allocator’s choice of block format 
impose a minimum block size on the allocator. No allocated or free block may be smaller than this minimum. 
For example, if we assume a double-word alignment requirement, then the size of each block must be a 
multiple of two words (8 bytes). Thus, the block format in Figure 10.37 induces a minimum block size 
of two words: one word for the header, and another to maintain the alignment requirement. Even if the 
application were to request a single byte, the allocator would still create a two-word block. 
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Practice Problem 10.6: 


Determine the block sizes and header values that would result from the following sequence of malloc 
requests. Assumptions: (1) The allocator maintains double-word alignment, and uses an implicit free 
list with the block format from Figure 10.37. (2) Block sizes are rounded up to the nearest multiple of 
eight bytes. 


| Request || Block size (decimal bytes) | Block header (hex) 


malloc(12) 
malloc (13) 


10.9.7 Placing Allocated Blocks 


When an application requests a block of k bytes, the allocator searches the free list for a free block that 
is large enough to hold the requested block. The manner in which the allocator performs this search is 
determined by the placement policy. Some common policies are first fit, next fit, and best fit. 


First fit searches the free list from the beginning and chooses the first free block that fits. Next fit is similar 
to first fit, but instead of starting each search at the beginning of the list, it starts each search where the 
previous search left off. Best fit examines every free block and chooses the free block with the smallest size 
that fits. 


An advantage of first fit is that it tends to retain large free blocks at the end of the list. A disadvantage is that 
it tends to leave “splinters” of small free blocks towards the beginning of the list, which will increase the 
search time for larger blocks. Next fit was first proposed by Knuth as an alternative to first fit, motivated by 
the idea that if we found a fit in some free block the last time, there is a good chance that the we will find a 
fit the next time in the remainder of the block. Next fit can run significantly faster than first fit, especially if 
the front of the list becomes littered with many small splinters. However, some studies suggest that next fit 
suffers from worse memory utilization than first fit. Studies have found that best fit generally enjoys better 
memory utilization than either first fit or next fit. However, the disadvantage of using best fit with simple 
free list organizations such as the implicit free list, is that it requires an exhaustive search of the heap. Later, 
we will look at more sophisticated segregated free list organizations that implement a best-fit policy without 
an exhaustive search of the heap. 


10.9.8 Splitting Free Blocks 


Once the allocator has located a free block that fits, it must make another policy decision about how much 
of the free block to allocate. One option is to use the entire free block. Although simple and fast, the main 
disadvantage is that it introduces internal fragmentation. If the placement policy tends to produce good fits, 
then some additional internal fragmentation might be acceptable. 


However, if the fit is not good, then the allocator will usually opt to split the free block into two parts. The 
first part becomes the allocated block, and the remainder becomes a new free block. Figure 10.39 shows 
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how the allocator might split the eight-word free block in Figure 10.38 to satisfy an application’s request for 
three words of heap memory. 


1 double 
1 word 
' aligned 


Ai N wo OS 
s/o] from] | | from] | | fool | | font | | fe 


Figure 10.39: Splitting a free block to satisfy a three-word allocation request. Allocated blocks are 
shaded. Free blocks are unshaded. Headers are labeled with (size (bytes)/allocated bit). 


10.9.9 Getting Additional Heap Memory 


What happens if the allocator is unable to find a fit for the requested block? One option is to try to create 
some larger free blocks by merging (coalescing) free blocks that are physically adjacent in memory (next 
section). However, if this does not yield a sufficiently large block, or if the free blocks are already maximally 
coalesced, then the allocator asks the kernel for additional heap memory, either by calling the mmap or sbrk 
functions. In either case, the allocator transforms the additional memory into one large free block, inserts 
the block into the free list, and then places the requested block in this new free block. 


10.9.10 Coalescing Free Blocks 


When the allocator frees an allocated block, there might be other free blocks that are adjacent to the newly 
freed block. Such adjacent free blocks can cause a phenomenon known as false fragmentation, where there 
is a lot of available free memory chopped up into small, unusable free blocks. For example, Figure 10.40 
shows the result of freeing the block that was allocated in Figure 10.39. The result is two adjacent free 
blocks with payloads of three words each. As a result, a subsequent request for a payload of four words 
would fail, even though the aggregate size of the two free blocks is large enough to satisfy the request. 


1 double 
| word 
' aligned 


s/o] from] | | fool | | fool | | fon] | a 


Figure 10.40: An example of false fragmentation. Allocated blocks are shaded. Free blocks are unshaded. 
Headers are labeled with (size (bytes)/allocated bit). 


To combat false fragmentation, any practical allocator must merge adjacent free blocks in a process known 
as coalescing. This raises an important policy decision about when to perform coalescing. The allocator can 
opt for immediate coalescing by merging any adjacent blocks each time a block is freed. Or it can opt for 
deferred coalescing by waiting to coalesce free blocks at some later time. For example, the allocator might 
defer coalescing until some allocation request fails, and then scan the entire heap, coalescing all free blocks. 
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Immediate coalescing is straightforward and can be performed in constant time, but with some request 
patterns it can introduce a form of thrashing where a block is repeatedly coalesced and then split soon 
thereafter. For example, in Figure 10.40 a repeated pattern of allocating and freeing a three-word block 
would introduce a lot of unnecessary splitting and coalescing. In our discussion of allocators, we will 
assume immediate coalescing, but you should be aware that fast allocators often opt for some form of 
deferred coalescing. 


10.9.11 Coalescing with Boundary Tags 


How does an allocator implement coalescing? Let us refer to the block we want to free as the current block. 
Then coalescing the next free block (in memory) is straightforward and efficient. The header of the current 
block points to the header of the next block, which can be checked to determine if the next block is free. If 
SO, its size is simply added to the size of the current header and the blocks are coalesced in constant time. 


But how would we coalesce the previous block? Given an implicit free list of blocks with headers, the only 
option would be to search the entire list, remembering the location of the previous block, until we reached 
the current block. With an implicit free list, this means that each call to free would require time linear 
in the size of the heap. Even with more sophisticated free list organizations, the search time would not be 
constant. 


Knuth developed a clever and general technique, known as boundary tags, that allows for constant-time 
coalescing of the previous block. The idea, which is shown in Figure 10.41, is to add a footer (the boundary 
tag) at the end of each block, where the footer is a replica of the header. If each block includes such a 
footer, then the allocator can determine the starting location and status of the previous block by inspecting 
its footer, which is always one word away from the start of the current block. 


31 3.21 g 


block size a/ 


header 


a 


payload 
(allocated block only) 


padding (optional) 


block size a/f | footer 


Figure 10.41: Format of heap block that uses a boundary tag. 


Consider all the cases that can exist when the allocator frees the current block: 


1. The previous and next blocks are both allocated. 
2. The previous block is allocated and the next block is free. 


3. The previous block is free and the next block is allocated. 
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4. The previous and next blocks are both free. 


Figure 10.42 shows how we would coalesce each of the four cases. 


Figure 10.42: Coalescing with boundary tags. Case 1: prev and next allocated. Case 2: prev allocated, 
next free. Case 3: prev free, next allocated. Case 4: next and prev free. 


In Case 1, both adjacent blocks are allocated and thus no coalescing is possible. So the status of the current 
block is simply changed from allocated to free. In Case 2, the current block is merged with the next block. 
The header of the current block and the footer of the next block are updated with the combined sizes of the 
current and next blocks. In Case 3, the previous block is merged with the current block. The header of the 
previous block and the footer of the current block are updated with the combined sizes of the two blocks. In 
Case 4, all three blocks are merged to form a single free block, with the header of the previous block and the 
footer of the next block updated with the combined sizes of the three blocks. In each case, the coalescing is 
performed in constant time. 


The idea of boundary tags is a simple and elegant one that generalizes to many different types of allocators 
and free list organizations. However, there is a potential disadvantage. Requiring each block to contain 
both a header and a footer can introduce significant memory overhead if an application manipulates many 
small blocks. For example, if a graph application dynamically creates and destroys graph nodes by making 
repeated calls to malloc and free, and each graph node requires only a couple of words of memory, then 
the header and the footer will consume half of each allocated block. 


Fortunately, there is a clever optimization of boundary tags that eliminates the need for a footer in allocated 
blocks. Recall that when we attempt to coalesce the current block with the previous and next blocks in 
memory, the size field in the footer of the previous block is only needed if the previous block is free. If we 
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were to store the allocated/free bit of the previous block in one of the excess low-order bits of the current 
block, then allocated blocks would not need footers, and we could use that extra space for payload. Note 
however, that free blocks still need footers. 


Practice Problem 10.7: 


Determine the minimum block size for each of the following combinations of alignment requirements 
and block formats. Assumptions: Implicit free list, zero-sized payloads are not allowed, and headers and 
footers are stored in four-byte words. 


Allocated block Free block | Minimum block size (bytes) 


Single-word | Header and footer | Header and footer | = | 
Single-word | Header, but no footer | Header and footer | O 


Double-word | Header and footer | Header and footer | O S 
Double-word | Header, but no footer | Header and footer | | 


10.9.12 Putting it Together: Implementing a Simple Allocator 


Building an allocator is a challenging task. The design space is large, with numerous alternatives for block 
format, free list format, and placement, splitting, and coalescing policies. Another challenge is that you are 
often forced to program outside the safe, familiar confines of the type system, relying on the error-prone 
pointer casting and pointer arithmetic that is typical of low-level systems programming. While allocators 
do not require enormous amounts of code, they are subtle and unforgiving. Students familiar with higher- 
level languages such as C++ or Java often hit a conceptual wall when they first encounter this style of 
programming. To help you clear this hurdle, we will work through the implementation of a simple allocator 
based on an implicit free list with immediate boundary-tag coalescing. 


General Allocator Design 


Our allocator uses a model of the memory system provided by the memlib.c package shown in Fig- 
ure 10.43. The purpose of the model is to allow us to run our allocator without interfering with the existing 
system-level malloc package. The mem_init function models the virtual memory available to the heap 
as a large, double-word aligned array of bytes. The bytes between mem_st art_brk and mem_brk repre- 
sent allocated virtual memory. The bytes following mem_brk represent unallocated virtual memory. The 
allocator requests additional heap memory by calling the mem_sbrk function, which has the same interface 
as the system’s sbrk function, and the same semantics, except that it rejects requests to shrink the heap. 


The allocator itself is contained in a source file (malloc.c) that users can compile and link into their 
applications. The allocator exports three functions to application programs: 


1 int mm_init (void); 
2 void *mm_malloc(size_t size); 
3 void mm_free(void *bp); 
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code/vm/memlib.c 


#include "csapp.h" 


/* private global variables */ 
static void *mem_start_brk; /* points to first byte of the heap */ 


1 
2 
3 
4 
5 static void *mem_brk; /* points to last byte of the heap */ 

6 static void *mem_max_addr; /* max virtual address for the heap */ 

7 

g /* 

9 * mem_init - initializes the memory system model 
o */ 

1 void mem_init (int size) 

2 { 

3 mem_start_brk = (void *)Malloc(size); /* models available VM */ 

4 mem_brk = mem_start_brk; /* heap is initially empty */ 
5 mem_max_addr = mem_start_brk + size; /* max VM address for heap */ 

6 } 

7 
3 /* 

9 * mem_sbrk - simple model of the the sbrk function. Extends the heap 
20. 站 by incr bytes and returns the start address of the new area. In 
2 于 * this model, the heap cannot be shrunk. 

22 */ 

23 void *mem_sbrk (int incr) 

24 { 

25 void *old_brk = mem_brk; 
26 

27 if ( (incr < 0) || ((mem brk + incr) > mem_max_addr)) { 
28 errno = ENOMEM; 

29 return (void *)-1; 
30 } 

31 mem_brk += incr; 

32 return old_brk; 

33 } 


code/vm/memlib.c 


Figure 10.43: memlib.c: Memory system model. 
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The mm_init function initializes the allocator, returning 0 if successful and -1 otherwise. The mm malloc 
and mm_free functions have the same interfaces and semantics as their system counterparts. The allocator 
uses the block format shown in Figure 10.41. The minimum block size is 16 bytes. The free list is organized 
as an implicit free list, with the invariant form shown in Figure 10.44. 


prologue regular regular regular epilogue 
block block 1 block 2 block n block hdr 
eke 一 全 
start ; double- 
heap "aligned 


static void *heap_listp 


Figure 10.44: Invariant form of the implicit free list. 


The first word is an unused padding word aligned to a double-word boundary. The padding is followed by 
a special prologue block, which is an eight-byte allocated block consisting of only a header and a footer. 
The prologue block is created during initialization and is never freed. Following the prologue block are 
zero or more regular blocks that are created by calls to malloc or free. The heap always ends with a 
special epilogue block, which is a zero-sized allocated block that consists of only a header. The prologue 
and epilogue blocks are tricks that eliminate the edge conditions during coalescing. The allocator uses a 
single private (st atic) global variable (heap_listp) that always points to the prologue block. (As a 
minor optimization, we could make it point to the next block instead of the prologue block.) 


Basic Constants and Macros for Manipulating the Free List 


Figure 10.45 shows some basic constants that we will use throughout the allocator code. Lines 2-5 define 
some basic size constants: the sizes of words (WSIZE) and double-words (DSIZE), the size of the initial 
free block and the default size for expanding the heap (CHUNKSIZE), and the number of overhead bytes 
consumed by the header and footer (OVERHEAD). 


Manipulating the headers and footers in the free list can be troublesome because it demands extensive use 
of casting and pointer arithmetic. Thus, we find it helpful to define a small set of macros for accessing and 
traversing the free list (lines 10-26). The PACK macro (line 10) combines a size and an allocate bit and 
returns a value that can be stored in a header or footer. 


The GET macro (line 13) reads and returns the word referenced by argument p. The casting here is crucial. 
The argument p is typically a(void *) pointer, which cannot be dereferenced directly. Similarly, the PUT 
macro (line 14) stores val in the word pointed at by argument p. 


The GET_SIZE and GET_ALLOC macros (lines 17—18) return the size and allocated bit, respectively, from 
a header or footer at address p. The remaining macros operate on block pointers (denoted bp), that point to 
the first payload byte. Given a block pointer bp, the HDRP and FTRP macros (lines 21—22) return pointers 
to the block header and footer, respectively. The NEXT_BLKP and PREV_BLKP macros (lines 25-26) 
return the block pointers of the next and previous blocks, respectively. 


The macros can be composed in various ways to manipulate the free list. For example, given a pointer bp to 
the current block, we could use the following line of code to determine the size of the next block in memory: 
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code/vm/malloc.c 


1 /* Basic constants and macros */ 

2 #define WSIZE 4 /* word size (bytes) */ 

3 #define DSIZE 8 /* doubleword size (bytes) */ 

4 #define CHUNKSIZE (1<<12) /* initial heap size (bytes) */ 

5 #define OVERHEAD 8 /* overhead of header and footer (bytes) */ 

6 

7 #define MAX(x, y) ((x) > (y)? (x) : (y)) 

8 

9 /* Pack a size and allocated bit into a word */ 

0 #define PACK(size, alloc) ( (size) | (alloc) ) 

1 

2 /* Read and write a word at address p */ 

3 #define GET (p) (*(size_t *) (p)) 

4 #define PUT(p, val) (*(size_t *) (p) = (val)) 

5 

6 /* Read the size and allocated fields from address p */ 

7 #define GET_SIZE(p) (GET(p) & ~0x7) 

8 #define GET_ALLOC(p) (GET(p) & 0x1) 

9 

20 /* Given block ptr bp, compute address of its header and footer */ 

21 #define HDRP (bp) ((void *) (bp) - WSIZE) 

22 #define FTRP (bp) ( (void *) (bp) + GET_SIZE(HDRP (bp)) - DSIZE) 

23 

24 /* Given block ptr bp, compute address of next and previous blocks */ 

25 #define NEXT_BLKP (bp) ((void *) (bp) + GET_SIZE(((void *) (bp) - WSIZE))) 

26 #define PREV_BLKP (bp) ( (void *) (bp) = GET_SIZE(((void *) (bp) = DSIZE))) 
code/vm/malloc.c 


Figure 10.45: Basic constants and macros for manipulating the free list. 
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size_t size = GET_SIZE(HDRP (NEXT_BLKP (bp) ) ); 


Creating the Initial Free List 


Before calling mm malloc or mm_free, the application must initialize the heap by calling the mm_init 
function (Figure 10.46). The mm_init function gets four words from the memory system and initializes 


code/vm/malloc.c 


1 int mm_init (void) 

2 { 

3 /* create the initial empty heap */ 

4 if ((heap_listp = mem_sbrk (4*WSIZE)) == NULL) 
5 return -1; 

6 PUT (heap_listp, 0); /* alignment padding */ 
7 PUT (heap_listp+WSIZE, PACK (OVERHEAD, 1))j; /* prologue header */ 

8 PUT (heap_listp+DSIZE, PACK (OVERHEAD, 1))j; /* prologue footer */ 

9 PUT (heap_listp+WSIZE+DSIZE, PACK(0, 1)); /* epilogue header */ 
0 

1 

2 

3 

4 

5 

6 


heap_listp += DSIZE; 


/* Extend the empty heap with a free block of CHUNKSIZE bytes */ 
if (extend_heap (CHUNKSIZE/WSIZE) == NULL) 

return -1; 
return 0; 


} 
code/vm/malloc.c 


Figure 10.46: mm_init: Creates a heap with an initial free block. 


them to create the empty free list (lines 4-10). It then calls the extend_heap function (Figure 10.47), 
which extends the heap by CHUNKSIZE bytes and creates the initial free block. At this point, the allocator 
is initialized and ready to accept allocate and free requests from the application. 


The extend_heap function is invoked in two different circumstances: (1) when the heap is initialized, and 
(2) when mm_malloc is unable to find a suitable fit. To maintain alignment, ext end_heap rounds up the 
requested size to the nearest multiple of 2 words (8 bytes), and then requests the additional heap space from 
the memory system (lines 7-9). 


The remainder of the extend_heap function (lines 12-17) is somewhat subtle. The heap begins on a 
double-word aligned boundary, and every call to ext end_heap returns a block whose size is an integral 
number of double-words. Thus, every call to mem_sbrk returns a double-word aligned chunk of memory 
immediately following the header of the epilogue block. This header becomes the header of the new free 
block (line 12), and the last word of the chunk becomes the new epilogue block header (line 14). Finally, 
in the likely case that the previous heap was terminated by a free block, we call the coalesce function to 
merge the two free blocks and return the block pointer of the merged blocks (line 17). 
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code/vm/malloc.c 


/* Coalesce if the previous block was free */ 
return coalesce (bp); 


1 static void *extend_heap (size_t words) 

2 { 

3 char *bp; 

4 size_t size; 

5 

6 /* Allocate an even number of words to maintain alignment */ 

7 size = (words % 2) ? (words+1) * WSIZE : words * WSIZE; 

8 if ((int) (bp = mem_sbrk(size)) < 0) 

9 return NULL; 

0 

1 /* Initialize free block header/footer and the epilogue header */ 
2 PUT (HDRP (bp), PACK (size, 0)); /* free block header */ 

3 PUT (FTRP (bp), PACK (size, 0)); /* free block footer */ 

4 PUT (HDRP (NEXT_BLKP (bp)), PACK(0, 1)); /* new epilogue header */ 
5 

6 

7 

8 


code/vm/malloc.c 


Figure 10.47: ext end_heap: Extends the heap with a new free block. 


Freeing and Coalescing Blocks 


An application frees a previously allocated block by calling the mm_free function (Figure 10.48), which 
frees the requested block (bp), and then merges adjacent free blocks using the boundary-tags coalescing 
technique described in Section 10.9.11. 


The code in the coalesce helper function is a straightforward implementation of the four cases outlined in 
Figure 10.42. There is one somewhat subtle aspect. The free list format we have chosen — with its prologue 
and epilogue blocks that are always marked as allocated — allows us to ignore the potentially troublesome 
edge conditions where the requested block bp is at the beginning or end of the heap. Without these special 
blocks, the code would be messier, more error-prone, and slower because we would have to check for these 
rare edge conditions on each and every free request. 


Allocating Blocks 


An application requests a block of size bytes of memory by calling the mm malloc function (Fig- 
ure 10.49). After checking for spurious requests (lines 8—9), the allocator must adjust the requested block 
size to allow room for the header and the footer, and to satisfy the double-word alignment requirement. 
Lines 12-13 enforce the minimum block size of 16 bytes: eight (DSIZE) bytes to satisfy the alignment re- 
quirement, and eight more (OVERHEAD) for the header and footer. For requests over eight bytes (line 15), 
the general rule is to add in the overhead bytes and then round up to the nearest multiple of eight (DSIZE). 


Once the allocator has adjusted the requested size, it searches the free list for a suitable free block (line 18). 
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code/vm/malloc.c 


1 void mm_free(void *bp) 

2 { 

3 size_t size = GET_SIZE(HDRP (bp) ); 

4 

5 PUT (HDRP (bp), PACK (size, 0)); 

6 PUT(FTRP (bp), PACK(size, 0)); 

7 coalesce (bp); 

8 } 

9 

0 static void *coalesce(void *bp) 

1.4 

2 size_t prev_alloc = GET_ALLOC (FTRP (PREV_BLKP (bp) ) ) ; 
3 size_t next_alloc = GET_ALLOC (HDRP (NEXT_BLKP (bp) )); 
4 size_t size = GET_SIZE(HDRP (bp) ); 

5 

6 if (prev_alloc && next_alloc) { /* Case 1 */ 
7 return bp; 

8 } 

9 

20 else if (prev_alloc && !next_alloc) { /* Case 2 */ 
21 size += GET_SIZE(HDRP (NEXT_BLKP (bp) )); 

22 PUT (HDRP (bp), PACK (size, 0)); 

23 PUT (FTRP (bp), PACK(size,0)); 

24 return (bp); 

25 } 

26 

27 else if (!prev_alloc && next_alloc) { /* Case 3 */ 
28 size += GET_SIZE(HDRP (PREV_BLKP (bp) )); 

29 PUT (FTRP (bp), PACK (size, 0)); 

30 PUT (HDRP (PREV_BLKP (bp) ), PACK (size, 0)); 

31 return (PREV_BLKP (bp) ) ; 

32 } 

33 

34 else { /* Case 4 */ 
35 size += GET_SIZE(HDRP (PREV_BLKP (bp))) + 

36 GET_SIZE (FTRP (NEXT_BLKP (bp) ) ); 

37 PUT (HDRP (PREV_BLKP (bp)), PACK (size, 0)); 

38 PUT (FTRP (NEXT_BLKP (bp)), PACK(size, 0)); 

39 return (PREV_BLKP (bp) ) ; 

40 } 

41 } 


code/vm/malloc.c 


Figure 10.48: mm_free: Frees a block and uses boundary-tag coalescing to merge it with any adjacent 
free blocks in constant time. 
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/* adjusted block size */ 


char *bp; 


/* Ignore spurious 


requests */ 


if (size <= 0) 
return NULL; 


/* amount to extend heap if no fit */ 


code/vm/malloc.c 


/* Adjust block size to include overhead and alignment reqs. */ 


if (size <= DSIZE) 

asize = DSIZE + OVERHEAD; 
else 

asize = DSIZE * ((size + 


/* Search 
if ((bp = 
place (bp, 


asize); 


return bp; 


/* No fit found. Get more memory and place the block */ 


extendsize = 
if ((bp = 


(OVERHEAD ) 


the free list for a fit */ 


find_fit(asize)) != NULL) { 


MAX (asize, CHUNKSIZI 


E); 


extend_heap (extendsize/WSIZE) ) 


return NULL; 


place (bp, 
return bp; 


Figure 10.49: mm_malloc: Allocates a block from the free list. 
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code/vm/malloc.c 
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If there is a fit, then the allocator places the requested block and optionally splits the excess (line 19), and 
then returns the address of the newly allocated block (line 20). 


If the allocator cannot find a fit, then it extends the heap with a new free block (lines 24-26), places the 


requested block in the new free block and optionally splitting the block (line 27), and then return a pointer 
to the newly allocated block (line 28). 


Practice Problem 10.8: 


Implement a find_fit function for the simple allocator described in Section 10.9.12. 
static void *find_fit (size_t asize) 


Your solution should perform a first-fit search of the implicit free list. 


Practice Problem 10.9: 


Implement a place function for the example allocator. 
static void place(void *bp, size_t asize) 


Your solution should place the requested block at the beginning of the free block, splitting only if the 
size of the remainder would equal or exceed the minimum block size. 


10.9.13 Explicit Free Lists 


The implicit free list provides us with a simple way to introduce some basic allocator concepts. However, 
because block allocation is linear in the total number of heap blocks, the implicit free list is not appropriate 
for a general-purpose allocator (although it might be fine for a special-purpose allocator where the number 
of heap blocks is known beforehand to be small). 


A better approach is to organize the free blocks into some form of explicit data structure. Since by definition 
the body of a free block is not needed by the program, the pointers that implement the data structure can 
be stored within the bodies of the free blocks. For example, the heap can be organized as a doubly-linked 
free list by including a pred (predecessor) and succ (successor) pointer in each free block, as shown in 
Figure 10.50. 


Using a doubly-linked list instead of an implicit free list reduces the first fit allocation time from linear in 
the total number of blocks to linear in the number of free blocks. However, the time to free a block can be 
either linear or constant, depending on the policy we choose for ordering the blocks in the free list. 


One approach is to maintain the list in last-in first-out (LIFO) order by inserting newly freed blocks at the 
beginning of the list. With a LIFO ordering and a first fit placement policy, the allocator inspects the most 
recently used blocks first. In this case, freeing a block can be performed in constant time. If boundary tags 
are used, then coalescing can also be performed in constant time. 


Another approach is to maintain the list in address order, where the address of each block in the list is less 
than the address of its successor. In this case, freeing a block requires a linear-time search to locate the 
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31 321 0 31 321 0 
block size a/f | header block size a/f | header 
pred (predecessor) 
succ (successor 
payload ( ) old payload 

padding (optional) padding (optional) 

block size a/f | footer block size a/f | footer 

(a) Allocated block (b) Free block 


Figure 10.50: Format of heap blocks that use doubly-linked free lists. 


appropriate predecessor. The trade-off is that address-ordered first fit enjoys better memory utilization than 
LIFO-ordered first fit, approaching the utilization of best fit. 


A disadvantage of explicit lists in general is that free blocks must be large enough to contain all of the 
necessary pointers, as well as the header and possibly a footer. This results in a larger minimum block size, 
and potentially the degree of internal fragmentation. 


10.9.14 Segregated Free Lists 


As we have seen, an allocator that uses a single linked list of free blocks requires time linear in the number 
of free blocks to allocate a block. A popular approach for reducing the allocation time, known generally as 
segregated storage, is to maintain multiple free lists, where each list holds blocks that are roughly the same 
size. 


The general idea is to partition the set of all possible block sizes into equivalence classes called size classes. 
There are many ways to define the size classes. For example, we might partition the block sizes by powers 
of two: 


{1}, {2}, {3, 4}, {5 — 8}, ---, {1025 - 2048}, {2049 — 4096}, {4097 — oo} 
Or we might assign small blocks to their own size classes and partition large blocks by powers of two: 
{1}, {2}, {3}, +--+, {1023}, {1024}, ---, {1025 — 2048}, {2049 — 4096}, {4097 — co} 


The allocator maintains an array of free lists, with one free list per size class, ordered by increasing size. 
When the allocator needs a block of size n, it searches the appropriate free list. If it cannot find a block that 
fits, it searches the next list, and so on. 


The dynamic storage allocation literature describes dozens of variants of segregated storage that differ in 
how they define size classes, when they perform coalescing, when they request additional heap memory 
from the operating system, whether they allow splitting, and so forth. To give you a sense of what is 
possible, we will describe two of the basic approaches: simple segregated storage and segregated fits. 
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Simple Segregated Storage 


With simple segregated storage, the free list for each size class contains same-sized blocks, each the size of 
the largest element of the size class. For example, if some size class is defined as {17 — 32}, then the free 
list for that class consists entirely of blocks of size 32. 


To allocate a block of some given size, we check the appropriate free list. If the list is not empty, we simply 
allocate the first block in its entirety. Free blocks are never split to satisfy allocation requests. If the list is 
empty, the allocator requests a fixed-sized chunk of additional memory from the operating system (typically 
a multiple of the page size), divides the chunk into equal-sized blocks, and links the blocks together to form 
the new free list. To free a block, the allocator simply inserts the block at the front of the appropriate free 
list. 


There are a number of advantages to this simple scheme. Allocating and freeing blocks are both fast 
constant-time operations. Further, the combination of the same-sized blocks in each chunk, no splitting, 
and no coalescing means that there is very little per-block memory overhead. Since each chunk has only 
same-sized blocks, the size of an allocated block can be inferred from its address. Since there is no co- 
alescing, allocated blocks do not need an allocated/free flag in the header. Thus allocated blocks require 
no headers, and since there is no coalescing, they do not require any footers either. Since allocate and free 
operations insert and delete blocks at the beginning of the free list, the list need only be singly-linked instead 
of doubly-linked. The bottom line is that the only required field in any block is a one-word succ pointer in 
each free block, and thus the minimum block size is only one word. 


A significant disadvantage is that simple segregated storage is susceptible to internal and external fragmenta- 
tion. Internal fragmentation is possible because free blocks are never split. Worse, certain reference patterns 
can cause extreme external fragmentation because free blocks are never coalesced (Problem 10.10). 


Researchers have proposed a crude form of coalescing to combat external fragmentation. The allocator 
keeps track of the number of free blocks in each memory chunk returned by the operating system. Whenever 
a chunk consists entirely of free blocks, the allocator removes the chunk from its current size class and makes 
it available for other size classes. 


Practice Problem 10.10: 


Describe a reference pattern that results in severe external fragmentation in an allocator based on simple 
segregated storage. 


Segregated Fits 


With this approach, the allocator maintains an array of free lists. Each free list is associated with a size class 
and is organized as some kind of explicit or implicit list. Each list contains potentially different-sized blocks 
whose sizes are members of the size class. There are many variants of segregated fits allocators. Here we 
describe a simple version. 


To allocate a block, we determine the size class of the request and do a first-fit search of the appropriate free 
list for a block that fits. If we find one, then we (optionally) split it and insert the fragment in the appropriate 
free list. If we cannot find a block that fits, then we search the free list for the next larger size class. We 
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repeat until we find a block that fits. If none of free lists yields a block that fits, then we request additional 
heap memory from the operating system, allocate the block out of this new heap memory, and place the 
remainder in the largest size class. To free a block, we coalesce and place the result on the appropriate free 
list. 


The segregated fits approach is a popular choice with production-quality allocators such as the GNU mal- 
loc package provided in the C standard library because it is both fast and memory efficient. Search times 
are reduced because searches are limited to particular parts of the heap instead of the entire heap. Memory 
utilization can improve because of the interesting fact that a simple first-fit search of a segregated free list 
approximates a best-fit search of the entire heap. 


Buddy Systems 


A buddy system is a special case of segregated fits where each size class is a power of two. The basic idea 
is that given a heap of 2” words, we maintain a separate free list for each block size 2", where 0 < k < m. 
Requested block sizes are rounded up to the nearest power of two. Originally, there is one free block of size 
2™ words. 


To allocate a block of size 2*, we find the first available block of size 2’, such that k <j<m.Ifj=k, 
then we are done. Otherwise we recursively split the block in half until j = k. As we perform this splitting, 
each remaining half (known as a buddy), is placed on the appropriate free list. To free a block of size 2", we 
continue coalescing with the free. When we encounter a allocated buddy, we stop the coalescing. 


A key fact about buddy systems is that given the address and size of a block, it is easy to compute the address 
of its buddy. For example, a block of size 32 byes with address 


XXX. ..x00000 
has its buddy at address 
XXX. ..x10000 


In other words, the addresses of a block and its buddy differ in exactly one bit position. 


The major advantage of a buddy system allocator is its fast searching and coalescing. The major disadvan- 
tage is that the power-of-two requirement on the block size can cause significant internal fragmentation. 
For this reason, buddy system allocators are not appropriate for general-purpose workloads. However, for 
certain application-specific workloads, where the block sizes are known in advance to be powers of two, 
buddy system allocators have a certain appeal. 


10.10 Garbage Collection 


With an explicit allocator such as the C malloc package, an application allocates and frees heap blocks by 
making calls to malloc and free. It is the application’s responsibility to free any allocated blocks that it 
no longer needs. 
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Failing to free allocated blocks is a common programming error. For example, consider the following C 
function that allocates a block of temporary storage as part of its processing. 


1 void garbage () 

2 { 

3 int *p = (int *)Malloc(15213); 

4 

5 return; /* array p is garbage at this point */ 
6 } 


Since p is no longer needed by the program, it should have been freed before foo returned. Unfortu- 
nately, the programmer has forgotten to free the block. It remains allocated for the lifetime of the program, 
needlessly occupying heap space that could be used to satisfy subsequent allocation requests. 


A garbage collector is a dynamic storage allocator that automatically frees allocated blocks that are no 
longer needed by the program. Such blocks are known as garbage and hence the term garbage collector. 
The process of automatically reclaiming heap storage is known as garbage collection. In a system that 
supports garbage collection, applications explicitly allocate heap blocks but never explicitly free them. In 
the context of a C program, the application calls malloc, but never calls free. Instead, the garbage 
collector periodically identifies the garbage blocks and makes the appropriate calls to free to place those 
blocks back on the free list. 


Garbage collection dates back to Lisp systems developed by McCarthy at MIT in the early 1960s. It is 
an important part of modern language systems such as Java, ML, Perl, and Mathematica, and it remains 
an active and important area of research. The literature describes an amazing number of approaches for 
garbage collection. We will limit our discussion to McCarthy’s original Mark&Sweep algorithm, which is 
interesting because it can be built on top of an existing malloc package to provide garbage collection for 
C and C++ programs. 


10.10.1 Garbage Collector Basics 


A garbage collector views memory as a directed reachability graph of the form shown in Figure 10.51. 
The nodes of the graph are partitioned into a set of root nodes and a set of heap nodes. Each heap node 
corresponds to an allocated block in the heap. A directed edge p — q means that some location in block p 
points to some location in block g. Root nodes correspond to locations not in the heap that contain pointers 
into the heap. These locations can be registers, variables on the stack, or global variables in the read-write 
data area of virtual memory. 


We say that a node p is reachable if there exists a directed path from any root node to p. At any point in 
time, the unreachable nodes correspond to garbage that can never be used again by the application. The role 
of a garbage collector is to maintain some representation of the reachability graph and periodically reclaim 
the unreachable nodes by freeing them and returning them to the free list. 


Garbage collectors for languages like ML and Java, which exert tight control over how applications create 
and use pointers, can maintain an exact representation of the reachability graph, and thus can reclaim all 
garbage. However, collectors for languages like C and C++ cannot in general maintain exact representations 
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O reachable 


Not-reachable 
(garbage) 


Figure 10.51: A garbage collector’s view of memory as a directed graph. 


of the reachability graph. Such collectors are known as conservative garbage collectors. They are conser- 
vative in the sense that each reachable block is correctly identified as reachable, while some unreachable 
nodes might be incorrectly identified as reachable. 


Collectors can provide their service on demand, or they can run as separate threads in parallel with the 
application, continuously updating the reachability graph and reclaiming garbage. For example, consider 
how we might incorporate a conservative collector for C programs into an existing malloc package, as 
shown in Figure 10.52. 


dynamic storage allocator 


C application m conservative -———> 
ram e me la garbage free () 
prog i collector 


Figure 10.52: Integrating a conservative garbage collector and a C malloc package. 


The application calls malloc in the usual manner whenever it needs heap space. If malloc is unable to 
find a free block that fits, then it calls the garbage collector in hopes of reclaiming some garbage to the free 
list. The collector identifies the garbage blocks and returns them to the heap by calling the free function. 
The key idea is that the collector calls free instead of the application. When the call to the collector 
returns, malloc tries again to find a free block that fits. If that fails, then it can ask the operating system 
for additional memory. Eventually malloc returns a pointer to the requested block (if successful) or the 
NULL pointer (if unsuccessful). 


10.10.2 Mark&Sweep Garbage Collectors 


A Mark&Sweep garbage collector consists of a mark phase, which marks all reachable and allocated descen- 
dents of the root nodes, followed by a sweep phase, which frees each unmarked allocated block. Typically, 
one of the spare low-order bits in the block header is used to indicate whether a block is marked or not. 


Our description of Mark&Sweep will assume the following functions, where ptr is defined as typedef 
void *ptr. 
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e ptr isPtr (ptr p): If p points to some word in an allocated block, returns a pointer b to the 
beginning of that block. Returns NULL otherwise. 


e int blockMarked(ptr b): Returns true if block b is already marked. 

e int blockAllocated (ptr b): Returns true if block b is allocated. 

e void markBlock (ptr b): Marks block b. 

e int length (b): Returns the length in words (excluding the header) of block b. 

e void unmarkBlock (ptr b): Changes the status of block b from marked to unmarked. 


e ptr nextBlock (ptr b): Returns the successor of block b in the heap. 


The mark phase calls the mark function shown in Figure 10.53(a) once for each root node. The mark 
function returns immediately if p does not point to an allocated and unmarked heap block. Otherwise, it 
marks the block and calls itself recursively on each word in block. Each call to the mark function marks 
any unmarked and reachable descendents of some root node. At the end of the mark phase, any allocated 
block that is not marked is guaranteed to be unreachable, and hence garbage that can be reclaimed in the 
sweep phase. 


void mark(ptr p) { void sweep(ptr b, ptr end) { 
if ((b = isPtr(p)) == NULL) while (b < end) { 
return; if (blockMarked (b) ) 
if (blockMarked (b) ) unmarkBlock (b) ; 
return; else if (blockAllocated (b) ) 
markBlock (b); free (b); 
len = length (b); b = nextBlock (b); 
for (i=0; i < len; i++) } 
mark (b[i]); return; 
return; } 


Figure 10.53: Pseudo-code for the mark and sweep functions. 


The sweep phase is a single call to the sweep function shown in Figure 10.53(b). The sweep function 
iterates over each block in the heap, freeing any unmarked allocated blocks (i.e., garbage) that it encounters. 


Figure 10.54 shows a graphical interpretation of Mark&Sweep for a small heap. Block boundaries are 
indicated by heavy lines. Each square corresponds to a word of memory. Each block has a one-word header, 
which is either marked or unmarked. 


Initially, the heap in Figure 10.53 consists of six allocated blocks, each of which is unmarked. Block 3 
contains a pointer to block 1. Block 4 contains pointers to blocks 3 and 6. The root points to block 4. After 
the mark phase, blocks 1,3, 4, and 6 are marked because they are reachable from the root. Blocks 2 and 5 are 
unmarked because they are unreachable. After the sweep phase, the two unreachable blocks are reclaimed 
to the free list. 
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Figure 10.54: Mark and sweep example. Note that the arrows in this example denote memory references, 
and not free list pointers. 


10.10.3 Conservative Mark&Sweep for C Programs 


Mark&Sweep is an appropriate approach for garbage collecting C programs because it works in place with- 
out moving any blocks. However, the C language poses some interesting challenges for the implementation 
of the isPtr function. 


First, C does not tag memory locations with any type information. Thus, there is no obvious way for isPtr 
to determine if its input parameter p is a pointer or not. Second, even if we were to know that p was a pointer, 
there would be no obvious way for isPtr to determine whether p points to some location in the payload 
of an allocated block. 


One solution to the latter problem is to maintain the set of allocated blocks as a balanced binary tree that 
maintains the invariant that all blocks in the left subtree are located at smaller addresses and all blocks in the 
right subtree are located in larger addresses. As shown in Figure 10.55, this requires two additional fields 
(left and right) in the header of each allocated block. Each field points to the header of some allocated 
block. 


allocated block header 


size left right remainder of block 
“f N 


Figure 10.55: Left and right pointers in a balanced tree of allocated blocks. 


The isPtr (ptr p) function uses the tree to perform a binary search of the allocated blocks. At each 
step, it relies on the size field in the block header to determine if p falls within the extent of the block. 


The balanced tree approach is correct in the sense that it is guaranteed to mark all of the nodes that are 
reachable from the roots. This is a necessary guarantee, as application users would certainly not appreciate 
having their allocated blocks prematurely returned to the free list. However, it is conservative in the sense 
that it may incorrectly mark blocks that are actually unreachable, and thus it may fail to free some garbage. 
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While this does not affect the correctness of application programs, it can result in unnecessary external 
fragmentation. 


The fundamental reason that Mark&Sweep collectors for C programs must be conservative is that the C 
language does not tag memory locations with type information. Thus, scalars like ints or floats can 
masquerade as pointers. For example, suppose that some reachable allocated block contains an int in its 
payload whose value happens to correspond to an address in the payload of some other allocated block b. 
There is no way for the collector to infer that the data is really an int and not a pointer. Thus the allocator 
must conservatively mark block b as reachable, when in fact it might not be. 


10.11 Common Memory-related Bugs in C Programs 


Managing and using virtual memory can be a difficult and error-prone task for the C programmers. Memory- 
related bugs are among the most frightening because they often manifest themselves at a distance, in both 
time and space, from the source of the bug. Write the wrong data to the wrong location, and your program 
can run for hours before it finally fails in some distant part of the program. We conclude our discussion of 
virtual memory with a discussion of some of the common memory-related bugs. 


10.11.1 Dereferencing Bad Pointers 


As we learned in Section 10.7.2, there are large holes in the virtual address space of a process that are not 
mapped to any meaningful data. If we attempt to dereference a pointer into one of these holes, the operating 
system will terminate our program with a segmentation exception. Also, some areas of virtual memory are 
read-only. Attempting to write to one of these areas terminates the program with a protection exception. 

A common example of dereferencing a bad pointer is the classic scanf bug. Suppose we want to use 


scanf to read an integer from st din into a variable. The correct way to do this is to pass scanf a format 
string and the address of the variable: 


scanf ("%d", &val) 


However, it is easy for new C programmers (and experienced ones too!) to pass the contents of val instead 
of its address: 


scanf ("3d"; val) 


In this case, scanf will interpret the contents of val as an address and attempt to write a word to that 
location. In the best case, the program terminates immediately with an exception. In the worst case, the 
contents of val correspond to some valid read/write area of virtual memory, and we overwrite memory, 
usually with disastrous and baffling consequences much later. 


10.11.2 Reading Uninitialized Memory 


While .bss memory locations (such as uninitialized global C variables) are always initialized to zeros by 
the loader, this is not true for heap memory. A common error is to assume that heap memory is initialized 
to zero: 
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/* return y = Ax */ 
int *matvec(int **A, int *x, int n) 


int i, j; 


int *y = (int *)Malloc(n * sizeof(int)); 


for (i 0; i < n; itt) 
for (j = 0; j < n; j++) 
yli] += A[i][j] * x[j]; 
return y; 


VIRTUAL MEMORY 


In this example, the programmer has incorrectly assumed that vector y has been initialized to zero. A correct 
implementation would zero y [i] between lines 8 and 9, or use calloc. 


10.11.3 Allowing Stack Buffer Overflows 


As we saw in Section 3.13, a program has a buffer overflow bug if it writes to a target buffer on the stack 
without the size of the input string. For example, the following function has a buffer overflow bug because 
the gets function copies an arbitrary length string to the buffer. To fix this, we would need to the use the 
fgets function, which limits the size of the input string. 


{ 


1 
2 
3 
4 
5 
6 
7 


} 


void bufoverflow() 


char buf[64]; 


gets (buf); /* here is the stack buffer overflow bug */ 


return; 


10.11.4 Assuming that Pointers and the Objects they Point to Are the Same Size 


One common mistake is to assume that pointers to objects are the same size as the objects they point to: 


1 /* Create an nxm array */ 
2 int **makeArrayl (int n, int m) 


3 { 


wo OA HD oO 心 


IDE -i 
int **A = (int **)Malloc(n * sizeof (int)); 
for (i 


0; i < n; itt) 
A[i] = (int *)Malloc(m * sizeof(int)); 


] 
return A; 


The intent here is to create an array of n pointers, each of which points to an array of m ints. However, 
because the programmer has written sizeof (int) instead of sizeof (int *) in line 5, the code 
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actually creates an array of ints. This code will run fine on machines where ints and pointers to ints 
are the same size. 


But if we run this code on a machine like the Alpha, where a pointer is larger than an int, then the loop in 
lines 7 and 8 will write past the end of the A array. Since one of these words will likely be the boundary tag 
footer of the allocated block, we may not discover the error until we free the block much later in the program, 
at which point the coalescing code in the allocator will fail dramatically and for no apparent reason. This is 
an insidious example of the kind of “action at a distance” that is so typical of memory-related programming 
bugs. 


10.11.5 Making Off-by-one Errors 
Off-by-one errors are another common source of overwriting bugs: 


1 /* Create an nxm array */ 
2 int **makeArray2 (int n, int m) 


3 { 

4 ant: i; 

5 int **A = (int **)Malloc(n * sizeof (int)); 
6 

F for (i = 0; i <= n; i++) 

8 A[i] = (int *)Malloc(m * sizeof (int)); 
9 return A; 

10 } 


This is another version of the program in the previous section. Here we have created an n-element array of 
pointers in line 5, but then tried to initialize n + 1 of its elements in lines 7 and 8, in the process overwriting 
some memory that follows the A array. 


10.11.6 Referencing a Pointer Instead of the Object it Points to 


If we are not careful about the precedence and associativity of C operators, then we incorrectly manipulate 
a pointer instead of the object it points to. For example, consider the following function, whose purpose is 
to remove the first item in a binary heap of * size items, and then reheapify the remaining *size - 1 
items. 


int *binheapDelete(int **binheap, int *size) 
{ 
int *packet = binheap[0]; 


1 
2 
3 
4 
5 binheap[0] = binheap[*size - 1]; 
6 *size--; /* this should be (*size)-- */ 
7 heapify(binheap, *size, 0); 

8 return (packet) ; 

9 


} 
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In line 3, the intent is to decrement the integer value pointed to by the size pointer (e.g., (*size) 一 一 ). 
However, because the unary —— and * operators have the same precedence and associate from right to left, 
the code in line 6 actually decrements the pointer itself instead of the integer value that it points to. If we 
are lucky, the program will crash immediately; but more likely we will be left scratching our heads when 
the program produces an incorrect answer much later in its execution. The moral here is to use parentheses 
whenever in doubt about precedence and associativity. For example, in line 6 we could have clearly stated 
our intent by using the expression (*size) 一 一 . 


10.11.7 Misunderstanding Pointer Arithmetic 


Another common mistake is to forget that arithmetic operations on pointers are performed in units that are 
the size of the objects they point to, which are not necessarily bytes. For example, the intent of the following 
function is to scan an array of ints and return a pointer to the first occurrence of val. 


int *search(int *p, int val) 
{ 
while (*p && *p != val) 
p += sizeof(int); /* should be pt+ */ 
return p; 


Nn oO e WN EF 


However, because line 4 increments the pointer by four (the number of bytes in an integer) each time through 
the loop, the function incorrectly scans every fourth integer in the array. 
10.11.8 Referencing Non-existent Variables 


Naive C programmers who do not understand the stack discipline will sometimes reference local variables 
that are no longer valid, as in the following example: 


int *stackref () 


{ 


int val; 


return &val; 


OO fF WN EF 


This function returns a pointer (say p) to a local variable on the stack and then pops its stack frame. Although 
p still points to a valid memory address, it no longer points to a valid variable. When other functions are 
called later in the program, the memory will be reused for their stack frames. Later, if the program assigns 
some value to *p, then it might actually be modifying an entry in another function’s stack frame, with 
potentially disastrous and baffling consequences. 


10.11. COMMON MEMORY-RELATED BUGS IN C PROGRAMS 555 


10.11.9 Referencing Data in Free Heap Blocks 


A similar error is to reference data in heap blocks that have already been freed. For example, consider the 
following example, which allocates an integer array x in line 6, prematurely frees block x in line 12, and 
then later references it in line 14. 


1 int *heapref(int n, int m) 

2 { 

3 ant 

4 int *x, *y; 

5 

6 x = (int *)Malloc(n * sizeof(int)); 

7 

8 NE fa E /* other calls to malloc and free go here */ 
9 

0 free (x); 

1 

2 y = (int *)Malloc(m * sizeof(int)); 

3 for (i = 0; i < m; itt) 

4 yli] = x[il++; /* oops! x[i] is a word in a free block */ 
5 

6 return y; 

7 } 


Depending on the pattern of malloc and free calls that occur between lines 6 and 10, when the program 
references x[i] in line 14, the array x might be part of some other allocated heap block and have been 
overwritten. As with many memory-related bugs, the error will only become evident later in the program 
when we notice that the values in y are corrupted. 


10.11.10 Introducing Memory Leaks 


Memory leaks are slow, silent killers that occur when programmers inadvertently create garbage in the heap 
by forgetting to free allocated blocks. For example, the following function allocates a heap block x and then 
returns without freeing it. 


void leak(int n) 


1 
2 { 

3 int *x = (int *)Malloc(n * sizeof(int)); 
4 

5 return; /* x is garbage at this point */ 
6 } 


If foo is called frequently, then the heap will gradually fill up with garbage, in the worst case consuming 
the entire virtual address space. Memory leaks are particularly serious for programs such as daemons and 
servers, which by definition never terminate. 
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10.12 Summary 


In this chapter, we have looked at how virtual memory works, how it is used by the system for functions 
such as loading programs, mapping shared libraries, and providing processes with private protected address 
spaces. We have also looked at a myriad of ways that virtual memory can be used and misused by application 
programs. 


A key lesson is that even though virtual memory is provided automatically by the system, it is a finite 
memory resource that must be managed wisely by the application. As we learned from our study of dynamic 
storage allocators, managing virtual memory resources can involve subtle time and space trade-offs. Another 
key lesson is that it is easy to make memory-related errors from C programs. Bad pointer values, freeing 
already free blocks, improper casting and pointer arithmetic, and overwriting heap structures are just a few 
of the many ways we can get in trouble. In fact, the nastiness of memory-related errors was an important 
motivation for Java, which tightly controls access to the virtual memory by eliminating the ability to take 
addresses of variables, and by taking complete control of the dynamic storage allocator. 
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Homework Problems 


Homework Problem 10.11 [Category 1]: 


In the following series of problems, you are to show how the example memory system in Section 10.6.4 
translates a virtual address into a physical address and accesses the cache. For the given virtual address, 
indicate the TLB entry accessed, the physical address, and the cache byte value returned. Indicate whether 
the TLB misses, whether a page fault occurs, and whether a cache miss occurs. If there is a cache miss, 
enter “—” for “Cache Byte returned”. If there is a page fault, enter 一 for “PPN” and leave parts C and D 
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blank. 


Virtual address: 0x027c 


A. Virtual address format 
13 12 11 10 9 8 7 0 3 4 3 2 1 0 


B. Address translation 


C. Physical address format 
11 10 9 8 7 6 5 4 3 2 1 0 


D. Physical memory reference 


Byte offset 


Cache Index 


Cache Tag 
Cache Hit? (Y/N) 
Cache Byte returned 


Homework Problem 10.12 [Category 1]: 
Repeat Problem 10.11 for the following address: 


Virtual address: 0x03a9 


A. Virtual address format 
13 12 11 10 9 8 7 6 5 4 3 2 1 0 
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B. Address translation 


Value 


C. Physical address format 
11 10 9 8 7 6 5 4 3 2 1 0 


D. Physical memory reference 


Byte offset 


Cache Index 


Cache Tag 
Cache Hit? (Y/N) 
Cache Byte returned 


Homework Problem 10.13 [Category 1]: 
Repeat Problem 10.11 for the following address: 


Virtual address: 0x0040 


A. Virtual address format 
13 12 11 10 9 8 7 0 5 4 3 2 1 0 


B. Address translation 


PPN 
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C. Physical address format 
11 10 9 8 7 6 5 4 3 2 1 0 


D. Physical memory reference 


Byte offset 


Cache Index 


Cache Tag 
Cache Hit? (Y/N) 
Cache Byte returned 


Homework Problem 10.14 [Category 2]: 


Given an input file hello.txt that consists of the string "Hello, world! \n", write a C program that 
uses mmap to change the contents of hello.txt to "Jello, world!\n". 


Homework Problem 10.15 [Category 1]: 


Determine the block sizes and header values that would result from the following sequence of malloc 
requests. Assumptions: (1) The allocator maintains double-word alignment, and uses an implicit free list 
with the block format from Figure 10.37. (2) Block sizes are rounded up to the nearest multiple of eight 
bytes. 


| Request || Block size (decimal bytes) | Block header (hex) 


malloc (3) 
malloc(11) 


malloc(20) 


Homework Problem 10.16 [Category 1]: 


Determine the minimum block size for each of the following combinations of alignment requirements and 
block formats. Assumptions: Explicit free list, four-byte pred and succ pointers in each free block, 
zero-sized payloads are not allowed, and headers and footers are stored in a four-byte words. 


Allocated block Free block | Minimum block size (bytes) 


Single-word Header and footer Header and footer 
Single-word | Header, but no footer | Header and footer 


Double-word Header and footer Header and footer 
Double-word | Header, but no footer | Header and footer 


Homework Problem 10.17 [Category 3]: 
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Develop a version of the allocator in Section 10.9.12 that performs a next-fit search instead of a first-fit 
search. 


Homework Problem 10.18 [Category 3]: 


The allocator in Section 10.9.12 requires both a header and a footer for each block in order to perform 
constant-time coalescing. Modify the allocator so that free blocks require a header and footer, but allocated 
blocks require only a header. 


Homework Problem 10.19 [Category 1]: 


You are given three groups of statements relating to memory management and garbage collection below. In 
each group, only one statement is true. Your task is to indicate the statement that is true. 


1. (a) Ina buddy system, up to 50% of the space can be wasted due to internal fragmentation. 
(b) The first-fit memory allocation algorithm is slower than the best-fit algorithm (on average). 


(c) Deallocation using boundary tags is fast only when the list of free blocks is ordered according 
to increasing memory addresses. 


(d) The buddy system suffers from internal fragmentation, but not from external fragmentation. 
2. (a) Using the first-fit algorithm on a free list that is ordered according to decreasing block sizes 
results in low performance for allocations, but avoids external fragmentation. 


(b) For the best-fit method, the list of free blocks should be ordered according to increasing memory 
addresses. 


(c) The best-fit method chooses the largest free block into which the requested segment fits. 
(d) Using the first-fit algorithm on a free list that is ordered according to increasing block sizes is 
equivalent to using the best-fit algorithm. 


3. Mark-and-sweep garbage collectors are called conservative if 


(a) they coalesce freed memory only when a memory request cannot be satisfied, 
(b) they treat everything that looks like a pointer as a pointer, 
(c) they perform garbage collection only when they run out of memory, 


(d) they do not free memory blocks forming a cyclic list. 


Homework Problem 10.20 [Category 4]: 


Write your own version of malloc and free and compare its running time and space utilization to the 
version of malloc provided in the standard C library. 


Part Il 


Interaction and Communication Between 
Programs 
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Chapter 11 


Concurrent Programming with Threads 


A thread is a unit of execution, associated with a process, with its own thread ID, stack, stack pointer, 
program counter, condition codes, and general-purpose registers. Multiple threads associated with a process 
run concurrently in the context of that process, sharing its code, data, heap, shared libraries, signal handlers, 
and open files. 


Programming with threads instead of conventional processes is increasingly popular because threads are less 
expensive (in terms of overhead) than processes and because they provide a trivial mechanism for sharing 
global data. For example, a high-performance Web server might assign a separate thread for each open 
connection to a Web browser, with each thread sharing a single in-memory cache of frequently requested 
Web pages. 


Another important factor in the popularity of threads is the adoption of the standard Pthreads (Posix threads) 
interface for manipulating threads from C programs. The benefit of threads has been known for some time, 
but their use was hindered because each computer vendor developed its own incompatible threads package. 
As a result, threaded programs written for one platform would not run on other platforms. The adoption of 
Pthreads in 1995 has improved this situation immensely. Posix threads are available on most Unix systems. 


Unfortunately, the ease with which threads share global data also makes them vulnerable to subtle and baf- 
fling errors. Bugs in threaded programs are especially scary because they are usually not easily repeatable. 
In this chapter, we will show you the basics of threaded programs, discuss some of the tricky ways that they 
can fail if you are not careful, and give you tips for avoiding these errors. 


11.1 Basic Thread Concepts 


To this point, we have worked with the traditional view of a process shown in Figure 11.1. In this view, 
a process consists of the code and data in the user’s virtual memory, along with some state maintained 
by the kernel known as the process context. The code and data includes the program’s text, data, runtime 
heap, shared libraries, and the stack. The process context can be partitioned into two different kinds of 
state: program context and kernel context. The program context resides in the processor, and includes 
the contents of the general-purpose registers, various condition codes registers, the stack pointer, and the 
program counter. The kernel context resides in kernel data structures, and consists of items such as the 
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process ID, the data structures that characterize the organization of the virtual memory, and information 
about open files, installed signal handlers, and the extent of the heap. 


Process context 


Program context: Code, data, and stack 
Data registers stack 
Condition codes SP 
Stack pointer (SP) 

Program counter (PC) shared libraries 

Kernel context: brk 
Process ID (PID) run-time heap 
VM structures read/write data 
Open files 
Signal handlers PC —>| read-only code/data 
brk pointer 0 


Figure 11.1: Traditional view of a process. 


If we rearrange the items in Figure 11.1, then we get the alternative view of a process shown in Figure 11.2. 
Here, a process consists of a thread, which consists of a stack and the program context (which we will call 
the thread context), plus the kernel context and the program code and data (minus the stack, of course). 


Code and Data 
shared libraries 


Thread 
brk 


run-time heap 
read/write data 
PC —>| read-only code/data 


! | Thread context: 
Data registers 
Condition codes 


Stack pointer (SP) 


Program counter (PC) Kernel context: 


VM structures 
E E ele Open files 
Signal handlers 
brk pointer 
Process ID (PID) 


Figure 11.2: Alternative view of a process. 


The interesting point about Figure 11.2 is that it treats the process as an execution unit with a very small 
amount of state that runs in the context of a much larger amount of state. Given this view, we can now 
extend our notion of process to include multiple threads that share the same code, data, and kernel context, 
as shown in Figure 11.3. Each thread associated with a process has its own stack, registers, condition codes, 
stack pointer, and program counter. Since there are now multiple threads, we will also add an integer thread 
ID (TID) to each thread context. 


The execution model for multiple threads is similar in some ways to the execution model for multiple 
processes. Consider the example in Figure 11.4. Each process begins life as a single thread called the main 
thread. At some point, the main thread creates a peer thread and from this point in time the two threads 
run concurrently (i.e., their logical flows overlap in time). Eventually, control passes to the peer thread via a 
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Thread 1 Shared code and data Thread 2 
stack 1 shared libraries stack 2 
M 1 context: run-time heap U 2 context: 
ata registers > ata registers 
Condition codes iad wiite data Condition codes 

SP1 read-only code/data SP2 
PC1 PC2 
TID1 TID2 


Kernel context: 
VM structures 
Open files 


Signal handlers 
brk pointer 
PID 


Figure 11.3: Associating multiple threads with a process. 


context switch, because the main thread executes a slow system call such as read or sleep, or because it 
is interrupted by the system’s interval timer. The peer thread executes for awhile before control passes back 
to the main thread, and so on. 


Thread 1 Thread 2 
(main thread) | (peer thread) 


} Thread context switch 
Time 


} Thread context switch 


} Thread context switch 


Figure 11.4: Concurrent thread execution. 


Thread execution differs from processes in some important ways. Because a thread context is much smaller 
than a process context, a thread context switch is faster than a process context switch. Another difference 
is that threads, unlike processes, are not organized in a rigid parent-child hierarchy. The threads associated 
with a process form a pool of peers, independent of which threads were created by which other threads. The 
main thread is distinguished from other threads only in the sense that it is always the first thread to run in 
the process. The main impact of this notion of a pool of peers is that a thread can kill any of its peers, or 
wait for any of its peers to terminate. Further, each peer can read and write the same shared data. 
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11.2 Thread Control 


Pthreads defines about 60 functions that allow C programs to create, kill, and reap threads, to share data 
safely with peer threads, and to notify peers about changes in the system state. However, most threaded 
programs use only a small subset of the functions defined in the interface. 


Figure 11.5 shows a simple Pthreads program called hello.c. In this program, the main thread creates a 
peer thread and then waits for it to terminate. The peer thread prints “hello, world! \n’ and terminates. 
When the main thread detects that the peer thread has terminated, it terminates itself (and the entire process) 
by calling exit. 


code/threads/hello.c 


#include "csapp.h" 
void *thread(void *vargp) ; 


int main () 
{ 
pthread_t tid; 


Pthread_create(&tid, NULL, thread, NULL); 
Pthread_join(tid, NULL); 
exit (0); 

} 


/* thread routine */ 

void *thread(void *vargp) 

{ 
printf ("Hello, world!\n"); 
return NULL; 


oO ONAN DOF WN PO 0 WAI DH BF WY PB 


code/threads/hello.c 


Figure 11.5: he llo.c: The Pthreads “hello, world” program. 


This is the first threaded program we have seen, so let’s dissect it carefully. Line 3 is the prototype for the 
thread routine thread. The Pthreads interface mandates that each thread routine has a single (void *) 
input argument and returns a single (void *) output value. If you want to pass multiple arguments to a 
thread routine, then you can put the arguments into a structure and pass a pointer to the structure. Similarly, 
if you want the thread routine to return multiple arguments, you can return a pointer to a structure. 


Line 5 marks the beginning of the main routine, which runs in the context of the main thread. In line 7, 
the main routine declares a single local variable t id, which will be used to store the thread ID of the peer 
thread. In line 9, the main thread creates a new peer thread by calling the pthread_create function.! 


When the call to pthread_create returns, the main thread and the newly created thread are running 


'We are actually calling an error-handling wrapper, which were introduced in Section 8.3 and described in detail in Appendix A. 
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concurrently, and tid contains the ID of the new thread. In line 10, the main thread waits for the newly 
created thread to terminate. Finally, in line 11, the main thread terminates itself and the entire process by 
calling exit. 


Lines 15-19 define the thread routine, which in this case simply prints a string then terminates by executing 
the return statement in line 18. 


11.2.1 Creating Threads 


Threads create other threads by calling the pthread_create function. 


#include <pthread.h> 
typedef void *(func) (void *); 


int pthread.create(pthreadt *tid, pthread_attr_t *attr, func *f, void *arg); 


returns: 0 if OK, non-zero on error 


The pthread_create function creates a new thread and runs the thread routine £ in the context of the 
new thread and with an input argument of arg. The attr argument can be used to change the default 
attributes of the newly created thread. However, changing these attributes is beyond our scope, and in our 
examples, we will always call pthread_create with a NULL attr argument. 


When pthread_create returns, argument tid contains the ID of the newly created thread. The new 
thread can determine its own thread ID by calling the pthread_self function. 


#include <pthread.h> 


pthreadt pthread_self (void); 


returns: thread ID of caller 


11.2.2 Terminating Threads 
A thread terminates in one of the following ways: 


e The thread terminates implicitly when its top-level thread routine returns. 


e The thread terminates explicitly by calling the pthread_exit function, which returns a pointer to 
the return value thread_return. If the main thread calls pthread_exit, it waits for all other 
peer threads to terminate, and then terminates the main thread and the entire process with a return 
value of thread_return. 
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#include <pthread.h> 


int pthread_exit (void *thread_return) ; 


returns: 0 if OK, non-zero on error 


e Some peer thread calls the Unix exit function, which terminates the process and all threads associ- 
ated with the process. 


e Another peer thread terminates the current thread by calling the pthread_cancel function with 
the ID of the current thread. 


#include <pthread.h> 


int pthread_cancel (pthread_t tid); 


returns: 0 if OK, non-zero on error 


11.2.3 Reaping Terminated Threads 


Threads wait for other threads to terminate by calling the pthread_join function. 


#include <pthread.h> 


int pthread_join(pthread.t tid, void **thread_return) ; 


returns: 0 if OK, non-zero on error 


The pthread_join function blocks until thread t id terminates, assigns the (void *) pointer returned 
by the thread routine to the location pointed to by thread_return, and then reaps any memory resources 
held by the terminated thread. 


Notice that, unlike the Unix wait function, the pthread_join function can only wait for a specific thread 
to terminate. There is no way to instruct pthread_wait to wait for an arbitrary thread to terminate. This 
can complicate our code by forcing us to use other less intuitive mechanisms to detect process termination. 
Indeed some have argued convincingly that this represents a bug in the specification [77]. 


11.2.4 Detaching Threads 


At any point in time, a thread is joinable or detached. A joinable thread can be reaped and killed by other 
threads. Its memory resources (such as the stack) are not freed until it is reaped by another thread. In 
contrast, a detached thread cannot be reaped or killed by other threads. Its memory resources are freed 
automatically by the system when it terminates. 


By default, threads are created joinable. In order to avoid memory leaks, each joinable thread should either 
be explicitly reaped by another thread, or detached by a call to the pthread_detach function. 
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#include <pthread.h> 


int pthread.detach(pthreadt tid); 


returns: 0 if OK, non-zero on error 


The pthread_detach function detaches the joinable thread tid. Threads can detach themselves by 
calling pthread_detach with an argument of pthread_self(). 


Even though some of our examples will use joinable threads, there are good reasons to use detached threads 
in real programs. For example, a high-performance Web server might create a new peer thread each time 
it receives a connection request from a Web browser. Since each connection is handled independently by a 
separate thread, it is unnecessary and indeed undesirable for the server to explicitly wait for each peer thread 
to terminate. In this case, each peer thread should detach itself before it begins processing the request so 
that its memory resources can be reclaimed after it terminates. 


Practice Problem 11.1: 


A. The program in Figure 11.6 has a bug. The thread is supposed to sleep for one second and then 
print a string. However, when we run it, nothing prints. Why? 


B. You can fix this bug by replacing the exit function in line 9 with one of two different Pthreads 
function calls. Which ones? 


code/threads/hellobug.c 


#include "csapp.h" 
void *thread(void *vargp) ; 


int main () 
{ 
pthread_t tid; 


Pthread_create(&tid, NULL, thread, NULL); 
exit (0); 
} 


/* thread routine */ 

void *thread(void *vargp) 

{ 
Sleep (1); 
printf ("Hello, world!\n"); 
return NULL; 
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code/threads/hellobug.c 


Figure 11.6: Buggy program for Problem 11.1. 
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11.3 Shared Variables in Threaded Programs 


From a programmer’s perspective, one of the attractive aspects of threads is the ease with which multiple 
threads can share the same program variables. However, in order to use threads correctly, we must have a 
clear understanding of what we mean by sharing and how it works. 


There are some basic questions to work through in order to understand whether a variable in a C program 
is shared or not: (1) What is the underlying memory model for threads? (2) Given this model, how are 
instances of the variable mapped to memory? (3) And finally, how many threads reference each of these 
instances? The variable is shared if and only if multiple threads reference some instance of the variable. 
To keep our discussion of sharing concrete, we will use the program in Figure 11.7 as a running example. 
Although somewhat contrived, it is nonetheless useful to study because it illustrates a number of subtle 
points about sharing. The example program consists of a main thread that creates two peer threads. The 
main thread passes a unique ID to each peer thread, which uses the id to print a personalized message, along 
with a count of the total number of times that the thread routine has been invoked. Here is the output when 
we run it on our system: 


unix> ./sharing 
[0]: Hello from foo (cnt=1) 
[1]: Hello from bar (cnt=2) 


11.3.1 Threads Memory Model 


A pool of concurrent threads runs in the context of a process. Each thread has its own separate thread 
context, which includes a thread ID, stack, stack pointer, program counter, condition codes, and general- 
purpose register values. Each thread shares the rest of the process context with the other threads. This 
includes the entire user virtual address space, which consists of read-only text (code), read/write data, the 
heap, and any shared library code and data areas. The threads also share the same set of open files and the 
same set of installed signal handlers. 


In an operational sense, it is impossible for one thread to read or write the register values of another thread. 
On the other hand, any thread can access any location in the shared virtual memory. If some thread modifies 
a memory location, then every other thread will eventually see the change if it reads that location. Thus, 
registers are never shared, while virtual memory is always shared. 


The memory model for the separate thread stacks is not as clean. These stacks are contained in the stack 
area of the virtual address space, and are usually accessed independently by their respective threads. We 
say usually rather than always, because different thread stacks are not protected from other threads. So if a 
thread somehow manages to acquire a pointer to another thread’s stack, then it can read and write any part 
of that stack. Our example program shows an example of this in line 29, where the peer threads reference 
the contents of the main thread’s stack indirectly through the global pt r variable. 


11.3.2 Mapping Variables to Memory 


C variables in threaded programs are mapped to virtual memory according to their storage classes. 


11.3. SHARED VARIABLES IN THREADED PROGRAMS 
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#include "csapp.h" 
#define N 2 


char **ptr; 


void *thread (void *vargp) ; 


int main () 


{ 


int i; 

pthread_t tid; 

char *msgs[N] = { 
"Hello from foo", 
"Hello from bar" 

}; 


ptr = msgs; 
for (i = 0; i < N; itt) 


Pthread_create (&tid, NULL, 
Pthread_exit (NULL) ; 


void *thread(void *vargp) 


{ 


int myid = (int) vargp; 
static int cnt = 0; 


printf ("([%d]: $s (cnt=%d)\n", 


/* global variable */ 


thread, 
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code/threads/sharing.c 


(void *) 4) ¢ 


myid, ptr[myid], +t+cnt); 


code/threads/sharing.c 


Figure 11.7: Example program that illustrates different aspects of sharing. 
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e Global variables. A global variable is any variable declared outside of a function. At run-time, the 


read/write area of virtual memory contains exactly one instance of each global variable that can be 
referenced by any thread. 


For example, the global ptr variable in line 4 has one run-time instance in the read/write area of 
virtual memory. When there is only one instance of a variable, we will denote the instance by simply 
using the variable name, in this case pt r. 


Local automatic variables. A local automatic variable is one that is declared inside a function with- 
out the static attribute. At run-time, each thread’s stack contains its own instances of any local 
automatic variables. This is true even if multiple threads execute the same thread routine. 


For example, there is one instance of the local variable tid, and it resides on the stack of the main 
thread. We will denote this instance as tid.m. As another example, there are two instances of the 
local variable my id, one instance on the stack of peer thread 0, and the other on the stack of peer 
thread 1. We will denote these instances as myid.p0O and myid.p1 respectively. 


Local static variables. A local static variable is one that is declared inside a function with the 
static attribute. As with global variables, the read/write area of virtual memory contains exactly 
one instance of each local static variable declared in a program. 


For example, even though each peer thread in our example program declares cnt in line 27, at run- 
time there is only one instance of cnt residing in the read/write area of virtual memory. Each peer 
thread reads and writes this instance. 


11.3.3 Shared Variables 


A variable v is shared if and only if one of its instances is referenced by more than one thread. For example, 
variable cnt in our example program is shared because it has only one run-time instance, and this instance 
is referenced by both peer threads. On the other hand, myid is not shared because each of its two instances 
is referenced by exactly one thread. However, it is important to realize that local automatic variables such 
as msgs can also be shared. 


Practice Problem 11.2: 


A. Using the analysis from Section 11.3, fill each entry in the following table with “Yes” or “No” 
for the example program in Figure 11.7. In the first column, the notation v.t denotes an instance 
of variable v residing on the local stack for thread t, where t is either m (main thread), pO (peer 
thread 0), or p1 (peer thread 1). 


Referenced by | Referenced by | Referenced by 
main thread? | peer thread O ? | peer thread 1? 


Variable 
instance 
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B. Given the analysis in Part A, which of the variables ptr, cnt, i, msgs, and myid are shared? 


11.4 Synchronizing Threads with Semaphores 


Shared variables can be convenient, but they introduce the possibility of a new class of synchronization 
errors that we have not encountered yet. Consider the badcnt .c program in Figure 11.8 that creates two 
threads, each of which increments a shared counter variable called cnt. 

Since each thread increments the counter NITERS times, we might expect its final value to be 2 x NITERS. 


However, when we run badcnt .c on our system, we not only get wrong answers, we get different answers 
each time! 


unix> ./badcent 
BOOM! ctr=198841183 


unix> ./badcnt 
BOOM! ctr=198261801 


unix> ./badcnt 
BOOM! ctr=198269672 


So what went wrong? To understand the problem clearly, we need to study the assembly code for the counter 
loop, as shown in Figure 11.9. We will find it helpful to partition the loop code for thread 1 into five parts: 


e H;: The block of instructions at the head of the loop. 


Li: The instruction that loads the shared variable cnt into register seax;, where %eax; denotes the 
value of register eax in thread 2. 


e U;: The instruction that updates (increments) Seax;. 
® 5;: The instruction that stores the updated value of eax; back to the shared variable cnt. 


e T;: The block of instructions at the tail of the loop. 


Notice that the head and tail manipulate only local stack variables, while L;, U;, and S; manipulate the 
contents of the shared counter variable. 


11.4.1 Sequential Consistency 


When the two peer threads in badcnt .c run concurrently on a single CPU, the instructions are completed 
one after the other in some order. Thus, each concurrent execution defines some total ordering (or interleav- 
ing) of the instructions in the two threads. When we reason about concurrent execution, the only assumption 
we can make about the total ordering of instructions is that it is sequentially consistent. That is, instructions 
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code/threads/badcnt.c 
1 #include "csapp.h" 
2 
3 #define NITERS 100000000 
4 
5 void *count (void *arg); 
6 
7 /* shared variable */ 
8 unsigned int cnt = 0; 
9 
0 int main() 
1 { 
2 pthread_t tidl, tid2; 
3 
4 Pthread_create(&tidl, NULL, count, NULL); 
5 Pthread_create(&tid2, NULL, count, NULL); 
6 
7 Pthread_join (tidl, NULL); 
8 Pthread_join(tid2, NULL); 
9 
20 if (cnt != (unsigned) NITERS*2) 
21 printf ("BOOM! cnt=%d\n", cnt); 
22 else 
23 printf ("OK cnt=%d\n", cnt); 
24 exit (0); 
25 } 
26 
27 /* thread routine */ 
28 void *count (void *arg) 
29 { 
30 int i; 
31 
32 for (i=0; i<NITERS; i++) 
33 cntt++; 
34 return NULL; 
35 } 
code/threads/badcnt.c 


Figure 11.8: badcnt .c: An improperly synchronized counter program. 
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Asm code for thread i 


L93 
movl -4 (%ebp),%eax 
cmpl $99999999, šeax H, : Head 
jle .L12 
jmp .L10 
C code for thread i | 
for (i=0; i<NITERS; i++) movl ctr, %eax L; : Load ctr 
ctr++; —> leal 1(%eax),%edx U, : Update ctr 
movl %edx,ctr Si: Store ctr 
DT | 
movl -—4(%ebp) , seax 
leal 1(%eax) , Sedx 
movl %edx,—4 (%ebp) T,: Tail 
jmp .L9 
L10 


Figure 11.9: IA32 assembly code for the counter loop in badent . c. 


can be interleaved in any order, so long as the instructions for each thread execute in program order. For 
example, the ordering 
Hı, Ho, Lı, Lo, Ui, Uo, Si, S2, Tı, Tə 


is sequentially consistent, while the ordering 
Hı, Ap, Uy, Lo, Li; Up, Si, S2, Ti; To 


is not sequentially consistent because U1 executes before L4. Unfortunately not all sequentially consistent 
orderings are created equal. Some will produce correct results, but others will not, and there is no way for 
us to predict whether the operating system will choose a correct ordering for our threads. For example, 
Figure 11.10(a) shows the step-by-step operation of a correct instruction ordering. After each thread has 
updated the shared variable cnt, its value in memory is 2, which is the expected result. 


(a) Correct ordering (b) Incorrect ordering 


Figure 11.10: Sequentially-consistent orderings for the first loop iteration in badcnt.c. 
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On the other hand, the ordering in Figure 11.10(b) produces an incorrect value for cnt. The problem occurs 
because thread 2 loads cnt in step 5, after thread 1 loads cnt in step 2, but before thread 1 stores its updated 
value in step 6. Thus each thread ends up storing an updated counter value of 1. 


We can clarify this idea of correct and incorrect instruction orderings with the help of a formalism known 
as a progress graph, which we introduce in the next section. 


Practice Problem 11.3: 


Which of the following instruction orderings for badent . c are sequentially consistent? 


A. Ay, Hə, Li, L2, U1, U2, S2, 51, To, Ti. 
B. Ay, Hə, Lə, U2, S2, U1, To, Li, S1, Ta. 
C. Hə, La, Hı, Li, U1, S1, U2, S2, To, Ta. 
D. Hə, Ay, Le, Li, S2, U1, U2, S1, To, Th. 


Practice Problem 11.4: 


Complete the table for the following sequentially consistent ordering of badent . c. 


Does this ordering result in a correct value for cnt? 


11.4.2 Progress Graphs 


A progress graph models the execution of n concurrent threads as a trajectory through an n-dimensional 
Cartesian space. Each axis k corresponds to the progress of thread k. Each point (1), I2, . . . , Iņ) represents 
the state where thread k, (k = 1,...,n) has completed instruction I4. The origin of the graph corresponds 
to the initial state where none of the threads has yet completed an instruction. 


Figure 11.11 shows the 2-dimensional progress graph for the first loop iteration of the badcnt . c program. 
The horizontal axis corresponds to thread 1, the vertical axis to thread 2. Point (Li, S2) corresponds to the 
state where thread 1 has completed L4 and thread 2 has completed 52. 


A progress graph models instruction execution as a transition from one state to another. A transition is 
represented as a directed edge from one point to an adjacent point. Figure 11.12 shows the legal transitions 
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Thread 2 


(Ly, Sp) 


+ . . . . *— Thread 1 
H, Ly Ui Si Tı 


Figure 11.11: Progress graph for the first loop iteration of badcnt . c. 


in a 2-dimensional progress graph. For the single-processor systems that we are concerned about, where 
instructions complete one at a time in sequentially-consistent order, legal transitions move to the right (an in- 
struction in thread 1 completes) or up (an instruction in thread 2 completes). Programs never run backwards, 
so transitions that move down or to the left are not legal. 


fed Vee 


(a) vertical (b) horizontal 


Figure 11.12: Legal transitions in a progress graph. 


The execution history of a program is modeled as a trajectory, or sequence of transitions, through the state 
space. Figure 11.13 shows the trajectory that corresponds to the instruction ordering 


Hı, Li; U, Ho, Lo, Si, Ti, U2, S2, To. 


For thread 7, the instructions (L;, U;, S;) that manipulate the contents of the shared variable cnt constitute a 
critical section (with respect to shared variable cnt) that should not be interleaved with the critical section 
of the other thread. The intersection of the two critical sections defines a region of the state space known as 
an unsafe region. Figure 11.14 shows the unsafe region for the variable cnt. Notice that the unsafe region 
abuts, but does not include, the states along its perimeter. For example, states (Hı, H2) and (S1, U2) abut 
the unsafe region, but are not a part of it. 


A trajectory that skirts the unsafe region is known as a safe trajectory. Conversely, a trajectory that touches 
any part of the unsafe region is an unsafe trajectory. Figure 11.15 shows examples of safe and unsafe 
trajectories through the state space of our example badcnt.c program. The upper trajectory skirts the 
unsafe region along its left and top sides, and thus is safe. The lower trajectory crosses the unsafe region 
with one of its diagonal transitions, and thus is unsafe. 
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Thread 2 
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Figure 11.13: An example trajectory. 
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Figure 11.14: Critical sections and unsafe regions. 
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Figure 11.15: Safe and unsafe trajectories. 


Any safe trajectory will correctly update the shared counter. Conversely, any unsafe trajectory will produce 
either a predictably wrong result or a result that cannot be predicted. The latter case arises when the tra- 
jectory crosses the lower right-hand corner of the region with a diagonal transition from state (U4, H2) to 
(S1, L2). If thread 1 stores its updated value of the counter variable before thread 2 loads it, then the result 
will be correct, otherwise it will be incorrect. Since we cannot predict the ordering of load and store opera- 
tions, we consider this case, as well as the symmetric case where the trajectory crosses the upper left-hand 
corner of the unsafe region, to be incorrect. 


The bottom line is that in order to guarantee correct execution of our example threaded program — and in- 
deed any concurrent program that shares global data structures — we must somehow synchronize the threads 
so that they always have a safe trajectory. Dijkstra proposed a solution to this problem in a classic paper that 
introduced the fundamental idea of a semaphore. 


11.4.3 Protecting Shared Variables with Semaphores 


A semaphore, s, is a global variable with a nonnegative integer value that can only be manipulated by two 
special operations, called P and V: 


e P(s): while (s <= 0); s--; 


e V(s): st+; 


The names P and V come from the Dutch Proberen (to test) and Verhogen (to increment). The P operation 
waits for the semaphore s to become nonzero, and then decrements it. The V operation increments s. The 
test and decrement operations in P occur indivisibly, in the sense that once the predicate s <= 0 becomes 
false, the decrement occurs without interruption. The increment operation in V also occurs indivisibly, in 
that it loads, increments, and stores the semaphore without interruption. 
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The definitions of P and V ensure that a running program can never enter a state where a properly initialized 
semaphore has a negative value. This property, known as the semaphore invariant, provides a powerful tool 
for controlling the trajectories of concurrent programs so that they avoid unsafe regions. 


The basic idea is to associate a semaphore s, initially 1, with each shared variable (or related set of shared 
variables) and then surround the corresponding critical section with P(s) and V(s) operations.” 


For example, the progress graph in Figure 11.16 shows how we would use semaphores to properly synchro- 
nize our example counter program. In the figure, each state is labeled with the value of semaphore s in that 
state. The crucial idea is that this combination of P and V operations creates a collection of states, called a 
forbidden region, where s < 0. Because of the semaphore invariant, no feasible trajectory can include one 
of the states in the forbidden region. And since the forbidden region completely encloses the unsafe region, 
no feasible trajectory can touch any part of the unsafe region. Thus, every feasible trajectory is safe, and 
regardless of the ordering of the instructions at runtime, the program correctly increments the counter. 
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Figure 11.16: Safe sharing with semaphores. The states where s < 0 define a forbidden region that 
surrounds the unsafe region. 


11.4.4 Posix Semaphores 


The Posix standard defines a number of functions for manipulating semaphores. This section describes the 
three basic functions, sem_init, sem_wait (P), and sem_post (V). 


A program initializes a semaphore by calling the sem_init function. 


2A semaphore that is used in this way to protect shared variables is called a binary semaphore because its value is always 0 or 
i 
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#include <semaphore.h> 


int sem_init(sem.t *sem, int pshared, unsigned int value); 


returns: 0 if OK, -1 on error 


The sem_init function initializes semaphore sem to value. Each semaphore must be initialized before 
it can be used. If sem is being used to synchronize concurrent threads associated with the same process, 
then pshared is zero. If sem is being used to synchronize concurrent processes (not discussed here), then 
pshared is nonzero. We use Posix semaphores only in the context of concurrent threads, so pshared is 
0 in all of our examples. 


Programs perform P and V operations on semaphore sem by calling the sem_wait and sem_post func- 
tions, respectively. 


#include <semaphore.h> 


int sem_wait (sem_t *sem); 
int sem post (semt *sem) ; 


returns: 0 if OK, -1 on error 


Figure 11.17 shows a version of the threaded counter program from Figure 11.8, called goodcnt . c, that 
uses semaphore operations to properly synchronize access to the shared counter variable. The code follows 
directly from Figure 11.16, so there are just a few aspects of it to point out: 


e First, in a convention dating back to Dijkstra’s original semaphore paper, a binary semaphore used for 
safe sharing is often called a mutex because it provides each thread with mutually exclusive access to 
the shared data. We have followed this convention in our code. 


e Second, the Sem_init, P, and V functions are Unix-style error-handling wrappers for the sem_init, 
sem_wait,and sem_post functions, respectively. 


11.4.5 Signaling With Semaphores 


We saw in the previous section how semaphores can be used for sharing. But semaphores can also be used 
for signaling. In this scenario, a thread uses a semaphore operation to notify another thread when some 
condition in the program state becomes true. A classic example is the producer-consumer interaction 
shown in Figure 11.18. A producer thread and a consumer thread share a buffer with n slots. The producer 
thread repeatedly produces new items and inserts them in the buffer. The consumer thread repeatedly re- 
moves items from the buffer and then consumes them. Other variants allow different combinations of single 
and multiple producers and consumers. 


Producer-consumer interactions are common in real systems. For example, in a multimedia system, the 
producer might encode video frames while the consumer decodes and renders them on the screen. The 
purpose of the buffer is to reduce jitter in the video stream caused by data-dependent differences in the 
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code/threads/goodcnt.c 


1 #include "csapp.h" 

2 

3 #define NITERS 10000000 

4 

5 void *count (void *arg); 

6 

7 /* shared variables */ 

8 unsigned int cnt; /* counter */ 

9 sem_t sem; /* semaphore */ 
0 

1 int main() 

2 { 

3 pthread_t tidl, tid2; 

4 

5 Sem_init(&sem, 0, 1); 

6 

7 Pthread_create(&tidl, NULL, count, NULL); 
8 Pthread_create(&tid2, NULL, count, NULL); 
9 

20 Pthread_join(tid1l, NULL); 

21 Pthread_join(tid2, NULL); 

22 

23 if (cnt != (unsigned) NITERS*2) 
24 printf ("BOOM! cnt=%d\n", cnt); 
25 else 

26 printf ("OK cnt=%d\n", cnt); 
27 exit (0); 

28 } 

29 

30 /* thread routine */ 

31 void *count (void *arg) 

32 { 

33 int i; 

34 

35 for (i=0; i<NITERS; i++) { 

36 P(&sem) ; 

37 Cn 七 十 十 7 

38 V(&sem) ; 

39 } 

40 return NULL; 

41 } 


code/threads/goodcnt.c 


Figure 11.17: goodcnt.c: A properly synchronized version of badcnt.c. 
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Figure 11.18: Producer-consumer model. 


encoding and decoding times for individual frames. The buffer provides a reservoir of slots to the producer 
and a reservoir of encoded frames to the consumer. Another common example is the design of graphical user 
interfaces. The producer detects mouse and keyboard events and inserts them in the buffer. The consumer 
removes the events from the buffer in some priority-based manner and paints the screen. 


Figure 11.19 outlines how we would use Posix semaphores to synchronize the producer and consumer 
threads in a simple producer-consumer program where the buffer can hold at most one item. 


We use two semaphores, empty and full to characterize the state of the buffer. The empty semaphore 
indicates that the buffer contains no valid items. It is initialized to the initial number of available empty 
buffer slots (1). The full semaphore indicates that the buffer contains a valid item. It is initialized to the 
initial number of valid items (0). 


The producer thread produces an item (in this case a simple integer), then waits for the buffer to be empty 
with a P operation on semaphore empty. After the producer writes the item to the buffer, it informs the 
consumer that there is now a valid item with a V operation on ful 1. Conversely, the consumer thread waits 
for a valid item with a P operation on full. After reading the item, it signals that the buffer is empty with 
a V operation on empty. 


The impact at run-time is that the producer and consumer ping-pong back and forth, as shown in Fig- 
ure 11.21. 


11.5 Synchronizing Threads with Mutex and Condition Variables 


As an alternative to P and V operations on semaphores, Pthreads provides a family of synchronization oper- 
ations on mutex and condition variables. In general, we prefer semaphores over their Pthreads counterparts 
because they are more elegant and simpler to reason about. However, there are some useful synchronization 
patterns, such as timeout waiting, that are impossible to implement with semaphores. Thus, it is worthwhile 
to have some facility with the Pthreads operations. 


In the previous section, we learned that semaphores can be used for both sharing and signaling. Pthreads, on 
the other hand, provides one set of functions (based on mutex variables) for sharing, and another set (based 
on condition variables) for signaling. 


11.5.1 Mutex Variables 


A mutex is synchronization variable that is used like a binary semaphore to protect the access to shared 
variables. There are three basic operations defined on a mutex. 
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#include "csapp.h" 


#define NITERS 5 


void *producer (void *arg), *consumer(void *arg); 


struct { 
int buf; /* shared variable */ 
sem_t full, empty; /* semaphores */ 

} shared; 


int main () 
{ 


pthread_t tid_producer, tid_consumer; 


/* initialize the semaphores */ 
Sem_init (&shared.empty, 0, 1); 
Sem_init(&shared.full, 0, 0); 


/* create threads and wait for them to finish */ 
Pthread_create(&tid_producer, NULL, producer, NULL); 
Pthread_create(&tid_consumer, NULL, consumer, NULL); 
Pthread_join(tid_producer, NULL); 
Pthread_join(tid_consumer, NULL); 


exit (0); 


code/threads/prodcons.c 


code/threads/prodcons.c 


Figure 11.19: Producer-consumer program: Main routine. One producer thread and one consumer 
thread manipulate a 1-item buffer. Initially, empty == 1 and full == 0. 
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code/threads/prodcons.c 


1 /* producer thread */ 

2 void *producer (void *arg) 

3 { 

4 int i, item; 

5 

6 for (i=0; i<NITERS; i++) { 
7 /* produce item */ 

8 item = i; 

9 printf ("produced %d\n", item); 
0 

1 /* write item to buf */ 
2 P(&shared.empty) ; 

3 shared.buf = item; 

4 V(&shared. full); 

5 } 

6 return NULL; 

7 } 

8 

9 /* consumer thread */ 

20 void *consumer (void *arg) 

21 { 

22 int i, item; 

23 

24 for (i=0; i<NITERS; i++) { 
25 /* read item from buf */ 
26 P (&shared. full); 

27 item = shared.buf; 

28 V(&shared.empty) ; 

29 

30 /* consume item */ 

31 printf ("consumed %d\n", item); 
32 } 

33 return NULL; 

34 } 


code/threads/prodcons.c 


Figure 11.20: Producer-consumer program: Producer and consumer threads. 
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Figure 11.21: Progress graph for prodcons.c. 


#include <pthread.h> 


int pthreadmutex-_init (pthreadmutex.t *mutex, pthread.mutexattr.t *attr); 
int pthreadmutex_lock (pthreadmutext *mutex) ; 
int pthreadmutex_unlock (pthreadmutex_t *mutex) ; 


return: 0 if OK, nonzero on error 


A mutex must be initialized before it can be used, either at run-time by calling the pthread_init function, 
or at compile-time: 


al pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER; 


For our purposes, the att r argument in pthread_init will always be NULL and can be safely ignored. 


The pthread_mutex-_lock function performs a P operation and the pthread_mutex_unlock func- 
tion performs a V operation. Completing the call to pthread_mutex_lock is referred to as acquiring 
the mutex, and completing the call to pthread_mutex_unlock is referred to as releasing the mutex. At 
any point in time, at most one thread can hold the mutex. 


11.5.2 Condition Variables 


Condition variables are synchronization variables that are used for signaling. Pthreads defines three basic 
operations on condition variables. 


#include <pthread.h> 


int pthread_cond_init (pthread_cond.t *cond, pthread _condattr_t *attr); 
int pthread_cond_wait (pthread_cond.t *cond, pthread mutex.t *mutex); 
int pthread_cond_signal (pthread_cond_t *cond) ; 


return: 0 if OK, nonzero on error 
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A condition variable cond must be initialized before it is used, either by calling pthread_cond_init or 
at compile-time: 


al pthread_cond_t cond = PTHREAD_COND_INITIALIZER; 


For our purposes the attr argument will always be NULL and can be safely ignored. 


A thread waits for some program condition associated with the condition variable cond to become true 
by calling pthread_cond_wait. In order to guarantee that the call to pthread_cond_wait is indi- 
visible with respect to other instances of pthread_cond_wait and pthread_cond_signal, Pthreads 
requires that a mutex variable mutex be associated with the condition variable cond, and that a call to 
pthread _mutex_wait must always be protected by that mutex: 


1 Pthread_mutex_lock (&mutex) ; 
2 Pthread_cond_wait (&cond, &mutex) ; 
3 Pthread_mutex_unlock (&mutex) ; 


The call to pthread_cond_wait releases the mutex and suspends the current thread until cond becomes 
true. At this point, we say that the current thread is waiting on condition variable cond. 


Later, someother thread indicates that the condition associated with cond has become true by making a call 
to the pthread_cond_signal function: 


1 Pthread_cond_signal (&cond) ; 


If there are any threads waiting on condition cond, then the call to pthread_cond_signal sends a 
signal that wakes up exactly one of them. 


The thread that wakes up as a result of the signal reacquires the mutex and then returns from its call to 
pthread_cond_wait. 


If no threads are currently waiting on condition cond, then nothing happens. Thus, like Unix signals, and 
unlike Posix semaphores, Pthreads signals are not queued, which makes them much harder to reason about 
than semaphore operations. 


Aside: Pthreads signals vs. Unix signals 

Pthreads signals are totally unrelated to the Unix signals that we learned about in Sectionsec:ecf:signals. Unix 
signals have been around since the early days of Unix. Pthreads is a more modern development dating from the mid 
1990s. It is unfortunate that the Pthreads standards group decided to use the same term, but the terminology is fixed 
and we must accept it. In this chapter, we are only dealing with Pthreads signals. End Aside. 


11.5.3 Barrier Synchronization 


In general, we find that synchronizing with mutex and condition variables is more difficult and cumbersome 
than with semaphores. However, a barrier is an example of a synchronization pattern that can be expressed 
quite elegantly with operations on mutex and condition variables. 
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A barrier is a function, void barrier (void), that returns to the caller only when every other thread 
has also called barrier. Barriers are essential in concurrent programs whose threads must progress at 
roughly the same rate. For example, we use threads in our research to implement parallel simulations of 
earthquakes. The duration of the earthquake (say 60 seconds) is broken up into thousands of tiny timesteps. 
Each thread runs on a separate processor and models the propagation of seismic waves through some chunk 
of the earth, first for timestep 1, then for timestep 2, and so on. In order to get consistent results, each thread 
must finish simulating timestep k before the others can begin simulating timestep k + 1. We guarantee this 
by placing a barrier between the execution of each timestep. 


Our barrier implementation uses a signaling variant called pthread_cond_ broadcast that wakes up 
every thread currently waiting on condition variable cond. 


#include <pthread.h> 


int pthread_cond_broadcast (pthread_cond_t *cond) ; 


returns: 0 if OK, nonzero on error 


Figure 11.22 shows the code for a simple barrier package based on mutex and condition variables. 


The barrier package uses 4 global variables that are defined in lines 2-7. The variables are declared with 
the static attribute so that they are not visible to other object modules. Cond is a condition variable and 
mutex is its associated mutex variable. Nthreads records the number of threads involved in the barrier, 
and barriercnt keeps track of the number of threads that have called the barrier function. 


The barrier_init function in lines 9-14 is called once by the main thread, before it creates any other 
threads. 


The mutex that surrounds the body of the barrier function guarantees that it is executed indivisibly and 
in some total order by each thread. Thus, once the current thread has acquired the mutex in line 18, there 
are only two possibilities. 


1. If the current thread is the last to enter the barrier, then it clears the barrier count for the next time 
(line 20), and wakes up all of the other threads (line 21). We know that all of the other threads are 
asleep, waiting on a signal, because the current thread is the last to enter the barrier. 


2. If the current thread is not the last thread, then it goes to sleep and releases the mutex (line 24) so that 
other threads can enter the barrier. 


11.5.4 Timeout Waiting 


Sometimes when we write a concurrent program, we are only willing to wait a finite amount of time for a 
particular condition to become true. Since a P operation can block indefinitely, this kind of timeout waiting 
is not possible to implement with semaphore operations. However, Pthreads provides this capability, in the 
form of the pthread_cond_timedwait function. 
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code/threads/barrier.c 


#include "csapp.h" 


static 
static 


static 
static 


pthread_mutex_t mutex; 
pthread_cond_t cond; 


int nthreads; 
int barriercnt = 0; 


void barrier_init (int n) 


{ 


nthreads = n; 
Pthread_mutex_init (&mutex, NULL); 
Pthread_cond_init (&cond, NULL); 


void barrier () 


{ 


Pthread_mutex_lock (&mutex) ; 


if (++barriercnt == nthreads) { 
barriercnt = 0; 
Pthread_cond_broadcast (&cond) ; 

} 

else 


Pthread_cond_wait (&cond, &mutex) ; 


Pthread_mutex_unlock (&mutex) ; 


code/threads/barrier.c 


Figure 11.22: barrier.c: A simple barrier synchronization package. 
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#include <pthread.h> 


int pthread_cond_timedwait (pthread_cond_t *cond, pthread.mutex_t *mutex, 
struct timespec *abstime) ; 
returns: 0 if OK, ETIMEDOUT if timeout 


The pthread_cond_timedwait function behaves like the pthread_cond_wait function, except that 
it returns with an error code of ETIMEDOUT once the value of the system clock exceeds the absolute time 
value in abstime. Figure 11.23 shows a handy routine that a thread can use to build the abstime 
argument each time it calls pthread_cond_timedwait: 


code/threads/maketimeout.c 


1 #include "csapp.h" 

2 

3 struct timespec *maketimeout (struct timespec *tp, int secs) 
4 { 

5 struct timeval now; 

6 

7 gettimeofday(&now, NULL); 

8 tp->tv_sec = now.tv_sec + secs; 

9 tp->tv_nsec = now.tv_usec * 1000; 
10 return tp; 

11 } 


code/threads/maketimeout.c 


Figure 11.23: maketimeout: Builds a timeout structure for pthread_cond_timedwait. 


For a simple example of timeout waiting in a threaded program, suppose we want to write a beeping 
timebomb that waits at most 5 seconds for the user to hit the return key, printing out “BEEP” every sec- 
ond. If the user doesn’t hit the return key in time, then the program explodes by printing “BOOM!”. 
Otherwise, it prints “Whew!” and exits. Figure 11.24 shows a threaded timebomb that is based on the 
pthread_cond_timedwait function. 


The main timebomb thread locks the mutex and then creates a peer thread that calls get char, which blocks 
the thread until the user hits the return key. When get char returns, the peer thread signals the main thread 
that the user has hit the return key, and then terminates. Notice that since the main thread locked the mutex 
before creating the peer thread, the peer thread cannot acquire the mutex and signal the main thread until 
the main thread releases the mutex by calling pthread_cond_timedwait. 


Meanwhile, after the main thread creates the peer thread, it waits up to one second for the peer thread to 
terminate. If pthread_cond_timedwait does not time out, then the main thread knows that the peer 
thread has terminated, so it prints “Whew!” and exits. Otherwise, it beeps and waits for another second. 
This continues until it has waited a total of 5 seconds, at which point the loop terminates, the main thread 
explodes by printing “Boom!”, and then exits. 
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code/threads/timebomb.c 


1 #include "csapp.h" 

2 

3 #define TIMEOUT 5 

4 

5 void *thread(void *vargp) ; 

6 struct timespec *maketimeout (struct timespec *tp, int secs); 
7 

8 pthread_cond_t cond; 

9 pthread_mutex_t mutex; 

0 pthread_t tid; 

1 

2 int main() 

3 { 

4 int iy res 

5 struct timespec timeout; 

6 

7 Pthread_cond_init (&cond, NULL); 

8 Pthread_mutex_init (&mutex, NULL); 
9 

20 Pthread_mutex_lock (&mutex) ; 

ai Pthread_create(&tid, NULL, thread, NULL); 
22 for (i=0; i<TIMEOUT; i++) { 

23 printf ("BEEP\n") ; 

24 re = pthread_cond_timedwait (&cond, &mutex, 
25 maketimeout (&timeout, 1)); 
26 if (rc != ETIMEDOUT) { 

27 printf ("WHEW! \n") ; 

28 exit (0); 

29 } 

30 } 

31 printf ("BOOM!\n"); 

32 exit (0); 

33 } 

34 

35 /* thread routine */ 

36 void *thread(void *vargp) 

37 { 

38 getchar(); 

39 Pthread_mutex_lock (&mutex) ; 

40 Pthread_cond_signal (&cond) ; 

41 Pthread_mutex_unlock (&mutex) ; 

42 return NULL; 

43 } 


code/threads/timebomb.c 


Figure 11.24: timebomb.c: A beeping timebomb that explodes unless the user hits a key within 5 


seconds. 
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11.6 Thread-safe and Reentrant Functions 


When we program with threads, we must be careful to write functions that are thread-safe. A function is 
thread-safe if and only if it will always produce correct results when called repeatedly within multiple 
concurrent threads. If a function is not thread-safe, then it is said to be thread-unsafe. We can identify four 
(non-disjoint) classes of thread-unsafe functions: 


1. Failing to protect shared variables. We have already encountered this problem with the count 
function in Figure 11.8 that increments an unprotected global counter variable. 


This class of thread-unsafe function is relatively easy to make thread-safe: protect the shared vari- 
ables with the appropriate synchronization operations (e.g., P and V functions or Pthreads lock and 


unlock functions). An advantage is that it does not require any changes in the calling program. A 
disadvantage is that the synchronization operations will slow down the function. 


2. Relying on state across multiple function invocations. A pseudo-random number generator is a good 
example of this class of thread-unsafe function. Consider the rand package from [37]: 


code/threads/rand.c 


1 unsigned int next = 1; 

2 

3 /* rand - return pseudo-random integer on 0..32767 */ 
4 int rand(void) 

5 { 

6 next = next*1103515245 + 12345; 

7 return (unsigned int) (next/65536) % 32768; 
8 } 

9 

10 /* srand - set seed for rand() */ 

11 void srand(unsigned int seed) 

12 { 

13 next = seed; 

14 } 


code/threads/rand.c 


The rand function is thread-unsafe because the result of the current invocation depends on an in- 
termediate result from the previous iteration. When we call rand repeatedly from a single thread 
after seeding it with a call to srand, we can expect a repeatable sequence of numbers. However, this 
assumption no longer holds if multiple threads are calling rand. 


The only way to make a function such as rand thread-safe is to rewrite it so that it does not use any 
static data, relying instead on the caller to pass the state information in arguments. The disadvantage 
is that the programmer is now forced to change the code in the calling routine as well. In a large 
program where there are potentially hundreds of different call sites, making such modifications could 
be non-trivial and error-prone. 
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3. Returning a pointer to a static variable. Some functions, such as gethostbyname, compute a 
result ina static structure and then return a pointer to that structure. If we call such functions from 
concurrent threads, then disaster is likely as results being used by one thread are suddenly overwritten 
by another thread. 


There are two ways to deal with this class of thread-unsafe function. One option is to rewrite the 
function so that the caller passes the address of the structure to store the results in. This eliminates all 
shared data, but it requires the programmer to change the code in the caller as well. 


If the thread-unsafe function is difficult or impossible to modify (e.g., it is linked from a library), then 
another option is to use what we call the lock-and-copy approach. The idea is to associate a mutex 
with the thread-unsafe function. At each call site, lock the mutex, call the thread-unsafe function, 
dynamically allocate memory for the result, copy the result returned by the function to this memory, 
and then unlock the mutex. An attractive variant is to define a thread-safe wrapper function that 
performs the lock-and-copy, and then replace all calls to the thread-unsafe function with calls to the 
wrapper. 


4. Calling thread-unsafe functions. If a function f calls a thread-unsafe function, then f is thread-unsafe, 
too. 


Thread-safety can be a confusing issue because there is no simple comprehensive rule for distinguishing 
thread-safe functions from thread-unsafe ones. Although every thread-unsafe function references shared 
variables (or calls other functions that are thread-unsafe), not every function that references shared data is 
thread-unsafe. As we have seen, it all depends on how the function uses the shared variables. 


11.6.1 Reentrant Functions 


There is an important class of thread-safe functions, known as reentrant functions, that are characterized by 
the property that they do not reference any shared data when they are called by multiple threads. Although 
the terms thread-safe and reentrant are sometimes incorrectly used as synonyms, there is a clear technical 
distinction that is worth preserving. Reentrant functions are typically more efficient than non-reentrant 
thread-safe functions because they require no synchronization operations. Furthermore, as we have seen, 
sometimes the only way to convert a thread-unsafe function into a thread-safe one is to rewrite it so that it 
is reentrant. 


Figure 11.25 shows the set relationships between reentrant, thread-safe, and thread-unsafe functions. The 
set of all functions is partitioned into the disjoint sets of thread-safe and thread-unsafe functions. The set of 
reentrant functions is a proper subset of the thread-safe functions. 


Is it possible to inspect the code of some function and declare a priori that it is reentrant? Unfortunately, it 
depends. If all function arguments are passed by value (i.e., no pointers) and all data references are to local 
automatic stack variables (i.e., no references to static or global variables), then the function is explicitly 
reentrant, in the sense that we can assert its reentrancy regardless of how it is called. 


However, if we loosen our assumptions a bit and allow some parameters in our otherwise explicitly reentrant 
function to be passed by reference (that is, we allow them to pass pointers) then we have an implicitly 
reentrant function, in the sense that it is only reentrant if the calling threads are careful to pass pointers to 
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Figure 11.25: Relationships between the sets of reentrant, thread-safe, and non-thread-safe functions. 


non-shared data. In the rest of the book, we will use the term reentrant to include both explicit and implicit 
reentrant functions, but it is important to realize that reentrancy is sometimes a property of both the caller 
and the callee. 


To understand the distinctions between thread-unsafe, thread-safe, and reentrant functions more clearly, 
let’s consider different versions of our maketimeout function from Figure 11.23. We will start with the 
function in Figure 11.26, a thread-unsafe function that returns a pointer to a static variable. 


code/threads/maketimeout_u.c 


1 #include "csapp.h" 

2 

3 struct timespec *maketimeout_u(int secs) 
4 { 

5 static struct timespec timespec; 

6 struct timeval now; 

7 

8 gettimeofday (&now, NULL); 

9 timespec.tv_sec = now.tv_sec + secs; 
10 timespec.tv_nsec = now.tv_usec * 1000; 
11 return &timespec; 

12 } 


code/threads/maketimeout_u.c 


Figure 11.26: maket imeout_u: A version of maket imeout that is not thread-safe. 


Figure 11.27 shows how we might use the lock-and-copy approach to create a thread-safe (but not reentrant) 
wrapper that the calling program can invoke instead of the original thread-unsafe function. 


Finally, we can go all out and rewrite the unsafe function so that it is reentrant, as shown in Figure 11.28. 
Notice that the calling thread now has the responsibility of passing an address that points to unshared data. 
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code/threads/maketimeoutt.c 


#include "csapp.h" 
struct timespec *maketimeout_u(int secs); 


static pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER; 


struct timespec *maketimeout_t (int secs) 


{ 


struct timespec *sp; /* shared */ 
struct timespec *up = Malloc(sizeof (struct timespec)); /* unshared */ 


Pthread_mutex_lock (&mutex) ; 

sp = maketimeout_u(secs) ; 

*up = *sp; /* copy the shared struct to the unshared one */ 
Pthread_mutex_unlock (&mutex) ; 

return up; 


code/threads/maketimeout_t.c 


Figure 11.27: maketimeout-t: A version of maketimeout that is thread-safe but not reentrant. 


code/threads/maketimeout_s.c 


#include "csapp.h" 


struct timespec *maketimeout_r(struct timespec *tp, int secs) 


{ 


struct timeval now; 


gettimeofday (&now, NULL); 
tp->tv_sec = now.tv_sec + secs; 
tp->tv_nsec = now.tv_usec * 1000; 
return tp; 


code/threads/maketimeout_r.c 


Figure 11.28: maketimeout-_r: A version of maketimeout that is reentrant and thread-safe. 
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11.6.2 Thread-safe Library Functions 


Most Unix functions and the functions defined in the standard C library (such as malloc, free, real- 
loc, printf, and scanf) are thread-safe, with only a few exceptions. Figure 11.29 lists the common 
exceptions. (See [77] for a complete list.) 


Thread-unsafe function | Thread-unsafe class | Unix thread-safe version 


asctime asctime_r 
ctime ctime_r 
gethostbyaddr gethostbyaddr_r 


gethostbyname gethostbyname_r 
inet_ntoa (none) 

localtime localtime_r 
rand rand_r 


Figure 11.29: Common thread-unsafe library functions. 


The asctime, ctime, and Localtime functions are commonly used functions for converting back and 
forth between different time and data formats. The gethostbyname, gethostbyaddr, and inet_nota 
functions are commonly used network programming functions that we will encounter in the next chapter. 


With the exception of rand, all of these thread-unsafe functions are of the class-3 variety that return a 
pointer to a static variable. If we need to call one of these functions in a threaded program, the simplest 
approach is to lock-and-copy as in Figure 11.27. 


The disadvantage is that the additional synchronization will slow down the program. Further, this approach 
will not work for a class-2 thread-unsafe function such as rand that relies on static state across calls. There- 
fore, Unix systems provide reentrant versions of most thread-unsafe functions that end with the “_r” suffix. 
Unfortunately, these functions are poorly documented and the interfaces differ from system to system. Thus, 
the “_r” interface should not be used unless absolutely necessary. 


11.7 Other Synchronization Errors 


Even if we have managed to make our functions thread-safe, our programs can still suffer from subtle 
synchronization errors such as races and deadlocks. 


11.7.1 Races 


A race occurs when the correctness of a program depends on one thread reaching point x in its control flow 
before another thread reaches point y. Races usually occur because programmers assume that threads will 
take some particular trajectory through the execution state space, forgetting the golden rule that threaded 
programs must work correctly for any feasible trajectory. 


An example is the easiest way to understand the nature of races. Consider the simple program in Fig- 
ure 11.30. The main thread creates four peer threads and passes a pointer to a unique integer ID to each one. 
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Each peer thread copies the ID passed in its argument to a local variable (line 22), and then prints a message 


containing the ID. 


1 #include "csapp.h" 

2 

3 #define N 4 

4 

5 void *thread (void *vargp) ; 

6 

7 int main() 

8 { 

9 pthread_t tid[N]; 

0 int i; 

1 

2 for (i = 0; i < N; itt) 

3 Pthread_create(&tid[i], NULL, thread, 
4 for (i = 0; i < N; itt) 

5 Pthread_join(tid[i], NULL); 
6 exit (0); 

ae if 

8 

9 /* thread routine */ 

20 void *thread(void *vargp) 

21 { 

22 int myid = *((int *)vargp); 

23 

24 printf ("Hello from thread %d\n", myid); 
25 return NULL; 

26 } 


code/threads/race.c 


&i); 


code/threads/race.c 


Figure 11.30: A program with a race. 


It looks simple enough, but when we run this program on our system, we get the following incorrect result: 


unix> ./race 

Hello from thread 1 
Hello from thread 3 
Hello from thread 2 
Hello from thread 3 


The problem is caused by a race between each peer thread and the main thread. Can you spot the race? 


Here is what happens. When the main thread creates a peer thread in line 13, it passes a pointer to the local 
stack variable 7. At this point the race is on between the next call to pthread_create in line 13 and the 
dereferencing and assignment of the argument in line 22. If the peer thread executes line 22 before the main 
thread executes line 13, then the myid variable gets the correct ID. Otherwise it will contain the ID of some 
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other thread. The scary thing is that whether we get the correct answer depends on how the kernel schedules 
the execution of the threads. On our system it fails, but on other systems it might work correctly, leaving 
the programmer blissfully unaware of a serious bug. 


To eliminate the race, we can dynamically allocate a separate block for each integer ID, and pass the thread 
routine a pointer to this block, as shown in Figure 11.31 (lines 13-15). Notice that the thread routine must 
free the block in order to avoid a memory leak. 


code/threads/norace.c 


1 #include "csapp.h" 

2 

3 #define N 4 

4 

5 void *thread(void *vargp) ; 

6 

7 int main() 

8 { 

9 pthread_t tid[N]; 

0 int i, *ptr; 

1 

2 for (i = 0; i < N; itt) { 

3 ptr = Malloc(sizeof(int)); 
4 *ptr = i; 

5 Pthread_create(&tid[i], NULL, thread, ptr); 
6 } 

7 for (i = 0; i < N; itt) 

8 Pthread_join(tid[i], NULL); 
9 exit (0); 

20 } 


22 /* thread routine */ 
23 void *thread(void *vargp) 


24 { 

25 int myid = *((int *)vargp); 

26 

27 Free (vargp) ; 

28 printf ("Hello from thread %d\n", myid); 
29 return NULL; 

30 } 


code/threads/norace.c 


Figure 11.31: A correct version the program in Figure 11.30 without a race. 


When we run this program on our system, we now get the correct result: 


unix> ./norace 
Hello from thread 0 
Hello from thread 1 
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Hello from thread 2 
Hello from thread 3 


We will use a similar technique in Chapter 12 when we discuss the design of threaded network servers. 


Practice Problem 11.5: 


In Figure 11.31, we might be tempted to free the allocated memory block immediately after line 15 in 
the main thread, instead of freeing it in the peer thread. But this would be a bad idea. Why? 


Practice Problem 11.6: 


A. In Figure 11.31, we eliminated the race by allocating a separate block for each integer ID. Outline 
a different approach that does not call the malloc or free functions. 


B. What are the advantages and disadvantages of this approach? 


11.7.2 Deadlocks 


Semaphores introduce the potential for a nasty kind of runtime error, called deadlock, where a collection of 
threads are blocked, waiting for a condition that will never be true. The progress graph is an invaluable tool 
for understanding deadlock. For example, Figure 11.32 shows the progress graph for a pair of threads that 
use two semaphores for sharing. From this graph, we can glean some important insights about deadlock: 


Thread 2 A trajectory that does not deadlock 
V(s) | 
| Forbidden 
v(t) region 
$ f fors 
| odeadhanien Forbidden 
P(s) state region 


fort 


Deadlock 
region 


Initially 
s=1 
t=1 


A trajectory that deadlocks 


Ps). PO Ve) Vit) ‘Thread 1 


Figure 11.32: Progress graph for a program that can deadlock. 
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e The programmer has incorrectly ordered the P and V operations such that the forbidden regions for 


the two semaphores overlap. If some execution trajectory happens to reach the deadlock state 
d, then no further progress is possible because the overlapping forbidden regions block progress in 
every legal direction. In other words, the program is deadlocked because each thread is waiting for 
the other to do a V operation that will never occur. 


The overlapping forbidden regions induce a set of states, called the deadlock region. If a trajectory 
happens to touch a state in the deadlock region, then deadlock is inevitable. Trajectories can enter 
deadlock regions, but they can never leave. 


Deadlock is an especially difficult problem, because it is not always predictable. Some lucky execu- 
tion trajectories will skirt the deadlock region, while others will be trapped by it. Figure 11.32 shows 
an example of each. The implications for a programmer are somewhat scary. You might run the same 
program 1000 times without any problem, but then the next time it deadlocks. Or the program might 
work fine on one machine but deadlock on another. Worst of all, the error is often not repeatable 
because different executions have different trajectories. 


Practice Problem 11.7: 


Consider the following program, which uses a pair of semaphores for sharing. 


Initially: s = 1, t = 0. 


Thread 1: Thread 2: 
P (s); P (s); 
V(s); V(s); 
P(t); P(t); 
V(t); V(t); 


A. Does the program always deadlock? 


B. What simple change to the initial semaphore values will fix the deadlock? 


11.8 Summary 


Threads are a popular and useful tool for introducing concurrency in programs. Threads are typically more 
efficient than processes, and it is much easier to share data between threads than between processes. How- 
ever, the ease of sharing introduces the possibility of synchronization errors that are difficult to diagnose. 


Programmers writing threaded programs must be careful to protect shared data with the appropriate syn- 
chronization mechanisms. Functions called by threads must be thread-safe. Races and deadlocks must be 
avoided. In sum, the wise programmer approaches the design of threaded programs with great care and not 
a little trepidation. 
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Homework Problems 


Homework Problem 11.8 [Category 2]: 


Write a version of hello.c (Figure 11.5) that reads a command line argument n, and then creates and 
reaps n joinable peer threads. 


Homework Problem 11.9 [Category 3]: 


Generalize the producer-consumer program in Figure 11.19 to manipulate a circular buffer with a capacity 
of BUFSIZE integer items. The producer generates NITEMS integer items: 0,1,..., NITEMS — 1. For each 
item, it works for a while (i.e., Sleep (rand () SMAXRAND) ), produces the item by printing a message, 
and then inserts the item at the rear of the buffer. The consumer repeatedly removes an item from the front 
of the buffer, works for a while, and then consumes the item by printing a message. For example: 


unix> ./prodconsn 
produced 0 

produced 
consumed 
produced 
consumed 
consumed 
produced 
produced 
consumed 
consumed 
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Homework Problem 11.10 [Category 3]: 


Write a barrier synchronization package, with the same interface as the package in Figure 11.22, that uses 
semaphores instead of Pthreads mutex and condition variables. Write a driver program barriermain.c 
that tests your barrier routine. The driver accepts a command line argument n, calls the barrier_init 
function, and then creates n threads that repeatedly synchronize by printing a message and calling the 
barrier. For example, 


unix> ./barrier 2 

1026: hello from barrier 
2051: hello from barrier 
1026: hello from barrier 
2051: hello from barrier 


i 
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1026: hello from barrier 
2051: hello from barrier 
1026: hello from barrier 
2051: hello from barrier 
1026: hello from barrier 
2051: hello from barrier 
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Homework Problem 11.11 [Category 3]: 


Implement a threaded version of the C fgets function, called t fgets, that times out and returns a NULL 
pointer if it does not receive an input line on stdin within 5 seconds. 


e Your function should be implemented in a package called t£gets-thread.c. 
e Your solution may use any Pthreads function. 
e Your solution may not use the Unix sleep or alarm functions. 


e Test your solution using the following driver program: 
code/threads/tfgets-main.c 


1 #include "csapp.h" 

2 

3 char *tfgets (char *s, int size, FILE *stream); 
4 

5 int main() 

6 { 


7 char buf [MAXLINE]; 

8 

9 if (tfgets (buf, MAXLINE, stdin) == NULL) 
10 printf ("BOOM! \n") ; 

11 else 

12 printf("%s", buf); 

13 

14 exit (0); 

15 } 


code/threads/tfgets-main.c 


Homework Problem 11.12 [Category 3]: 


For an interesting contrast in concurrency models, implement t fgets using processes, signals, and nonlo- 
cal jumps instead of threads. 


e Your function should be implemented in a package called t fgets-proc.c. 


e Your solution may not use the Unix alarm function. 
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e Test your solution using the driver program from Problem 11.11. 
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Chapter 12 


Network Programming 


Network applications are everywhere. Any time you browse the Web, send an email message, or pop up 
an X window, you are using a network application. Interestingly, all network applications are based on the 
same basic programming model, have similar overall logical structures, and rely on the same programming 
interface. 


Network applications rely on many of the concepts that we have already learned in our study of systems. 
For example, processes, signals, threads, reentrancy, byte ordering, memory mapping, and dynamic storage 
allocation all play important roles. There are new concepts to master as well. We will need to understand the 
basic client-server programming model and how to write client-server programs that use the services pro- 
vided by the Internet. Since Unix models network devices as files, we will also need a deeper understanding 
of Unix file I/O. At the end, we will tie all of these ideas together by developing a small but functional Web 
server that can serve both static and dynamic content with text and graphics to real Web browsers. 


12.1 Client-Server Programming Model 


Every network application is based on the client-server model. With this model, an application consists of 
a server process and one or more client processes. A server manages some resource, and it provides some 
service for its clients by manipulating that resource. 


For example, a Web server manages a set of disk files that it retrieves for clients. An FTP server manages a 
set of disk files that it stores and retrieves for clients. An X server manages a bit-mapped display, which is 
paints for clients, and a keyboard and mouse, which it reads for clients. The X server is interesting because 
it is always close to the user while the client can be far away. Thus proximity plays no role in the definitions 
of clients and servers, even though we often think of servers as being remote and clients being local. 


The fundamental operation in the client-server model is the transaction depicted in Figure 12.1. 


A transaction consists of four steps: 


1. When a client needs service, it initiates a transaction by sending a request to the server. For example, 
when a Web browser needs a file, it sends a request to a Web server. 
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Figure 12.1: A client-server transaction. 


2. The server receives the request, interprets it, and manipulates its resource in the appropriate way. For 
example, when a Web server receives a request from a browser, it reads a disk file. 


3. The server sends a response to the client, and then waits for the next request. For example, a Web 
server sends the file back to a client. 


4. The client receives the response and manipulates it. For example, after a Web browser receives a page 
from the server, it displays it on the screen. 


Aside: Client-server transactions vs database transactions. 
Client-server transactions are not database transactions and do not share any of their properties. In this context, a 
transaction simply connotes a sequence of steps by a client and server. End Aside. 


It is important to realize that clients and servers are processes, and not machines, or hosts as they are often 
called in this context. A single host can run many different clients and servers concurrently, and a client and 
server transaction can be on the same or different hosts. The client-server model is the same, regardless of 
the mapping of clients and servers to hosts. 


12.2 Networks 


Clients and servers often run on separate hosts and communicate using the hardware and software resources 
of a computer network. Networks are sophisticated systems and we can only hope to scratch the surface 
here. Our aim is to give you aa workable mental model from a progammert’s perspective. 


To a host, a network is just another I/O device that serves as a source and sink for data, as shown in 
Figure 12.2. An adapter plugged into an expansion slot on the I/O bus provides the physical interface to the 
network. Data received from the network is copied from the adapter across the I/O and memory buses into 
memory, typically by a DMA transfer. Similarly, data can also be copied from memory to the network. 


Physically, a network is a hierarchical system that is organized by geographical proximity. At the lowest 
level is a LAN (Local Area Network) that spans a building or a campus. The most popular LAN technology 
by far is ethernet, which was developed in the mid-1970’s at Xerox PARC. Ethernet has proven to be 
remarkably resilient, evolving from 3 Mb/s transfer rates, to 10 Mb/s, to 100 Mb/s, and more recently to 1 
Gb/s. 


An ethernet segment consists of some wires (usually twisted pairs of wires) and a small box called a hub, as 
shown in Figure 12.3. Ethernet segments typically span small areas, such as a room or a floor in a building. 
Each wire has the same maximum bit bandwidth, typically 100 Mb/s or 1 Gb/s. One end is attached to an 
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Figure 12.2: Hardware organization of a network host. 
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Figure 12.3: Ethernet segment. 
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adapter on a host, and the other end is attached to a port on the hub. A hub slavishly copies every bit that it 
receives on each port to every other port. Thus every host sees every bit. 


Each ethernet adapter has a globally unique 48-bit address that is stored in a persistent memory on the 
adapter. A host can send a chunk of bits called a frame to any other host on the segment. Each frame 
includes some fixed number of header bits that identify the source and destination of the frame and the 
frame length, followed by a payload of data bits. Every host adapter sees the frame, but only the destination 
host actually reads it. 


Multiple ethernet segments can be connected into larger LANs, called bridged ethernets, using a set of 
wires and small boxes called bridges, as shown in Figure 12.4. Bridged ethernets can span entire buildings 
or campuses. In a bridged ethernet, some wires connect bridges to bridges, and others connect bridges to 


A B 
host host host host host 
hub hub 
100 Mb/s 100 Mb/s 


1 Gb/s 
host host 


100 Mb/s 100 Mb/s _[ hub 


host | host host TNn 


C 


Figure 12.4: Bridged ethernet segments. 


hubs. The bandwidths of the wires can be different. In our example, the bridge-bridge wire has a 1 Gb/s 
bandwidth, while the four hub-bridge wires have bandwidths of 100 Mb/s. 


Bridges make better use of the available wire bandwidth than hubs. Using a clever distributed algorithm, 
they automatically learn over time which hosts are reachable from which ports, and then selectively copy 
frames from one port to another only when it is necessary. For example, if host A sends a frame to host 
B, which is on the segment, then bridge X will throw away the frame when it arrives at its input port, thus 
saving bandwidth on the other segments. However, if host A sends a frame to host C on a different segment, 
then bridge X will copy the frame only to the port connected to bridge Y, which will copy the frame only to 
the port connected to bridge C’s segment. 


To simplify our pictures of LANs, we will draw the hubs and bridges and the wires that connect them as a 
single horizontal line, as shown in Figure 12.5. 


host host | = | host 


Figure 12.5: Conceptual view of a LAN. 


At a higher level in the hierarchy, multiple incompatible LANs can be connected by specialized computers 
called routers to form an internet (interconnected network). 
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Aside: Internet vs. internet. 
We will always use lower-case internet to denote the general concept, and upper-case Internet to denote a specific 
implementation, namely the global IP Internet. End Aside. 


Each router has an adapter (port) for each network that it is connected to. Routers can also connect high- 
speed point-to-point phone connections, which are examples of networks known as WANs (Wide-Area 
Networks), so called because they span larger geographical areas than LANs. In general, routers can be 
used to build internets from arbitrary collections of LANs and WANs. For example, Figure 12.6 shows an 
example internet with a pair of LANs and WANs connected by three routers. 


host host | … | host host host | … | host 


LAN LAN 


router WAN router WAN router 


Figure 12.6: A small internet. Two LANs and two WANs are connected by three routers. 


The crucial property of an internet is that it can consist of different LANs and WANs with radically different 
and incompatible technologies. Each host is physically connected to every other host, but how is it possible 
for some source host to send data bits to another destination host across all of these incompatible networks? 


The solution is a layer of protocol software running on each host and router that smooths out the differences 
between the different networks. This software implements a protocol that governs how hosts and routers 
cooperate in order to transfer data. The protocol must provide two basic capabilities: 


e Naming scheme. Different LAN technologies have different and incompatible ways of assigning 
addresses to hosts. The internet protocol smooths these differences by defining a uniform format 
for host addresses. Each host is then assigned at least one of these internet addresses that uniquely 
identifies it. 


e Delivery mechanism. Different networking technologies have different and incompatible ways of 
encoding bits on wires and of packaging these bits into frames. The internet protocol smoothes these 
differences by defining a uniform way to bundle up data bits into discrete chunks called packets. A 
packet consists of a header, which contains the packet size and addresses of the source and destination 
hosts, and a payload, which contains data bits sent from the source host. 


Figure 12.7 shows an example of how hosts and routers use the internet protocol to transfer data across 
incompatible LANs. 


The example internet consists of two LANs connected by a router. A client running on host A, which is 
attached to LAN1, sends a sequence of data bytes to a server running on host B, which is attached to LAN2. 
There are eight basic steps: 


1. The client on host A invokes a system call that copies the data from the client’s virtual address space 
into a kernel buffer. 
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Figure 12.7: How data travels from one host to another on an internet. Key: PH: internet packet header, 
FH1: frame header for LAN1, FH2: frame header for LAN2. 


2. The protocol software on host A creates a LAN1 frame by appending an internet header and a LAN1 
frame header to the data. The internet header is addressed to internet host B. The LAN1 frame header 
is addressed to the router. It then passes the frame to the adapter. Notice that the payload of the LAN1 
frame is an internet packet, whose payload is the actual user data. This kind of encapsulation is one 
of the fundamental insights of internetworking. 


3. The LAN] adapter copies the frame to the network. 


4. When the frame reaches the router, the router’s LAN1 adapter reads it from the wire and passes it to 
the protocol software. 


5. The router fetches the destination internet address from the internet packet header and uses this as an 
index into a routing table to determine where to forward the packet, which in this case is LAN2. The 
router then strips off the old LAN1 frame header, prepends a new LAN2 frame header addressed to 
host B, and passes the resulting frame to the adapter. 


6. The router’s LAN2 adapter copies the frame to the network. 


7. When the frame reaches host B, its adapter reads the frame from the wire and passes it to the protocol 
software. 


8. Finally, the protocol software on host B strips off the packet header and frame header. The protocol 
software will eventually copy the resulting data into the server’s virtual address space when the server 
invokes a system call that reads the data. 


Of course, we are glossing over many difficult issues here. What if different networks have different maxi- 
mum frame sizes? How do routers know where to forward frames? How are routers informed when the the 
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network topology changes? What if packet gets lost? Nonetheless, our example captures the essence of the 
internet idea, and encapsulation is key. 


12.3 The Global IP Internet 


The global IP Internet is the most famous and successful implementation of an internet. It has existed in one 
form or another since 1970. While the internal architecture of the Internet is complex and constantly chang- 
ing, the organization of client-server applications has remained remarkably stable since the early 1980s. 
Figure 12.8 shows the basic hardware and software organization of an Internet client-server application. 
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Figure 12.8: Hardware and software organization of an Internet application. 


Each Internet host runs software that implements the TCP/IP protocol (Transmission Control Protocol/Internet 
Protocol), which is supported by almost every modern computer system. Internet clients and servers com- 
municate using a mix of sockets interface functions and Unix file I/O functions. (We will describe Unix file 
TO in Section 12.4 and the sockets interface in Section 12.5.) The sockets functions are typically imple- 
mented as system calls that trap into the kernel and call various kernel-mode functions in TCP/IP. 


Aside: Berkeley sockets. 

The sockets interface was developed by researchers at University of California at Berkeley in the early 1980s. For 
this reason, it is still often referred to as Berkeley sockets. The Berkeley researchers developed the sockets interface 
to work with any underlying protocol. The first implementation was for TCP/IP, which they included in the Unix 
4.2BSD kernel and distributed to numerous universities and labs. This was one of the most important events in 
the history of the Internet. Almost overnight, thousands of people had access to TCP/IP and its source codes. It 
generated tremendous excitement and sparked a flurry of new research in networking and internetworking. End 
Aside. 


TCP/IP is actually of family of protocols, each of which contributes different capabilities. For example, the 
IP protocol provides the basic naming scheme and a delivery mechanism that can send packets known as 
datagrams from one Internet host to any another host. The IP mechanism is unreliable in the sense that it 
makes no effort to recover if datagrams are lost or duplicated in the network. UDP (Unreliable Datagram 
Protocol) extends IP slightly so that packets can be transfered from process to process, rather than host to 
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host. TCP is a complex protocol that builds on IP to provide reliable full-duplex connections between 
processes. To simplify our discussion, we will treat TCP/IP as a single monolithic protocol. We will not 
discuss its inner workings, and we will only discuss some of the basic capabilities that TCP and IP provide 
to application programs. We will not discuss UDP. 


From a programmer’s perspective, we can think of the Internet as a worldwide collection of hosts with the 
following properties: 


e Hosts are mapped to a set of 32-bit IP addresses. 
e The set of IP addresses is mapped to a set of identifiers called Internet domain names. 


e A process on one host communicates with a process on another host over a connection. 


The next three sections discuss these fundamental ideas in more detail. 


12.3.1 IP Addresses 


An IP address is an unsigned 32-bit integer. Network programs store IP addresses in the ZP address structure 
shown in Figure 12.9. 


netinet/in.h 


/* Internet address structure */ 
struct in_addr { 
unsigned int s_addr; /* network byte order (big-endian) */ 


}; 


netinet/in.h 


Figure 12.9: IP address structure. 


Aside: Why store the scalar IP address in a structure? 

Storing a scalar address in a structure is an unfortunate historical artifact from the early Berkeley 4.xBSD imple- 
mentations of the sockets interface. It would make more sense to define a scalar type for IP addresses, but it is too 
late to change now because of the enormous installed base of applications. End Aside. 


Because Internet hosts can have different host byte orders, TCP/IP defines a uniform network byte order 
(which is a big-endian byte order) for any integer data item, such as an IP address, that is carried across 
the network in a packet header. Addresses in IP address structures are always stored in big-endian network 
byte order, even if the host byte order is little-endian. Unix provides the following functions for converting 
between network and host byte order. 


12.3. THE GLOBAL IP INTERNET 613 


#include <netinet/in.h> 


unsigned long int htonl(unsigned long int hostlong); 
unsigned short int htons (unsigned short int hostshort) ; 


both return: value in network byte order 


unsigned long int ntohl(unsigned long int netlong) ; 
unsigned short int ntohs(unsigned short int netshort); 


both return: value in host byte order 


The hotn1 function converts a 32-bit integer from host byte to network byte order. The nt oh1 function 
converts a 32-bit integer from network byte order to host byte order. The htons and ntohs functions 
perform corresponding conversions for 16-bit integers. 


IP addresses are typically presented to humans in a form known as dotted-decimal notation, where each 
byte is represented by its decimal value and separated from the other bytes by a period. For example, 
128.2.194.242 is the dotted-decimal representation of the address 0x8002c2f£2. You can use the 
Linux HOSTNAME command to determine the dotted-decimal address of your own host: 


linux> hostname 一 工 
128.2.194.242 


Internet programs convert back and forth between IP addresses and dotted-decimal strings using the inet_aton 
and inet _ntoa functions: 


#include <arpa/inet.h> 


int inet_aton(const char *cp, struct in_addr *inp); 
returns: | if OK, 0 on error 
char *inet_ntoa(struct in_addr in); 


returns: pointer to a dotted-decimal string 


The inet_aton function converts a dotted-decimal string (cp) to an IP address in network byte order 
(inp). Similarly, the inet_ntoa function converts an IP address in network byte order to its corresponding 
dotted-decimal string. Notice that a call to inet_aton passes a pointer to a structure, while a call to 
inet _ntoa passes the structure itself. 


Aside: What do ntoa and aton mean? 
The "n" denotes network representation. The "a" denotes application representation. End Aside. 


Practice Problem 12.1: 
Complete the following table. 
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Dotted-decimal address 

E aa 

[aas 
oxer000001 | 一 


205.188.160.121 


| | 64.12.149.13 
[| 205.188.146.23 


Practice Problem 12.2: 


Write a program hex2dd.c that converts its hex argument to a dotted-decimal string and prints the 
result. For example, 


unix> ./hex2dd 0x8002c2f£2 
128.2.194.242 


Practice Problem 12.3: 


Write a program dd2hex.c that converts its dotted-decimal argument to a hex number and prints the 
result. For example, 


unix> ./dd2hex 128.2.194.242 
Ox8002c2f2 


12.3.2 Internet Domain Names 


Internet clients and servers use IP addresses when they communicate with each other. However, large 
integers are difficult for people to remember, so the Internet also defines a separate set of more human- 
friendly domain names as well as a mechanism that maps the set of domain names to the set of IP addresses. 
A domain name is a sequence of words (letters, numbers, and dashes) separated by periods. For example, 


kittyhawk.cmcl.cs.cmu.edu 


The set of domain names forms a hierarchy and each domain name encodes its position in the hierarchy. An 
example is the easiest way to understand this. Figure 12.10 shows a portion of the domain name hierarchy. 
The hierarchy is represented as a tree. The nodes of the tree represent domain names that are formed 
by the path back to the root. Sub-trees are referred to as subdomains. The first level in the hierarchy is 
an unnamed root node. The next level is a collection of first-level domain names that are defined by a 
non-profit organization called ICANN (Internet Corporation for Assigned Names and Numbers). Common 
first-level domains include com, edu, gov, org, and net. 


At the next level are second-level domain names such as cmu . edu, which are assigned on a first-come 
first-serve basis by various authorized agents of ICANN. Once an organization has received a second-level 
domain name, then it is free to create any other new domain name within its subdomain. 
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unnamed root 
mil edu gov com first-level domain names 
mit cmu berkeley amazon second-level domain names 
CS ece Www third-level domain names 
ue. 208.216.181.15 
cmcl pdl 
kittyhawk imperial 


128.2.194.242 128.2.189.40 


Figure 12.10: Subset of the Internet domain name hierarchy. 


The Internet defines a mapping between the set of domain names and the set of IP addresses. Until 1988, 
this mapping was maintained manually in a single text file called hosts.txt. Since then, the mapping 
has been maintained in a distributed world-wide database known as DNS (Domain Naming System). The 
DNS database consists of millions of the host entry structures shown in Figure 12.11, each of which defines 
the mapping between a set of domain names (an official name and a list of aliases) and a set of IP addresses. 
In a mathematical sense, we can think of each host entry as an equivalence class of domain names and IP 


addresses. 
netdb.h 
/* DNS host entry structure */ 
struct hostent { 
char *h_name; /* official domain name of host */ 
char xxh_ aliases; /* null-terminated array of domain names */ 
int h_addrtype; /* host address type (AF_INET) */ 
int h_length; /* length of an address, in bytes */ 
char xxh addr_list; /* null-terminated array of in_addr structs */ 
}; 
netdb.h 


Figure 12.11: DNS host entry structure. 


Internet applications retrieve arbitrary host entries from the DNS database by calling the get hostbyname 
and gethostbyaddr functions. 
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#include <netdb.h> 


struct hostent *gethostbyname (const char *name) ; 


returns: non-NULL pointer if OK, NULL pointer on error with h_errno set 
struct hostent *gethostbyaddr(const char *addr, int len, 0); 
returns: non-NULL pointer if OK, NULL pointer on error with h_errno set 


The gethostbyname returns the host entry associated with the domain name name. The gethost-— 
byaddr function returns the host entry associated with the IP address addr. The second argument gives 
the length in bytes of an IP address, which for the current Internet is always four bytes. For our purposes, 
the third argument is always zero. 


We can explore some of the properties of the DNS mapping with the host info program in Figure 12.12, 
which reads a domain name or dotted-decimal address from the command line and displays the correspond- 
ing host entry. ( We are actually calling error handling wrappers, which were introduced in Section 8.3 and 
described in detail in Appendix A.) 


Each Internet host has the locally-defined domain name localhost, which always maps to the loopback 
address 127.0.0.1: 


unix> ./hostinfo localhost 
official hostname: localhost 
alias: localhost.localdomain 
address: 127.0.0.1 


The localhost name provides a convenient and portable way to reference clients and servers that are 
running on the same machine, which can be especially useful for debugging. We can use HOSTNAME to 
determine the real domain name of our local host: 


unix> hostname 
kittyhawk.cmcl.cs.cmu.edu 


In the simplest case there is a one-to-one mapping between a domain name and an IP address: 


unix> ./hostinfo kittyhawk.cmcl.cs.cmu.edu 
official hostname: kittyhawk.cmcl.cs.cmu.edu 
address: 128.2.194.242 


However, in some cases, multiple domain names are mapped to the same IP address: 


unix> ./hostinfo cs.mit.edu 
official hostname: EECS.MIT.EDU 
alias: cs.mit.edu 

address: 18.62.1.6 


In the most general case, multiple domain names can be mapped to multiple IP addresses: 


unix> ./hostinfo www.aol.com 
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code/net/hostinfo.c 


#include "csapp.h" 


int main(int argc, char **argv) 


{ 


char **pp; 
struct in_addr addr; 
struct hostent *hostp; 


if (argc != 2) { 
fprintf(stderr, "usage: %s <domain name or dotted-decimal>\n", 
argv[0]); 
exit (0); 
} 
if (inet_aton(argv[1], &addr) != 0) 


hostp = Gethostbyaddr((const char *)&addr, sizeof(addr), AF_INET); 
else 
hostp = Gethostbyname(argv[1]); 


printf ("official hostname: %s\n", hostp->h_name) ; 


for (pp = hostp->h_aliases; *pp != NULL; pptt) 
printf("alias: %s\n", *pp); 


for (pp = hostp->h_addr_list; *pp != NULL; pptt) { 
addr.s_addr = *((unsigned int *)*pp); 
printf ("address: %s\n", inet_ntoa(addr) ); 

} 

exit (0); 


codeMet/hostinfo.c 


Figure 12.12: HOSTINFO: Retrieves and prints a DNS host entry. 
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official hostname: aol.com 
alias: www.aol.com 
address: 205.188.160.121 
address: 64.12.149.13 
address: 205.188.146.23 


Finally, we notice that some valid domain names are not mapped to any IP address: 


unix> ./hostinfo edu 

Gethostbyname error: No address associated with name 
unix> ./hostinfo cmcl.cs.cmu.edu 

Gethostbyname error: No address associated with name 


Practice Problem 12.4: 


Compile the HOSTINFO program from Figure 12.12. Then run hostinfo aol.com three times ina 
row on your system. 


A. What do you notice about the ordering of the IP addresses in the three host entries? 


B. How might this ordering be useful? 


12.3.3 Internet Connections 


Internet clients and servers communicate by sending and receiving streams of bytes over connections. A 
connection is point-to-point in the sense that it connects a pair of processes. It is full-duplex in the sense 
that data can flow in both directions at the same time. And it is reliable in the sense that — barring some 
catastrophic failure such as a cable cut by a careless backhoe operator — the stream of bytes sent by the 
source process is eventually received by the destination process in the same order it was sent. 


A socket is an endpoint of a connection. Each socket has a corresponding socket address that consists of 
an Internet address and an 16-bit integer port, and is denoted by address: port. The port in the client’s 
socket address is assigned automatically by the kernel when the client makes a connection request, and is 
known as an ephemeral port. However, the port in the server’s socket address is typically some well-known 
port that is associated with the service. For example, Web servers typically use port 80, and email servers 
use port 25. On Unix machines, the file /etc/services contains a comprehensive list of the services 
provided on that machine, along with their well-known ports. 


A connection is uniquely identified by the socket addresses of its two endpoints. This pair of socket ad- 
dresses is known as a socket pair and is denoted by the tuple 


(cliaddr:cliport, servaddr:servport) 


where cliaddr is the client’s IP address, cliport is the client’s port, servaddr is the server’s IP 
address, and servport is the server’s port. For example, Figure 12.13 shows a connection between a Web 
client and a Web server. 


In this example, the Web client’s socket address is 
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client socket address server socket address 
128.2.194.242:51213 208.216.181.15:80 
四 VY server 人 | 
! i connection socket pair i\ (port 80) / | 
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client host address server host address 
128.2.194.242 208.216.181.15 


Figure 12.13: Anatomy of an Internet connection 


128.2.194.242:51213 
where port 51213 is an ephemeral port assigned by the kernel. The Web server’s socket address is 
208.216.181.15:80 


where port 80 is the well-known port associated with Web services. Given these client and server socket 
addresses, the connection between the client and server is uniquely identified by the socket pair 


(128.2.194.242:51213, 1208.216.181.15:80). 


In Section 12.5 we will learn how C programs use the sockets interface to establish connections between 
clients and servers. But since sockets are modeled in Unix as files, we must first develop an understanding 
of Unix file I/O, which is the topic of the next section. 


12.4 Unix file I/O 


A Unix file is a sequence of n bytes 
Bo, Bi,...,Be,..-,Bn-1. 


All I/O devices, such as networks, disks, and terminals, are modeled as files, and all input and output is 
performed by reading and writing the appropriate files. This elegant mapping of devices to files allows Unix 
to export a simple, low-level application interface, known as Unix I/O, that enables all input and output to 
be performed in a uniform and consistent way. 


Aside: Standard I/O and Unix I/O. 
The familiar, higher-level I/O routines in the C standard library, such as printf and scanf, are all implemented 
using the lower-level Unix I/O functions. End Aside. 


An application announces its intention to access an I/O device by asking the kernel to open the correspond- 
ing file. The kernel returns a small non-negative integer, called a descriptor, that identifies the file in 
all subsequent operations on the file. The kernel keeps track of all information about the open file; the 
application keeps keep track of only the descriptor. 
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The kernel maintains a file position k, initially 0, for each open file. An application can set the current file 
position k explicitly by performing a seek operation. 


A read operation copies m > 0 bytes from the file to memory, starting at the current file position k, and 
then incrementing k by m. A read operation with k > n triggers a condition known as end-of-file (EOF), 
which can be detected by the application. Notice that there is no explicit "EOF character” at the end of a file. 
Similarly, a write operation copies m > 0 bytes from memory to a file, starting at the current file position 
k, and then updating K. 


When an application is finished reading and writing the file, it informs the kernel by asking it to close the 
file. The kernel frees the structures it created when the file was opened and restores the descriptor to a 
pool of available descriptors. The next file that is opened is guaranteed to receive the smallest available 
descriptor in the pool. When a process terminates for any reason, the kernel closes all open files, and frees 
their memory resources. 

By convention, each process created by a Unix shell begins life with three open files: standard input 


(descriptor 0), standard output (descriptor 1), and standard error (descriptor 2). The system header file 
unistd.h defines the following constants, 


#define STDIN _FILENO 0 
#define STDOUT_FILENO 1 
#define STDERR _FILENO 2 


which for clarity can be used instead of explicit descriptor values. 


12.4.1 The read and write Functions 


Applications perform input and output by calling the read and write functions, respectively. 


#include <unistd.h> 


ssizet read(int fd, void *buf, size_t count); 


returns: number of bytes read if OK, 0 on EOF, -1 on error 


ssizet write(int fd, const void *buf, size_t count); 


returns: number of bytes written if OK, -1 on error 


The read function copies at most count bytes from the current file position of descriptor fd to memory 
location buf. A return value of —1 indicates an error, and a return value of 0 indicates EOF. Otherwise, the 
return value indicates the number of bytes that were actually transferred. 


The write function copies at most count bytes from memory location buf to the current file position of 
descriptor fd. Figure 12.14 shows a program that uses read and write calls to copy the standard input 
to the standard output, one byte at a time. 
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code/net/cpstdin.c 


1 #include "csapp.h" 

2 

3 int main(void) 

4 { 

5 char c; 

6 

7 /* copy stdin to stdout, one byte at a time */ 
8 while (Read(STDIN_FILENO, &c, 1) != 0) 
9 Write (STDOUT_FILENO, &c, 1); 

10 exit (0); 

11 } 


code/net/cpstdin.c 


Figure 12.14: Copies standard input to standard output. 


12.4.2 Robust File I/O With the readn and writen Functions. 


In some situations, read and write transfer fewer bytes than the application requests. Such short counts 
do not indicate an error, and can occur for a number of reasons: 


e Encountering end-of-file on reads. If the file contains only 20 more bytes and we are reading in 50- 
byte chunks, then the current read will return a short count of 20. The next read will signal EOF 
(end-of-file) by returning a short count of zero. 


e Reading text lines from a terminal. If the open file is associated with a terminal (i.e., a keyboard and 
display), then the read function will transfer the next text line. 


e Reading and writing network sockets. If the open file corresponds to a network socket, then internal 
buffering constraints and long network delays can cause read and write to return short counts. 


Robust applications in general, and network applications in particular, must anticipate and deal with short 
counts. In Figure 12.14 we skirted this issue by transferring one byte at a time. While technically correct, 
this approach is grossly inefficient because it requires 2n system calls. Instead, you should use the readn 
and writen functions from W. Richard Stevens’s classic network programming text [77]. 


#include "csapp.h" 


ssizet readn(int fd, void *buf, size_t count); 
ssizet writen(int fd, void *buf, size_t count); 


both return: number of bytes read (0 if EOF) or written, -1 on error 


The code for these functions is shown in Figure 12.15. The readn function returns a short count only when 
the input operation extends past the end of file. Other short counts are handled by repeatedly invoking read 
until count bytes have been transferred. The writen function never returns a short count. 
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code/src/csapp.c 


ssize_t readn(int fd, void *buf, size_t count) 
{ 

size_t nleft = count; 

ssize_t nread; 

char *ptr = buf; 


while (nleft > 0) { 
if ((nread = read(fd, ptr, nleft)) < 0) { 


if (errno == EINTR) 

nread = 0; /* and call read() again */ 
else 

return -1; /* errno set by read() */ 


} 
else if (nread == 0) 
break; /* EOF */ 
nleft -= nread; 
ptr += nread; 


} 


return (count - nleft); /* return >= 0 */ 


code/src/csapp.c 


code/src/csapp.c 


ssize_t writen(int fd, const void *buf, size_t count) 
{ 

size_t nleft = count; 

ssize_t nwritten; 

const char *ptr = buf; 


while (nleft > 0) { 
if ((nwritten = write(fd, ptr, nleft)) <= 0) { 


if (errno == EINTR) 
nwritten = 0; /* and call write() again */ 
else 
return -1; /* errorno set by write() */ 
} 
nleft -= nwritten; 


ptr += nwritten; 
} 
return count; 


code/src/csapp.c 


Figure 12.15: readn and writen: Robust versions of read and write Adapted from [77]. 
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Notice that the routines manually restart read or write if they are interrupted by the return from an appli- 
cation signal handler (lines 9-10). Manual restarts are unnecessary on Unix systems, which automatically 
restart interrupted read and write calls. However, other systems such as Solaris do not restart interrupted 
system calls, and on these systems we must manually restart them. 


12.4.3 Robust Input of Text Lines Using the readline Function 


A text line is a sequence of ASCII characters terminated by a newline character. (The newline character is the 
same as the ASCII line feed character (LF) and has a numeric value of 0x0a.) Many network applications, 
such as Web clients and servers, communicate using sequences of text lines. For these programs you should 
use the readline function [77] whenever you input a text line. 


#include "csapp.h" 


ssize.t readline(int fd, void *buf, size_t maxlen)j; 


returns: number of bytes read (0 if EOF), -1 on error 


The readline function has the same semantics as the fgets function in the C Standard I/O library. It 
reads the next text line from file fd (including the terminating newline character), copies it to memory 
location buf, and terminates the text line with the null character. Readline reads at most maxlen- 
1 bytes, leaving room for the terminating zero. If the text line is longer than maxlen-—1 bytes, then 
readline simply returns the first maxlen-—1 bytes of the line. Figure 12.16 shows the code for the 
readline package. It is somewhat subtle and needs to be studied carefully. 


The my_read function copies the next character in the file to location ptr. It returns —1 on error (with 
errno) set appropriately, 0 on EOF, and 1 otherwise. Notice that my_read is a static function, and 
thus is not visible to applications. 


To improve efficiency, my_read maintains a static buffer that it refreshes in MAXLINE-sized blocks. 
Variable read_ptr points to the buffer byte to return to the caller, and variable read_cnt is the number 
of bytes in the buffer that have yet to be returned to the caller. The function initiates a new block-read 
operation each time read_cnt drops to zero (line 6). 


The readline function calls my_read at most maxlen-1 times, terminating either when it encounters 
a newline character (line 30), when my_read returns EOF (line 35), or when my_read indicates an error 
(line 40). 


12.4.4 The stat Function 


An application retrieves information about disk files by calling the st at function. 
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code/src/csapp.c 


static ssize_t my_read(int fd, char *ptr) 


{ 


static int read_cnt = 0; 
static char *read_ptr, read_buf [MAXLIN 


Gl 
wu 
~ 


if (read_cnt <= 0) { 
again: 
if ( (read_cnt = read(fd, read_buf, sizeof (read_buf))) < 0) { 
if (errno == EINTR) 
goto again; 
return -1; 


} 
else if (read_cnt == 0) 
return 0; 
read_ptr = read_buf; 
} 
read_cnt--; 
*ptr = *read_ptrt+t; 
return 1; 


ssize_t readline(int fd, void *buf, size_t maxlen) 


{ 


int Nn, ÉC} 
char c, *ptr = buf; 


for (n = 1; n < maxlen; n++) { /* notice that loop starts at 1 */ 
if ( (rc = my_read(fd, &c)) == 1) { 
*ptrt++ = c; 
Lf (== "\n"7) 
break; /* newline is stored, like fgets() */ 
} 
else if (rc == 0) { 
if (n == 1) 
return 0; /* EOF, no data read */ 
else 
break; /* EOF, some data was read */ 
} 
else 
return -1; /* error, errno set by read() */ 


} 
*ptr = 0; /* null terminate like fgets() */ 
return n; 


code/src/csapp.c 


Figure 12.16: readline package: Reads a text line from a descriptor. Adapted from [77]. 
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#include <unistd.h> 
#include <sys/stat.h> 


int stat(const char *filename, struct stat *buf); 


returns: 0 if OK, -1 on error 


The stat function takes as input a filename, such as /usr/dict/words, and fills in the members of a 
stat structure shown in Figure 12.17. We will need the st_mode and st_size members of the stat 
structure when we discuss Web servers in Section 12.7. The st_mode member encodes both the file type 
and the file protection bits. The st_size member contains the file size in bytes. The meaning of the other 
members is beyond our scope. 


statbuf.h (included by sys/stat.h) 


/* file info returned by the stat function */ 
struct stat { 


dev_t st_dev; /* device */ 

ino_t st_ino; /* inode */ 

mode_t st_mode; /* protection and file type */ 
nlink_t st_nlink; /* number of hard links */ 

uid_t st_uid; /* user ID of owner */ 

gid_t st_gid; /* group ID of owner */ 

dev_t st_rdev; /* device type (if inode device) */ 
off t st_size; /* total size, in bytes */ 
unsigned long st_blksize; /* blocksize for filesystem I/O */ 
unsigned long st_blocks; /* number of blocks allocated */ 
time_t st_atime; /* time of last access */ 

time_t st_mtime; /* time of last modification */ 
time_t st_ctime; /* time of last change */ 


statbuf.h (included by sys/stat.h) 


Figure 12.17: The stat structure. 


A Unix system recognizes a number of different file types. For example, a regular file contains some sort 
of binary or text data. To the kernel there is no difference between text files and binary files. A directory 
file contains information about other files. And a socket is a file that is used to communicate with another 
process across a network. Unix provides macro predicates for determining the file type. Figure 12.18 shows 
a subset. Each file type macro takes an st-mode member as its argument. 


S_ISREGO | Is this a regular file? 
S_ISDIRO | Is this a directory file? 


Figure 12.18: Some macros for determining the type of file. Defined in sys/stat.h 
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The protection bits in st _mode can be tested using the bit masks in Figure 12.19. For example, the follow- 


User (owner) can read this file 
User (owner) can write this file 
User (owner) can execute this file 
Group members can read this file 


Group members can write this file 
Group members can execute this file 
Others (anyone) can read this file 
Others (anyone) can write this file 
Others (anyone) can execute this file 


Figure 12.19: Masks for checking protection bits. Defined in sys/stat.h 


ing code fragment checks if the current process has permission to read a file: 


1 if (S_ISREG(stat.st_mode) && (stat.st_mode & S_IRUSR) ) 
2 printf("This is a regular file that I can read\n"); 


12.4.5 The dup2 Function 


The Unix shell provides an I/O redirection operator that allows users to redirect the standard output to a disk 
file. For example, 


unix> ls >foo 
writes the standard output of the 1s program to the file foo. As we shall see in Section 12.7, a Web server 


performs a similar kind of redirection when it runs a CGI program on behalf of the client. One way to 
accomplish I/O redirection is to use the dup2 function. 


#include <unistd.h> 


int dup2(int oldfd, int newfd); 


returns: nonnegative descriptor if OK, -1 on error 


The dup2 function duplicates descriptor oldfd, assigns it to descriptor newfd, and returns newfd. If 
newfd was already open, then dup2 closes newfd before it duplicates oldfd. 


For each process, the kernel maintains a descriptor table that is indexed by the process’s open descriptors. 
The entry for an open descriptor points to a file table entry that consists of, among other things, the current 
file position and a reference count of the number of descriptor entries that currently point to it. The file table 
entry in turn points to an i-node table entry that characterizes the physical location of the file on disk, and 
contains most of the information in the st at structure, including the st_mode and st_size members. 
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Typically there is a one-to-one mapping between descriptors and files. For example, suppose we have the 
situation in Figure 12.20 where descriptor 1 (stdout) corresponds to file A (say a terminal), while descriptor 
4 corresponds to file B (say a disk). The reference counts for the A and B are both equal to 1. 


open file 
table entries ; 
f i-node 
file A table entries 
本 file A 
file pos 
per process = a 
descriptor table refcnt =1 st_mode 
0 st_size 
2 file B 
3 file B 
4) file pos m 
: refent = 1 st_mode 
7 st_size 


Figure 12.20: Kernel data structures before dup2 (4, 1) 


The dup2 function allows multiple descriptors to be associated with the same file. For example, Fig- 
ure 12.21 shows the situation after calling dup2 (4,1). Both descriptors now correspond to file B, file A 
has been closed, and the reference count for file B has been incremented. From this point on, any data that 
is written to standard output is redirected to file B. 


per process 


descriptor table open file 
0 table entries i-node 
k file B table entries 
3 C | 一 一 一 | file B 
4j 7 file pos 7 
> refcnt = 2 st_mode 
7 st_size 


Figure 12.21: Kernel data structures after dup2 (4, 1) 


12.4.6 Theclose Function 


A process informs the kernel that is finished reading and writing a file by calling the close function. 


#include <unistd.h> 


int close(int fd); 


returns: zero if OK, -1 on error 


The kernel does not delete the associated file table entry unless the reference count is zero. For example, 
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suppose we have the situation in Figure 12.21, where descriptors 1 and 4 both point to the same file table 
entry. If we were to close descriptor 1, then we could still perform input and output on descriptor 4. 


Closing a closed descriptor is an error, but unfortunately programmers rarely check for this error. In Sec- 
tion 12.6.2 we will see that threaded programs that close already closed descriptors can suffer from a subtle 
race condition that sometimes causes a thread to catastrophically close another thread’s open descriptor. The 
bottom line: always check return codes, even for seemingly innocuous functions such as close. 


12.4.7 Other Unix I/O Functions 


Unix provides two additional I/O functions, open and 1seek. The open function creates new files and 
opens existing files. In each case, it returns a descriptor that can be used by other Unix file I/O routines. We 
will not describe open in any more depth because a clear understanding requires numerous details about 
Unix file systems that are not relevant to network programming. 


The 1seek function modifies the current file position. Since it is illegal to change the current file position 
of a socket, we will not discuss this function either. 


12.4.8 Unix I/O vs. Standard I/O 


The ANSII C standard defines a set of input and output functions, known as the standard I/O library, that 
provide a higher-level and more convenient alternative to the underlying Unix I/O functions. Functions 
such as fopen, fclose, fseek, fread, fwrite, fgetc, fputc, fgets, fputs, fscanf, and 
fprintf are commonly used standard I/O functions. 


The standard I/O functions are the method of choice for input and output on disk and terminal devices. And 
in fact, most C programmers use these functions exclusively, never bothering with the the lower-level Unix 
T/O functions. Unfortunately, standard I/O poses some tricky problems when we attempt to use it for input 
and output on network sockets. 


The standard I/O models a file as a stream, which is a higher-level abstraction of a file descriptor. Like 
descriptors, streams can be full-duplex, so a program can perform input and output on the same stream. 
However, there are restrictions on full-duplex streams that interact badly with restrictions on sockets: 


e Restriction 1: An input function cannot follow an output function without an intervening call to 
fflush, fseek, fsetpos, or rewind. For efficiency reasons, standard I/O streams are buffered. 
Each stream has its own buffer. The first call to a standard I/O input function reads a large block 
of data from the disk, and stores it in a buffer in main memory. Subsequent requests to read from 
the stream are served from the buffer rather than disk. The fflush function empties the buffer 
associated with a stream. The latter three functions use the Unix I/O lseek function to reset the 
current file position. 


e Restriction 2: An output function cannot follow an input function without an intervening call to 
fseek, fsetpos, or rewind, unless the input function encounters an end-of-file. 


These restrictions pose a problem for network applications because it is illegal to use the 1seek function 
on a network socket. The first restriction on stream I/O can be worked around by a discipline of flushing 
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the buffer before every input operation. The only way to work around the second restriction is to open two 
streams on the same open socket descriptor, one for reading and one for writing. 


FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"); 
fpout = fdopen(sockfd, "w"); 


A WN Be 


However, this approach has problems as well, because it requires the application to call fclose on both 
streams in order to free the memory resources associated with each stream and avoid a memory leak: 


1 fclose (fpin); 
2 fclose (fpout); 


Each of these operations attempts to close the same underlying socket descriptor, so the second close 
operation will fail. While this is not necessarily a fatal error in a sequential program, closing the same 
descriptor twice in a threaded program is a recipe for disaster. Thus, we recommend avoiding the standard 
TO functions for input and output on network sockets. Use the robust readn, writen, and readline 
functions instead. 


12.5 The Sockets Interface 


The sockets interface is a set of functions that are used in conjunction with the Unix file I/O functions to 
build network applications. It has been implemented on most modern systems, including Linux and the other 
Unix variants, Windows, and Macintosh systems. Figure 12.22 gives an overview of the sockets interface in 
the context of a typical client-server transaction. You should use this picture as road map when we discuss 
the individual functions. 


12.5.1 Socket Address Structures 


From the perspective of the Unix kernel, a socket is an endpoint for communication. From the perspective 
of a Unix program, a socket is an open file with a corresponding descriptor. 


Internet socket addresses are stored in 16-byte structures of the type sockaddr_in shown in Figure 12.23. 
For Internet applications, the sin_family member is AF_INET, the sin port member is a 16-bit port 
number, and the sin_addr member is a 32-bit IP address. The IP address and port number are always 
stored in network (big-endian) byte order. 


Aside: What does the _in suffix mean? 
The -in suffix is short for internet, not input. End Aside. 


Aside: Why do we need that sockaddr structure? 
The generic sockaddr structure in Figure 12.23 is an unfortunate historical artifact that confuses many program- 
mers. The sockets interface was designed in the early 1980’s to work with any type of underlying network protocol, 
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Figure 12.22: Overview of the sockets interface. 


sockaddr: socketbits.h (included by socket.h). sockaddr_in: netinit/in.h 


/* Generic socket address structure 


struct sockaddr { 
unsigned short 
char 

}; 


sa_family; 
sa_data[14]; 


/* Internet-style socket address 


struct sockaddr_in 
unsigned short 
unsigned short 
struct in_addr 
unsigned char 
}; 


{ 
sin_family; 
sin_port; 
sin_addr; 
sin_zero[8]; 


(for connect, bind, and accept) */ 


/* protocol family */ 
/* address data. */ 


structure */ 


/* 
/* 
/* 
/* 


address family (always AF_INET) */ 
port number in network byte order */ 
IP address in network byte order */ 
pad to sizeof(struct sockaddr) */ 


sockaddr: socketbits.h (included by socket.h). sockaddr_in: netinit/in.h 


Figure 12.23: Socket address structures. The in_addr struct is shown in Figure 12.9. 
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each of which was expected to define its own 16-byte protocol-specific sockaddr-_xx socket address structure. 
No one at the time had any inkling that TCP/IP would become so dominant. End Aside. 


The connect, bind, and accept functions require a pointer to protocol-specific socket address struc- 
ture. The problem faced by the designers of the sockets interface was how to define these functions to 
accept any kind of socket address structure. Today we would use the generic void * pointer, which did 
not exist in C at that time. The solution was to define sockets functions to expect a pointer to a generic 
sockaddr structure, and then require applications to cast pointers to protocol-specific structures to this 
generic structure. 


To simplify our code examples, we will follow Stevens’s lead and define the following type 


1 typedef struct sockaddr SA; 


that we use whenever we need to cast a protocol-specific structure to a generic one. 


12.5.2 The socket Function 


Clients and servers use the socket function to create a socket descriptor. 


#include <sys/types.h> 
#include <sys/socket.h> 


int socket (int domain, int type, int protocol); 


returns: nonnegative descriptor if OK, -1 on error 


In our codes, we will always call the socket function with the following arguments: 


al sockfd = Socket (AF_INET, SOCK_STREAM, 0); 


where AF_INET indicates that we are using the Internet, and SOCK_STREAM indicates that the socket will 
be an endpoint for an Internet connection. The sockfd descriptor returned by socket is only partially 
opened and cannot yet be used for reading and writing. How we finish opening the socket depends on 
whether we are a client or a server. 


12.5.3 The connect Function 


A client establishes a connection with a server by calling the connect function. 


#include <sys/socket.h> 


int connect (int sockfd, struct sockaddr *serv_addr, int addrlen ); 


returns: 0 if OK, -1 on error 
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The connect function attempts to establish an Internet connection with the server at socket address 
serv_addr, where addrlen is sizeof (sockaddr_in). The connect function blocks until ei- 
ther the connection is successfully established, or an error occurs. If successful, the sockfd descriptor is 
now ready for reading and writing, and the resulting connection is characterized by the socket pair 


(x:y, serv_addr.sin_addr:serv_addr.sin_port) 


where x is the client’s IP address and y is the ephemeral port that uniquely identifies the client process on 
the client host. 


Figure 12.24 shows our open_client fd helper function that a client uses to establish a connection with 
a server running on host hostname and listening for connection requests on the well-known port port. It 
returns a file descriptor that is ready for input and output using Unix file I/O. 


code/src/csapp.c 


int open_clientfd(char *hostname, int port) 
{ 

int clientfd; 

struct hostent *hp; 

struct sockaddr_in serveraddr; 


clientfd = Socket (AF_INET, SOCK_STREAM, 0); 


1 

2 

3 

4 

5 

6 

7 

8 

9 /* fill in the server’s IP address and port */ 

0 hp = Gethostbyname (hostname) ; 

1 bzero((char *) &serveraddr, sizeof (serveraddr) ); 

2 serveraddr.sin_family = AF_INET; 

3 bcopy ( (char *)hp->h_addr, 

4 (char *)&serveraddr.sin_addr.s_addr, hp->h_length) ; 
5 serveraddr.sin_port = htons (port); 

6 
7 
8 
9 


/* establish a connection with the server */ 
Connect (clientfd, (SA *) &serveraddr, sizeof (serveraddr) ); 


20 return clientfd; 
21 } 


code/src/csapp.c 


Figure 12.24: open_client fd: helper function that establishes a connection with a server. 


After creating the socket descriptor (line 11), we retrieve the DNS host entry for the server (line 14) and 
copy the first IP address in the host entry (which is already in network byte order) to the server’s socket 
address structure (lines 17-18). After initializing the socket address structure with the server’s well-known 
port number in network byte order (line 19), we initiate the connect request to the server (line 22). When 
connect returns, we return the socket descriptor to the client, which can immediately begin using Unix 
I/O operations to communicate with the server. 
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12.5.4 The bind Function 


The remaining functions — bind, listen, and accept — are used by servers to establish connections 
with clients. 


#include <sys/socket.h> 


int bind(int sockfd, struct sockaddr *my_addr, int addrlen); 


returns: 0 if OK, -1 on error 


The bind function tells the kernel to associate the server’s socket address in my_addr with the socket 
descriptor sockfd. The addrlen argument is sizeof (Sockaddr-_in). 


12.5.5 The listen Function 


Clients are active entities that initiate connection requests. Servers are passive entities that wait for connec- 
tion requests from clients. By default, the kernel assumes that a descriptor created by the socket function 
corresponds to an active socket that will live on the client end of a connection. A server calls the Listen 
function to tell the kernel that the descriptor will be used by a server instead of a client. 


#include <sys/socket.h> 


int listen(int sockfd, int backlog); 


returns: 0 if OK, -1 on error 


The listen function converts sock fd from an active socket to a listening socket that can accept connec- 
tion requests from clients. The backlog argument is a hint about the number of outstanding connection 
requests that the kernel should queue up before it starts to refuse requests. The exact meaning of the back- 
log argument requires an understanding of TCP/IP that is beyond our scope. We will typically set it to a 
large value, such as 1024. 


Figure 12.25 shows our open_listenfd helper function that opens and returns a listening socket ready 
to receive client connection requests on the well-known port port. After we create the 1istenfd socket 
descriptor (line 11), we use the setsockopt function (not described here) to configure the server so 
that it can be terminated and restarted immediately (lines 14-15). By default, a restarted server will deny 
connection requests from clients for approximately 30 seconds, which seriously hinders debugging. 


In lines 20-23, we initialize the server’s socket address structure in preparation for calling the bind function. 
In this case, we have used the INADDR_ANY wild card address to tell the kernel that this server will accept 
requests to any of the IP addresses for this host (line 22), and to well-known port port (line 23). Notice 
that we use the ht on1 and htons functions to convert the IP address and port number from host byte order 
to network byte order. Finally, we convert listenfd to a listening descriptor (line 27) and return it to the 
caller. 
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code/src/csapp.c 


int open_listenfd(int port) 


int listenfd; 
int optval; 
struct sockaddr_in serveraddr; 


/* create a socket descriptor */ 
listenfd = Socket (AF_INET, SOCK_STREAM, 0); 


/* eliminates "Address already in use" error from bind. */ 
optval = 1; 
Setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 

(const void *)&optval , sizeof(int)); 


/* listenfd will be an endpoint for all requests to port 
on any IP address for this host */ 

bzero((char *) &serveraddr, sizeof (serveraddr) ); 

serveraddr.sin_family = AF_INET; 

serveraddr.sin_addr.s_addr = htonl(INADDR_ANY); 

serveraddr.sin_port = htons((unsigned short) port); 

Bind(listenfd, (SA *)&serveraddr, sizeof (serveraddr) ); 


/* make it a listening socket ready to accept connection requests */ 
Listen(listenfd, LISTENQ); 


return listenfd; 


code/src/csapp.c 


Figure 12.25: open_listenfd: helper function that opens and returns a listening socket. 
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12.5.6 The accept Function 


Servers wait for connection requests from clients by calling the accept function. 


#include <sys/socket.h> 


int accept (int listenfd, struct sockaddr *addr, int *addrlen); 


returns: nonnegative connected descriptor if OK, -1 on error 


The accept function waits for a connection request from a client to arrive on the listening descriptor 
listenfd, then fills in the client’s socket address in addr, and returns a connected descriptor that can be 
used to communicate with the client using Unix I/O functions. 


The distinction between a listening descriptor and a connected descriptor can be confusing when we first 
encounter the accept function. The listening descriptor serves as an endpoint for client connection re- 
quests. It is typically created once and exists for the lifetime of the server. The connected descriptor is the 
endpoint of the connection that is established between the client and the server. It is created each time the 
server accepts a connection request and exists only as long as it takes the server to service a client. 


Figure 12.26 outlines the roles of the listening and connected descriptors. In Step 1, the server calls ac- 
cept, which waits for a connection request to arrive on the listening descriptor, which for concreteness we 
will assume is descriptor 3 (recall that descriptors 0-2 are reserved for the standard files). 


listenfd(3) i 
a 1. Server blocks in accept, 
client server waiting for connection request on 
listening descriptor listenfd. 
clientfd 
connection listenfd(3) 
request 
PARRA APP ae > . . 
client server 2. Client makes connection request by 
calling and blocking in connect. 
clientfd 
listenfd(3) 3. Server returns connfd from accept. 
; Client returns from connect. Connection 
client server is now established between client fd 
clientfd connfd (4) and connfd. 


Figure 12.26: The roles of the listening and connected descriptors. 


In Step 2, the client calls the connect function, which sends a connection request to listenfd. In Step 
3, the accept function opens a new connected descriptor connfd (which we will assume is descriptor 4), 
establishes the connection between client fd and connfd, and then returns connfd to the application. 
The client also returns from the connect, and from this point, the client and server can pass data back and 
forth by reading and writing client fd and connfd respectively. 


636 CHAPTER 12. NETWORK PROGRAMMING 


12.5.7 Example Echo Client and Server 


The best way to learn the sockets interface is to study example code. Figure 12.27 shows the code for an 
echo client. After establishing a connection with the server (line 15), the client enters a loop that repeatedly 
reads a text from standard input (line 17), sends the text line to the server (line 18), reads the echo line from 
the server (line 19), and prints the result to standard output (line 20). The loop terminates when fgets 
encounters end-of-file on standard input, either because the user typed ct r1-—d at the keyboard, or because 
it has exhausted the text lines in a redirected input file. 


code/net/echoclient.c 


1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 


4 { 

5 int clientfd, port; 

6 char *host, buf [MAXLINE]; 

7 

8 if (argc != 3) { 

9 fprintf(stderr, "usage: %s <host> <port>\n", argv[0]); 
0 exit (0); 

1 } 

2 host = argv[1l]; 

3 port = atoi(argv[2]); 

4 

5 clientfd = open_clientfd(host, port); 

6 

7 while (Fgets(buf, MAXLINE, stdin) != NULL) { 
8 Writen(clientfd, buf, strlen(buf)); 
9 Readline(clientfd, buf, MAXLINE); 
20 Fputs (buf, stdout); 

21 } 

22 

23 Close(clientfd)j; 

24 exit (0); 

25 } 


code/net/echoclient.c 


Figure 12.27: Echo client main routine. 


After the loop terminates, the client closes the descriptor (line 23). This result in an end-of-file notification 
being sent to the server, which it detects when it receives a return code of zero from its readline function. 
After closing its descriptor, the client terminates (line 24). Since the client’s kernel automatically closes all 
open descriptors when a process terminates, the close in line 23 is not necessary. However, it is good 
programming practice to explicitly close any descriptors we have opened. 


Figure 12.28 shows the main routine for the echo server. After opening the listening descriptor (line 18), 
it enters an infinite loop. Each iteration waits for a connection request from a client (line 21), prints the 
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domain name and IP address of the connected client (lines 23-27), and calls the echo function that services 
the client (line 29). When the echo routine returns, the main routine closes the connected descriptor (line 
30). Once the client and server have closed their respective descriptors, the connection is terminated. 


code/net/echoserveri.c 


1 #include "csapp.h" 


2 


3 void echo(int connfd); 


4 


5 int main(int argc, char **argv) 


6 4 
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Figure 12.29 shows the code for the echo routine, which repeatedly reads and writes lines of text until the 


int listenfd, connfd, port, clientlen; 


struct sockaddr_in clientaddr; 
struct hostent *hp; 
char *haddrp; 


if (argc != 2) { 
fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 

} 

port = atoi(argv[1]); 


listenfd = open_listenfd(port) ; 
while (1) { 
clientlen = sizeof (clientaddr) ; 
connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 


/* determine the domain name and IP address of the client */ 
hp = Gethostbyaddr((const char *)&clientaddr.sin_addr.s_addr, 


sizeof (clientaddr.sin_addr.s_addr), AF_INET); 


haddrp = inet_ntoa(clientaddr.sin_addr) ; 
printf ("server connected to %s (%s)\n", hp->h_name, haddrp) ; 


echo (connfd) ; 
Close (connfd) ; 


code/net/echoserveri.c 


Figure 12.28: Iterative echo server main routine. 


readline function encounters end-of-file in line 8. 
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code/¢net/echo.c 


#include "csapp.h" 


1 

2 

3 void echo(int connfd) 
4 { 

5 size_t n; 

6 char buf [MAXLIN 
7 
8 
9 


Gl 


l; 


while((n = Readline(connfd, buf, MAXLINE)) != 0) { 
printf ("server received %d bytes\n", n); 
10 Writen(connfd, buf, n); 


code/net/echo.c 


Figure 12.29: echo function that reads and echos text lines. 


12.6 Concurrent Servers 


The echo server in Figure 12.28 is known as an iterative server because it can only service one client at a 
time. The disadvantage of iterative servers is that a slow client can preclude every other client from being 
serviced. For a real server that might be expected to service hundreds or thousands of clients per second, it 
is unacceptable to allow one slow client to deny service to the others. 


A better approach is to build a concurrent server that can service multiple clients concurrently. In this 
section, we will investigate alternative concurrent server designs based on processes and threads. 


12.6.1 Concurrent Servers Based on Processes 


A concurrent server based on processes accepts connection requests in the parent and forks a separate child 
process to service each client. For example, suppose we have two clients and a server that is listening for 
connection requests on a listening descriptor 3. Now suppose that the server accepts a connection request 
from client 1 and returns connected descriptor 4, as shown in Figure 12.30. 


| connection 
client 1 request 
人 listenfd(3) 
clientfd oA 
server 
connfd (4) 
client 2 
clientfd 


Figure 12.30: Server accepts connection request from client. 


After accepting the connection request, the server forks a child, which gets a complete copy of the server’s 
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descriptor table. The child closes its copy of listening descriptor 3 and the parent closes its copy of connected 
descriptor 4, since they will not be needed. This gives us the situation in Figure 12.31, where the child 
process is busy servicing the client. 


data child 1 
transfers 
connfd (4) 
client 1 f 
listenfd(3) 
clientfd 
server 
client 2 
clientfd 


Figure 12.31: Server forks a child process to service the client. 


Now suppose that after the parent creates the child for client 1, it accepts a new connection request from 
client 2 and returns a new connected descriptor (say 5), as shown in Figure 12.32. 


data child 1 
transfers 
connfd (4) 
client 1 . 
listenfd(3) 
clientfd vo 
pe server 
pn connfd (5) 
iena --7 connection 
cien request 
clientfd 


Figure 12.32: Server accepts another connection request. 


The parent forks another child, which begins servicing its client using connected descriptor 5, as shown in 
Figure 12.33. At this point, the parent is waiting for the next connection request and the two children are 
servicing their respective clients. 


Figure 12.34 shows the code for a concurrent echo server based on processes. The echo function in line 25 
is defined in Figure 12.29. There are several points to make about this server. 


e Since servers typically run for long periods of time, we must include a SIGCHLD handler that reaps 
zombie children (lines 8-14). Since SIGCHLD signals are blocked while the SIGCHLD handler is 
executing, and since Unix signals are not queued, the SIGCHLD handler must be prepared to reap 
multiple zombie children. 


e Notice that the parent and the child close their respective copies of connfd (lines 39 and 36 respec- 
tively). This especially important for the parent, which must close its copy of the connected descriptor 
to avoid a memory leak that will eventually crash the system. 
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data child 1 
transfers 
connfd (4) 
client 1 ; 
listenfd(3) 
clientfd 
server 
: data 
client 2 ® transfers 
clientfd child 2 
connfd(5) 


Figure 12.33: Server forks another child to service the new client. 


e Because of the reference count in the socket’s file table entry (Figure 12.21), the socket will not be 
closed until both the parent’s and child’s copies of connfd are closed. 


Discussion 


Of the concurrent-server designs that we will study in this section, process-based designs are by far the 
simplest to write and debug. Processes provide a clean sharing model where descriptors are shared and user 
address spaces are not. As long as we remember to reap zombie children and close the parent’s connected 
descriptor each time we create a new child, the children run independently of each other and the parent and 
can be debugged in isolation. 

Process-based designs do have disadvantages though. If a particular service requires processes to share 
state information such as a memory-resident file cache, performance statistics that are aggregated across all 
processes, or aggregate request logs, then we must use explicit IPC mechanisms such as FIFO’s, System V 
shared memory, or System V semaphores (none of which are discussed here). Another disadvantage is that 
process-based servers tend to be slower than other designs because the overhead for process control and IPC 
is relatively high. Nonetheless, the simplicity of process-based designs provides a powerful attraction. 


Practice Problem 12.5: 


After the parent closes the connected descriptor in line 39 of the concurrent server in Figure 12.34, the 
child is still able to communicate with the client using its copy of the descriptor. Why? 


Practice Problem 12.6: 


If we were to delete line 36 of Figure 12.34 that closes the connected descriptor, the code would still be 
correct, in the sense that there would be no memory leak. Why? 
12.6.2 Concurrent Servers Based on Threads 


Another approach to building concurrent servers is to use threads instead of processes. There are several 
advantages to using threads. First, threads have less run time overhead than processes. We would expect a 
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code/net/echoserverp.c 


#include "csapp.h" 


void echo(int connfd); 


/* SIGCHLD signal handler */ 
void handler(int sig) 


{ 


pid_t pid; 
int stat; 


while ((pid = waitpid(-1, &stat, WNOHANG)) > 0) 
7 
return; 


int main(int argc, char **argv) 


{ 


int listenfd, connfd, port, clientlen; 
struct sockaddr_in clientaddr; 


if (argc != 2) { 
fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 

} 

port = atoi(argv[1]); 


Signal(SIGCHLD, handler); 


listenfd = open_listenfd(port); 
while (1) { 
clientlen = sizeof (clientaddr) ; 
connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 


if (Fork() == 0) { 
Close(listenfd); /* child closes its listening socket */ 
echo (connfd) ; /* child services client */ 
Close (connfd) ; /* child closes connection with client */ 
exit (0); /* child exits */ 

} 

Close(connfd); /* parent closes connected socket (important!) */ 


code/et/echoserverp.c 


Figure 12.34: Concurrent echo server based on processes. 


642 CHAPTER 12. NETWORK PROGRAMMING 


server based on threads to have better throughput (measured in clients serviced per second) than one based 
on processes. Second, because all threads share the same global variables and heap variables, it is much 
easier for threads to share state information. 


The major disadvantage of using threads is that the same memory model that makes it easy to share data 
structures also makes it easy to share data structures unintentionally and incorrectly. As we learned in Chap- 
ter 11, shared data must be protected, functions called from threads must be reentrant, and race conditions 
must be avoided. 


The threaded echo server in Figure 12.35 illustrates some of the subtle issues that can arise. The overall 
structure is similar to the process-based design. The main thread repeatedly waits for a connection request 
(line 22) and then creates a peer thread to handle the request (line 23). 


The first issue we encounter is how to pass the connected descriptor to the peer thread when we call 
pthread_create. The obvious approach is to pass a pointer to the descriptor: 


at connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
2 Pthread_create(&tid, NULL, thread, &connfd); 


and then let the peer thread dereference the pointer and assign it to a local variable. 


1 void *thread(void *vargp) 

2 { 

3 int connfd = *((int *)vargp); 
4 J aes. Ef 

5 return NULL; 

6 } 


However, this would be wrong because it introduces a race between the assignment statement in the peer 
thread and the accept statement in the main thread. If the assignment statement completes before the next 
accept, then the local connfd variable in the peer thread gets the correct descriptor value. However, 
if the assignment completes after the accept, then the local confd variable in the peer thread gets the 
descriptor number of the next connection. The unhappy result is two threads are now performing input and 
output on the same descriptor. In order to avoid the potentially deadly race, we must assign each connected 
descriptor returned by accept to its own dynamically allocated memory block, as shown in lines 21-22. 


Now consider the thread routine in lines 28-38. To avoid memory leaks, we must detach the thread so that 
its memory resources will be reclaimed when it terminates (line 32), and we must free the memory block 
that was allocated by the main thread (line 33). Finally, the thread routine calls the echo_r function (line 
35) before terminating in line 37. 


So why do we call echo_r instead of the trusty echo function? The echo function calls the readline 
function (Figure 12.16, which in turn calls the my_read function (Figure 12.16), which maintains three 
static variables, and thus is not reentrant. Since my_read is not reentrant, neither are readline or 
echo. 


To build a correct threaded echo server, we must use a reentrant version of echo called echo_r, which 
is based on the readline_r function, a reentrant version of the readline function developed by 
Stevens [77]. 
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code/net/echoservert.c 


#include "csapp.h" 


void echo_r (int connfd); 
void *thread(void *vargp) ; 


int main(int argc, char **argv) 


{ 


int listenfd, *connfdp, port, clientlen; 
struct sockaddr_in clientaddr; 
pthread_t tid; 


if (argc != 2) { 
fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 

} 

port = atoi(argv[1]); 


listenfd = open_listenfd(port); 
while (1) { 
clientlen = sizeof (clientaddr); 
connfdp = Malloc(sizeof(int)); 
*connfdp = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
Pthread_create(&tid, NULL, thread, connfdp); 


/* thread routine */ 
void *thread(void *vargp) 


{ 


int connfd = *((int *)vargp); 


Pthread_detach (pthread_self()); 
Free (vargp) ; 


echo_r(connfd); /* reentrant version of echo() */ 
Close (connfd) ; 
return NULL; 


code/net/echoservert.c 


Figure 12.35: Concurrent echo server based on threads. 
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#include "csapp.h" 


ssizet readline_r(Rline *rptr); returns: number of bytes read (0 if EOF), -1 on error 


The readline function takes as input an Rl ine structure shown in Figure 12.36. The first three members 
correspond to the arguments that users pass to readline. The next three members correspond to the static 
variables that my_read uses for buffering. 


code/include/csapp.h 
1 typedef struct { 
2 int read_fd; /* caller’s descriptor to read from */ 
3 char *read_ptr; /* caller’s buffer to read into */ 
4 size_t read_maxlen; /* max bytes to read */ 
5 
6 /* next three are used internally by the function */ 
7 int rl_cnt; /* initialize to 0 */ 
8 char *rl_bufptr; /* initialize to rl_buf */ 
9 char rl_buf[MAXBUF];/* internal buffer */ 


10 } Rline; 
code/include/csapp.h 


Figure 12.36: Rline structure used by readline_r and initialized by readline_rinit. 


The Rline structure is initialized by the readline_rinit function in Figure 12.37, which saves the 
user arguments and initializes the internal buffering information. 


code/src/csapp.c 


1 void readline_rinit (int fd, void *ptr, size_t maxlen, Rline *rptr) 

2 { 

3 rptr->read_fd = fd; /* save caller’s arguments */ 

4 rptr->read_ptr = ptr; 

5 rptr->read_maxlen = maxlen; 

6 

7 rptr->rl_cnt = 0; /* and init our counter & pointer */ 
8 rptr->rl_bufptr = rptr->rl_buf; 

9 } 


code/src/csapp.c 


Figure 12.37: readline_rint: Initialization function for readline_r. 


Figure 12.38 shows the code for the readline-_r package. The only difference between readline_r 
and readline is that readline_r calls my_read_r instead of my_read in line 28. The my_read_r 
function is similar to the original my_read function, except that it references members of the Rline struct 
instead of static variables. 
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code/src/csapp.c 


1 static ssize_t my_read_r(Rline *rptr, char *ptr) 
2 { 

3 if (rptr->rl_cnt <= 0) { 

4 again: 

5 rptr->rl_cnt = read(rptr->read_fd, rptr->rl_buf, 
6 sizeof (rptr->rl_buf) ); 
7 if (rptr->rl_cnt < 0) { 

8 if (errno == EINTR) 

9 goto again; 

0 else 

1 return (-1); 

2 } 

3 else if (rptr->rl_cnt == 0) 

4 return (0); 

5 rptr->rl_bufptr = rptr->rl_buf; 

6 } 

7 rptr=>rl_scnt==; 

8 *ptr = *rptr->rl_bufptr++ & 255; 

9 return(1); 

20 } 

21 

22 ssize_t readline_r(Rline *rptr) 

23 { 

24 int n, rc; 

25 char c, *ptr = rptr->read_ptr; 

26 

27 for (n = 1; n < rptr->read_maxlen; n++) { 

28 if ( (rc = my_read_r(rptr, &c)) == 1) { 
29 *ptr++ = C} 

30 if (& == "\n') 

31 break; 

32 } else if (rc == 0) { 

33 if (n == 1) 

34 return (0); /* EOF, no data read */ 
35 else 

36 break; /* EOF, some data was read */ 
37 } else 

38 return(-1); /* error */ 

39 } 

40 *ptr = 0; 

41 return (n); 

42 } 


code/src/csapp.c 


Figure 12.38: readline_r package: Reentrant version of readline. Adapted from [77]. 
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Given the reentrant readline_r function, we can now create a reentrant version of echo (Figure 12.39) 
that calls readline_r instead of readline. 


code/net/echo v.c 
1 #include "csapp.h" 
2 
3 void echo_r(int connfd) 
4 { 
5 size_t n; 
6 char buf [MAXLINE]; 
7 Rline rline; 
8 
9 readline_rinit(connfd, buf, MAXLINE, é&rline); 
10 while((n = Readline_r(&rline)) != 0) { 
11 printf ("server received %d bytes\n", n); 
12 Writen(connfd, buf, n); 
13 } 
14 } 
code/net/echo_r.c 


Figure 12.39: echo_r: Reentrant version of echo 


Discussion 


Threaded designs are attractive because they promise better performance than process-based designs. But 
the performance gain can come with a steep price in complexity. Unlike processes, which share almost 
nothing, threads share almost everything. Because of this, it easy to write incorrect threaded programs 
that suffer from races, unprotected shared variables, and non-reentrant functions. These bugs are extremely 
difficult to find because they are usually non-deterministic, and thus not easily repeatable. Nothing is scarier 
to a programmer than a random non-repeatable bug. 


The subtle issues involved in threading our simple echo server are clear evidence of the potential complexity 
of threaded designs. Nonetheless, if a process-based design would be unacceptably slow for a particular 
application, then we might need to opt for a threaded design. 


12.7 Web Servers 


So far we have discussed network programming in the context of a simple echo server. In this section, we 
will show you how to use the basic ideas of network programming, Unix I/O, and Unix processes to build 
your own your small, but functional Web server. 
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12.7.1 Web Basics 


Web clients and servers interact using a text-based application-level protocol known as HTTP (Hypertext 
Transfer Protocol). HTTP is a simple protocol. A Web client (known as a browser) opens an Internet 
connection to a server and requests some content. The server responds with the requested content and then 
closes the connection. The browser reads the content and displays it on the screen. 

What makes the Web so different from conventional file retrieval services such as FTP? The main reason is 
that the content can be written in a programming language known as HTML (Hypertext Markup Language). 
An HTML program (page) contains instructions (tags) that tell the browser how to to display various text 
and graphical objects in the page. For example, 


<b> Make me bold! </b> 


tells the browser to print the text between the <b> and </b> tags in boldface type. However, the real power 
of HTML is that a page can contain pointers (hyperlinks) to content stored on remote servers anywhere in 
the Internet. For example, 


<a href="http://www.cmu.edu/index.html">Carnegie Mellon</a> 


tells the browser to highlight the text object “Carnegie Mellon” and to create a hyperlink to an HTML file 
called index.html that is stored on the CMU Web server. If the user clicks on the highlighted text object, 
the browser requests the corresponding HTML file from the CMU server and displays it. 


12.7.2 Web Content 


To Web clients and servers, content is a sequence of bytes with an associated MIME (Multipurpose Internet 
Mail Extensions) type. Figure 12.40 shows some common MIME types. 


MIME pe 
text/html HTML page 
text/plain Unformatted text 
application/postscript | Postscript document 


image/gif Binary image encoded in GIF format 
image/jpg Binary image encoded in JPG format 


Figure 12.40: Example MIME types. 


Web servers provide content to clients in two different ways: 


e Fetch a disk file and return its contents to the client. The disk file is known as static content and the 
process of returning the file to the client is known as serving static content. 


e Run an executable file and return its output to the client. The output produced by the executable at 
runtime is known as dynamic content, and the process of running the program and returning its output 
to the client is known as serving dynamic content. 
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Thus, every piece of content returned by a Web server is associated with some file that it manages. Each of 
these files has a unique name known as a URL (Universal Resource Locator). For example, the URL 


http://www.aol.com:80/index.html 


identifies an HTML file called /index.htm1 on Internet host www.aol.com that is managed by a Web 
server listening on port 80. The port number is optional and defaults to well-known port 80. 


URLs for executable files can include program arguments after the filename. A °? character separates the 
filename from the arguments, and each argument is separated by a ’&’ character. For example, the URL 


http://kittyhawk.cmcl.cs.cmu.edu:8000/cgi-bin/adder?15000&213 


identifies an executable called /cgi-bin/adder that will be called with two argument strings: 15000 
and 213. 


Clients and servers use different parts of the URL during a transaction. For example, a client uses the prefix 
http://www.aol.com: 80 


to determine what kind of server to contact, where the server is, and what port it is listening on. The server 
uses the suffix 


/index. html 


to find the file on its filesystem, and to determine whether the request is for static or dynamic content. There 
are several important points to understand about how servers interpret the suffix of a URL: 


e There are no standard rules for determining whether a URL refers to static or dynamic content. Each 
server has its own rules for the files that it manages. A common approach is to identify a set of 
directories, such as cgi-bin, where all executables must reside. 


e The initial ’/ in the suffix does not denote the Unix root directory. Rather is denotes the home 
directory for whatever kind of content is being requested. For example, a server might by configured 
so that all static content is stored in directory /usr/httpd/html1 and all dynamic content is stored 
in directory /usr/httpd/cgi-bin. 


e The minimal URL suffix is the ’/ character, which all servers expand to some default home page such 
as /index.html. This explains why it is possible to fetch the home page of a site by simply typing 
a domain name to the browser. The browser appends the missing ’/’ to the URL and passes it to the 
server, which expands the °? to some default file name. 


12.7.3 HTTP Transactions 


Since HTTP is based on text lines transmitted over Internet connections, we can use the Unix TELNET 
program to conduct transactions with any Web server on the Internet. The TELNET program is very handy 
for debugging servers that talk to clients with text lines over connections. For example, Figure 12.41 uses 
TELNET to request the home page from the AOL Web server. 


12.7. WEB SERVERS 649 


1 unix> telnet www.aol.com 80 Client: open connection to server 

2 Trying 205.188.146.23... Telnet prints 3 lines to the terminal 

3 Connected to aol.com. 

4 Escape character is ’"]’. 

5 GET / HTTP/1.1 Client: request line 

6 host: www.aol.com Client: required HTTP/1.1 header 

7 Client: empty line terminates headers. 

8 HTTP/1.0 200 OK Server: response line 

9 MIME-Version: 1.0 Server: followed by five response headers 

0 Date: Mon, 08 Jan 2001 04:59:42 GMT 

1 Server: NaviServer/2.0 AOLserver/2.3.3 

2 Content-Type: text/html Server: expect HTML in the response body 

3 Content-Length: 42092 Server: expect 42,092 bytes in the response body 
4 Server: empty line terminates response headers 
5 <html> Server: first HTML line in response body 

Go sew Server: 766 lines of HTML not shown. 

7 </html> Server: last HTML line in response body 

8 Connection closed by foreign host. Server: closes connection 

9 unix> Client: closes connection and terminates 


Figure 12.41: An HTTP transaction that serves static content. 


In line 1 we run TELNET from a Unix shell and ask it to open a connection to the AOL Web server. TELNET 
prints three lines of output to the terminal, opens the connection, and then waits for us to enter text (line 
5). Each time we enter a text line and hit the enter key, TELNET reads the line, appends carriage return 
and line feed characters ("\r\n" in C notation), and sends the line to the server. This is consistent with 
the HTTP standard, which requires every text line to be terminated by a carriage return and line feed pair. 
To initiate the transaction, we enter an HTTP request (lines 5-7). The server replies with an HTTP response 
(lines 8-17) and then closes the connection (line 18). 


HTTP Requests 


An HTTP request consists of a request line (line 5), followed by zero or more request headers (line 6), 
followed by an empty text line that terminates the list of headers (line 7). A request line has the form 


<method> <uri> <version> 


HTTP supports a number of different methods, including GET, POST, OPTIONS, HEAD, PUT, DELETE, 
and TRACE). We will only discuss the workhorse GET method, which according to one study accounts for 
over 99% of HTTP requests [75]. The GET method instructs the server to generate and return the content 
identified by the URI (Uniform Resource Identifier). The URI is the suffix of the corresponding URL that 
includes the file name and optional arguments. ! 


‘Actually, this is only true when a browser requests content. If a proxy server requests content, then the URI must be the 
complete URL. 
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The <version> field in the request line indicates the HTTP version that the request conforms to. The 
current version is HTTP/1.1 [25]. HTTP/1.0 is a previous version from 1996 that is still in use [3]. HTTP/1.1 
defines additional headers that provide support for advanced features such as caching and security, as well 
as a (seldom used) mechanism that allows a client and server to perform multiple transactions over the same 
persistent connection. In practice, the two versions are compatible because HTTP/1.0 clients and servers 
simply ignore unknown HTTP/1.1 headers. 


In sum, the request line in line 5 asks the server to fetch and return the HTML file /index.htm1. It also 
informs the server that the remainder of the request will be in HTTP/1.1 format. 


Request headers provide additional information to the server, such as the brand name of the browser or the 
MIME types that the browser understands. Request headers have the form 


<header name>: <header data> 


For our purposes, the only header we need to be concerned with is the Host header (line 5), which is 
required in HTTP/1.1 requests, but not in HTTP/1.0 requests. The Host header is only used by proxy 
caches, which sometimes serve as intermediaries between a browser and the origin server that manages the 
requested file. Multiple proxies can exist between a client and an origin server in a so-called proxy chain. 
The data in the Host header, which identifies the domain name of the origin server, allows a proxy in the 
middle of a proxy chain to determine if it might have a locally cached copy of the requested content. 


Continuing with our example in Figure 12.41, the empty text line in line 6 (generated by hitting enter on 
our keyboard) terminates the headers and instructs the server to send the requested HTML file. 


HTTP Responses 


HTTP responses are similar to HTTP requests. An HTTP response consists of a response line (line 8), 
followed by zero or more response headers (lines 9-13), followed by an empty line that terminates the 
headers (line 14), followed by the response body (lines 15-17). 


A response line has the form 
<version> <status code> <status message> 


The version field describes the HTTP version that the response conforms to. The status code is a 3-digit 
positive integer that indicates the disposition of the request. The status message gives the English equivalent 
of the error code. Figure 12.42 lists some common status codes and their corresponding messages. 


The response headers in lines 9-13 provide additional information about the response. The two most im- 
portant headers are Content-Type (line 12), which tells the client the MIME type of the content in the 
response body, and Content-Length (line 13), which indicates its size in byte. 


The empty text line in line 11 that terminates the response headers is followed by the request body, which 
contains the requested content. 
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Status code | Status Message 


OK Request was handled without error. 

Moved permanently Content has moved to the hostname in the Location header. 
Bad request Request could not be understood by the server. 

Forbidden Server lacks permission to access the requested file. 


Not found Server could not find the requested file. 
Not implemented Server does not support the request method. 
HTTP version not supported | Server does not support version in request. 


Figure 12.42: Some HTTP status codes. 


12.7.4 Serving Dynamic Content 


If we stop to think for a moment how a server might provide dynamic content to a client, certain questions 
arise. For example, how does the client pass any program arguments to the server? How does the server 
pass these arguments to the child process that it creates? How does the server pass other information to the 
child that it might need to generate the content? Where does the child send its output? These questions are 
addressed by a de facto standard called CGI (Common Gateway Interface). 


How Does the Client Pass Program Arguments to the Server? 


Arguments for GET requests are passed in the URI. Each argument is separated by a ’&’ character. Spaces 
are not allowed in arguments and must be denoted with the %20 string. Similar encodings exist for other 
special characters. 


Aside: Passing arguments in HTTP POST requests. 
Arguments for HTTP POST requests are passed in the request body rather than the URI. End Aside. 


How Does the Server Pass Arguments to the Child? 


After a server receives a request such as 


GET /cgi-bin/adder?15000&213 HTTP/1.1 


it calls fork to creates a child process and calls execve to run the /cgi-bin/adder program in the 
context of the child. The adder program is often referred to as CGI program because it obeys the rules of 
the CGI standard. And since many CGI programs are written as Perl scripts, CGI programs are often called 
CGI scripts. 


Before the call to execve, the child process sets the CGI environment variable QUERY_STRING to 
15000&213, which the adder program can reference at runtime using the Unix get env function. 


How Does the Server Pass Other Information to the Child? 


CGI defines a number of other environment variables that a CGI program can expect to be set when it runs. 
Figure 12.43 shows a subset. 
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SERVER_PORT Port that the parent is listening on 
REQUEST_METHOD | GET or POST 
REMOTE_HOST Domain name of client 


REMOTE_ADDR Dotted-decimal IP address of client 
CONTENT-TYPE POST only: MIME type of the request body 
CONTENT-LENGTH | POST only: Size in bytes of the request body 


Figure 12.43: Examples of CGI environment variables. 


Where Does the Child Send its Output? 


A CGI program prints dynamic content to the standard output. Before the child process loads and runs the 
CGI program, it uses the Unix dup2 function to redirect standard output to the connected descriptor that is 
associated with the client. Thus, anything that the CGI program writes to standard output goes directly to 
the client. 


Aside: Passing arguments to HTTP POST requests. 
For POST requests, the child would also need to redirect standard input to the connected descriptor. The CGI 
program would then read the arguments in the request body from standard input. End Aside. 


Notice that since the parent does not know the type or size of the content that the child generates, the child 
is responsible for generating the Content-type and Content-length response headers, as well as 
the empty line that terminates the headers. 


Figure 12.44 shows a simple CGI program that sums its two arguments and returns an HTML file with the 
result to the client. Figure 12.45 shows an HTTP transaction that serves dynamic content from the adder 
program. 


Practice Problem 12.7: 


In Section 12.4.8, we warned about the dangers of using the C standard I/O functions in servers. Yet the 
CGI program in Figure 12.44 is able to use standard I/O without any problems. Why? 


12.8 Putting it Together: The TINY Web Server 


We will conclude our discussion of network programming by developing a small but functioning Web server 
called TINY. TINY is an interesting program. It combines many of the ideas that we have learned about 
concurrency, Unix I/O, the sockets interface, and HTTP in only 250 lines of code. While it lacks the 
functionality, robustness, and security of a real server, it is powerful enough to serve both static and dynamic 
content to real Web browsers. We encourage you to study it and implement it yourself. It is quite exciting 
(even for the authors!) to point a real browser at your own server and watch it display a complicated Web 
page with text and graphics. 
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code/net/tiny/cgi-bin/adder.c 


1 #include "csapp.h" 

2 

3 int main(void) { 

4 char *buf, *p; 

5 char argl[MAXLINE], arg2[MAXLINE], content [MAXLINE]; 
6 int nl=0, n2=0; 

7 

8 /* extract the two arguments */ 

9 if ((buf = getenv("QUERY_STRING")) != NULL) { 

0 p = strchr (buf, '&'); 

1 *p = '\0'; 

2 strcpy (argl, buf); 

3 strcpy(arg2, ptl); 

4 nl = atoi(argl); 

5 n2 = atoi(arg2); 

6 } 

7 

8 /* make the response body */ 

9 sprintf (content, "Welcome to add.com: "); 

20 sprintf(content, "SSTHE Internet addition portal.\r\n<p>", content); 
21 sprintf (content, "SsThe answer is: %d + $d = %d\r\n<p>", 
22 content, nl, n2, nl + n2); 

23 sprintf(content, "SsThanks for visiting!\r\n", content); 
24 

25 /* generate the HTTP response */ 

26 printf ("Content-length: %d\r\n", strlen(content) ); 
27 printf ("Content-type: text/html\r\n\r\n") ; 

28 printf("Ss", content); 

29 fflush (stdout) ; 

30 exit (0); 

31 } 


code/net/tiny/cgi-bin/adder.c 


Figure 12.44: CGI program that sums two integers. 
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1 unix> telnet kittyhawk.cmcl.cs.cmu.edu 8000 Client: open connection 

2 Trying 128.2.194.242... 

3 Connected to kittyhawk.cmcl.cs.cmu.edu. 

4 Escape character is ’"]’. 

5 GET /cgi-bin/adder?15000&213 HTTP/1.0 Client: request line 

6 Client: empty line terminates headers 

7 HTTP/1.0 200 OK Server: response line 

8 Server: Tiny Web Server Server: identify server 

9 Content-length: 115 Adder: expect 115 bytes in response body 
0 Content-type: text/html Adder: expect HTML in response body 

al Adder: empty line terminates headers 

2 Welcome to add.com: THE Internet addition portal. Adder: first HTML line 

3 <p>The answer is: 15000 + 213 = 15213 Adder: second HTML line in response body 
4 <p>Thanks for visiting! Adder: third HTML line in response body 
5 Connection closed by foreign host. Server: closes connection 

6 unix> Client: closes connection and terminates 


Figure 12.45: An HTTP transaction that serves dynamic HTML content. 


The TINY main Routine 


Figure 12.46 shows TINY’s main routine. TINY is an iterative server that listens for connection requests 
on the port that is passed in the command line. After opening a listening socket (line 28) by calling the 
open_listenfd function from Figure 12.46, TINY executes the typical infinite server loop, repeatedly 
accepting a connection request (line 31) and performing a transaction (line 32). 


The doit Function 


The doit function in Figure 12.47 handles one HTTP transaction. First, we read and parse the request line 
(lines 9-10). Notice that we are using the robust readline function from Figure 12.16 to read the request 
line. 


TINY only supports the GET method. If the client requests another method (such as POST), we send it an 
error message and return to the main routine (lines 11-15), which then closes the connection and awaits the 
next connection request. Otherwise, we read and (as we shall see) ignore any request headers (line 16). 


Next, we parse the URI into a filename and a possibly empty CGI argument string, and we set a flag that 
indicates whether the request is for static or dynamic content (line 19). If the file does not exist on disk, we 
immediately send an error message to the client and return (lines 20-24). 


Finally, if the request is for static content (lines 26), we verify that the file is a regular file (i.e., not a directory 
file or a FIFO) and that we have read permission (line 27). If so, we serve the static content (line 32) to the 
client. Similarly, if the request is for dynamic content (line 34), we verify that the file is executable (line 
35), and if so we go ahead and serve the dynamic content (line 40). 
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code/net/tiny/tiny.c 


/* 
* tiny.c - A simple HTTP/1.0 Web server that uses the GET method 
a to serve static and dynamic content. 

*/ 


#include "csapp.h" 


void doit(int fd); 
void read_requesthdrs (int fd); 
int parse_uri(char *uri, char *filename, char *cgiargs); 
void serve_static(int fd, char *filename, int filesize); 
void get_filetype(char *filename, char *filetype); 
void serve_dynamic(int fd, char *filename, char *cgiargs); 
void clienterror(int fd, char *cause, char *errnum, 

char *shortmsg, char *longmsg) ; 


int main(int argc, char **argv) 

{ 
int listenfd, connfd, port, clientlen; 
struct sockaddr_in clientaddr; 
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/* check command line args */ 


22 if (argc != 2) { 

23 fprintf(stderr, "usage: %s <port>\n", argv[0]); 
24 exit(1); 

25 } 

26 port = atoi(argv[1]); 

27 

28 listenfd = open_listenfd (port); 

29 while (1) { 

30 clientlen = sizeof (clientaddr) ; 

31 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
32 doit (connfd) ; 

33 Close (connfd) ; 

34 } 

35 } 


codeMet/tiny/tiny.c 


Figure 12.46: The TINY Web server. 


656 


al 
2 
2 
4 
5 
6 
7 
8 
9 
0 
1 
2 
3 
4 
5 
6 
7 
8 


9 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
3d 
32 
33 
34 
35 
36 
37 
38 


CHAPTER 12. NETWORK PROGRAMMING 


code/net/tiny/tiny.c 


void doit (int fd) 


int is_static; 

struct stat sbuf; 

char buf [MAXLINE], method[MAXLINE], uri[MAXLINE], version[MAXLIN 
char filename [MAXLINE], cgiargs [MAXLINE]; 


Gl 
w= 
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/* read request line and headers */ 
Readline (fd, buf, MAXLINE); 
sscanf (buf, "%s %s %s\n", method, uri, version); 
if (strcasecmp(method, "GET")) { 
clienterror(fd, method, "501", "Not Implemented", 
"Tiny does not implement this method"); 


return; 


} 
read_requesthdrs (fd); 


/* parse URI from GET request */ 
is_static = parse_uri(uri, filename, cgiargs) ; 
if (stat (filename, &sbuf) < 0) { 
clienterror(fd, filename, "404", "Not found", 
"Tiny couldn’t find this file"); 
return; 


if (is_static) { /* serve static content */ 
if (!(S_ISREG(sbuf.st_mode)) || !(S_IRUSR & sbuf.st_mode)) { 
clienterror(fd, filename, "403", "Forbidden", 
"Tiny couldn’t read the file"); 


return; 
} 
serve_static(fd, filename, sbuf.st_size); 
} 
else { /* serve dynamic content */ 
if (!(S_ISREG(sbuf.st_mode)) || !(S_IXUSR & sbuf.st_mode)) { 
clienterror(fd, filename, "403", "Forbidden", 
"Tiny couldn’t run the CGI program"); 


return; 


} 


serve_dynamic(fd, filename, cgiargs); 


codeMet/tiny/tiny.c 


Figure 12.47: TINY doit: Handles one HTTP transaction. 
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The clienterror Function 


TINY lacks many of the robustness features of a real server. However it does check for some obvious errors 
and reports them to the client. The clienterror function in Figure 12.48 sends an HTTP response to 
the client with the appropriate status code and status message in the response line, along with an HTML file 
in the response body that explains the error to the browser’s user. 


code/net/tiny/tiny.c 
1 void clienterror(int fd, char *cause, char *errnum, 
2 char *shortmsg, char *longmsg) 
3 { 
4 char buf [MAXLINE], body [MAXBUF] ; 
5 
6 /* build the HTTP response body */ 
7 sprintf (body, "<html><title>Tiny Error</title>") ; 
8 sprintf (body, "%s<body bgcolor=""ffffff"">\r\n", body); 
9 sprintf (body, "%s%s: %s\r\n", body, errnum, shortmsg) ; 
0 sprintf (body, "%s<p>%s: %s\r\n", body, longmsg, cause); 
1 sprintf (body, "%s<hr><em>The Tiny Web server</em>\r\n", body); 
2 
3 /* print the HTTP response */ 
4 sprintf (buf, "HTTP/1.0 %s %s\r\n", errnum, shortmsg) ; 
5 Writen(fd, buf, strlen(buf)); 
6 sprintf (buf, "Content-type: text/html\r\n"); 
7 Writen(fd, buf, strlen(buf)); 
8 sprintf (buf, "Content-length: %d\r\n\r\n", strlen(body) ); 
9 Writen(fd, buf, strlen(buf)); 
20 Writen(fd, body, strlen(body) ); 
21 } 


codeMet/tiny/tiny.c 


Figure 12.48: TINY clienterror: Sends an error message to the client. 


Recall that an HTML response should indicate the size and type the content in the body. Thus, we have 
opted to build the HTML content as a single string (lines 7-11) so that we can easily determine its size (line 
18). Also, notice that we are using the robust writen function from Figure 12.15 for all output. 


The read_requesthdrs Function 


TINY does not use any of the information in the request headers. It simply reads and ignores them by 
calling the read_requesthdrs function in Figure 12.49. Notice that the empty text line that terminates 
the request headers consists of a carriage return and line feed pair, which we check for in line 6. 
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code/net/tiny/tiny.c 


void read_requesthdrs (int fd) 


{ 


char buf [MAXLINE] ; 


Readline (fd, buf, MAXLINE); 
while (strcmp (buf, "\r\n")) 

Readline(fd, buf, MAXLINE); 
return; 
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code/net/tiny/tiny.c 


Figure 12.49: TINY read-requesthdrs: Reads and ignores request headers. 


The parse-uri Function 


TINY assumes that the home directory for static content is the current Unix directory ’ .’, and that the 
home directory for executables is ./cgi-bin. Any URI that contains the string cgi-bin is assumed to 
denote a request for dynamic content. The default file name is ./home.html. 


The parse_uri function in Figure 12.50 implements these policies. It parses the URI into a filename and 
an optional CGI argument string. If the request is for static content (line 5) we clear the CGI argument string 
(line 6), and then convert the URI into a relative Unix pathname such as . /index.htm1 (lines 7-8). If the 
URI ends with a’ /’ character (line 9), then we append the default file name (lines 9). On the other hand, 
if the request is for dynamic content (line 13), we extract any CGI arguments (line 14-20) and convert the 
remaining portion of the URI to a relative Unix file name (lines 21-22). 


The serve_static Function 


TINY serves 4 different types of static content: HTML files, unformatted text files, and images encoded in 
GIF and JPG formats. These file types account for the majority of static content served over the Web. 


The serve_static function in Figure 12.51 sends an HTTP response whose body contains the contents 
of a local file. First, we determine the file type by inspecting the suffix in the filename (line 7), and then 
send the response line and response headers to the client (lines 6-12). Notice that we are using the writen 
function from Figure 12.15 for all output on the descriptor. Notice also that a blank line terminates the 
headers (line 12). 


Next, we send the response body by copying the contents of the requested file to the connected descriptor 
fd (lines 15-19). The code here is somewhat subtle and needs to be studied carefully. 


Line 15 opens filename for reading and gets its descriptor. In line 16, the Unix mmap function maps the 
requested file to a virtual memory area. Recall from our discussion of mmap in Section 10.8 that the call 
to mmap maps the first filesize bytes of file srcfd to a private read-only area of virtual memory that 
starts at address srcp. 


Once we have mapped the file to memory, we no longer need its descriptor, so we close the file (line 17). 
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int parse_uri(char *uri, char *filename, char *cgiargs) 


{ 


char *ptr; 


if (!strstr(uri, "cgi-bin")) { /* static content */ 
strcpy(cgiargs, ""); 
strcpy (filename, "."); 
strcat (filename, uri); 
if (uri[strlen(uri)-1] == ’/’) 


strcat (filename, "home.html"); 
return 1; 
} 
else { /* dynamic content */ 
ptr = index(uri, '?'); 
if (ptr) { 
strcpy (cgiargs, ptr+1); 
*ptr = '\0'; 
} 
else 
strcepy(cgiargs, ""); 
strcpy (filename, "."); 
strcat (filename, uri); 
return 0; 


Figure 12.50: TINY parse-uri: Parses an HTTP URI. 
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code/net/tiny/tiny.c 


code/net/tiny/tiny.c 
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{ 


/* 
* get_filetype - derive file type from file name 
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code/net/tiny/tiny.c 


void serve_static(int fd, char *filename, int filesize) 


int srcfd; 
char *srcp, filetype[MAXLINE], buf [MAXBUF]; 


/* send response headers to client */ 
get_filetype(filename, filetype); 

sprintf (buf, "HTTP/1.0 200 OK\r\n"); 

sprintf (buf, "%sServer: Tiny Web Server\r\n", buf); 
sprintf (buf, "%SsContent-length: %d\n", buf, filesize); 
sprintf (buf, "SsContent-type: %s\r\n\r\n", buf, filetype); 
Writen(fd, buf, strlen(buf)); 


/* send response body to client */ 

srcfd = Open (filename, O_RDONLY, 0); 

srcp = Mmap (0, filesize, PROT_READ, MAP_PRIVAT! 
Close (srcfd) ; 

Writen(fd, srcp, filesize); 

Munmap(srcp, filesize); 


Gl 


y sxrcfd, 0); 


25 void get_filetype(char *filename, char *filetype) 


26 
27 
28 
29 
30 
31 


{ 


if (strstr(filename, ".html1") ) 
strcpy (filetype, "text/html" 

else if (strstr(filename, ".gif" 
strcpy (filetype, "image/gif" 

else if (strstr(filename, ".jpg" 
strcpy (filetype, "image/jpg" 


else 
strcpy (filetype, "text/plain"); 


code/net/tiny/tiny.c 


Figure 12.51: TINY serve_static: Serves static content to a client. 
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Failing to do this would introduce a potentially fatal memory leak. 


Line 18 performs the actual transfer of the file to the client. The writen function copies the filesize 
bytes starting at location srcp (which of course is mapped to the requested file) to the client’s connected 
descriptor. Finally, line 19 frees the mapped virtual memory area. This is important to avoid a potentially 
fatal memory leak. 


The serve_dynamic Function 


TINY serves any type of dynamic content by forking a child process, and then running a CGI program in 
the context of the child. 


The serve_dynamic function in Figure 12.52 begins by sending a response line indicating success to the 
client (lines 6-7), along with an informational Server header (lines 8-9). The CGI program is responsible 
for sending the rest of the response. Notice that this is not as robust as we might wish, since it doesn’t allow 
for the possibility that the CGI program might encounter some error. 


code/net/tiny/tiny.c 


void serve_dynamic(int fd, char *filename, char *cgiargs) 
{ 
char buf [MAXLINE]; 


/* return first part of HTTP response */ 
sprintf (buf, "HTTP/1.0 200 OK\r\n"); 
Writen(fd, buf, strlen(buf)); 

sprintf (buf, "Server: Tiny Web Server\r\n"); 
Writen (fd, buf, strlen(buf)); 


if (Fork() == 0) { /* child */ 

/* real server would set all CGI vars here */ 

setenv ("QUERY_STRING", cgiargs, 1); 
Dup2 (fd, STDOUT_FILENO) ; /* redirect output to client */ 
Execve (filename, NULL, environ); /* run CGI program */ 


} 
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} 
codeMet/tiny/tiny.c 


Figure 12.52: TINY serve_dynamic: Serves dynamic content to a client. 


After sending the first part of the response, we fork a new child process (line 11). The child initializes the 
QUERY-STRING environment variable with the CGI arguments from the request URI (line 13). Notice 
that a real server would set the other CGI environment variables here as well. For brevity, we have omitted 
this step. 


Next, the child redirects the child’s standard output to the connected file descriptor (line 14), and then loads 
and runs the CGI program (line 15). Since the CGI program runs in the context of the child, it has access to 
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the same open descriptors and environment variables that existed before the call to the execve function. 
Thus, everything that the CGI program writes to standard output goes directly to the client process, without 
any intervention from the parent process. 


Meanwhile, the parent blocks in a call to wait, waiting to reap the child when it terminates (line 17). 


Practice Problem 12.8: 


A. Is the TINY doit routine reentrant? Why or why not? 


B. If not, how would you make it reentrant? 


12.9 Summary 


In this chapter we have learned some basic concepts about network applications. Network applications use 
the client-server model, where servers perform services on behalf of their clients. The Internet provides 
network applications with two key mechanisms: (1) A unique name for each Internet host, and (2) a mech- 
anism for establishing a connection to a server running on any of those hosts. Clients and servers establish 
connections by using the sockets interface, and they communicate over these connections using standard 
Unix file I/O functions. 


There are two basic design options for servers. An iterative server handles one request at a time. A concur- 
rent server can handle multiple requests concurrently. We investigated two designs for concurrent servers, 
one that forks a new process for each request, the other that creates a new thread for each request. Other 
designs are possible, such as using the Unix select function to explicitly manage the concurrency, or 
avoiding the per-connection overhead by pre-forking a set of child processes to handle connection requests. 


Finally, we studied the design and implementation of a simple but functional Web server. In a few lines of 
code, it ties together many important systems concepts such as Unix I/O, memory mapping, concurrency, 
the sockets interface, and the HTTP protocol. 


Bibliographic Notes 


The official source information for the Internet is contained in a set of freely-available numbered documents 
known as RFCs (Requests for Comments). A searchable index of RFCs is available from 


http://www.rfc-editor.org/rfc.html 


RFCs are typically written for developers of Internet infrastructure, and thus are usually too detailed for the 
casual reader. However, for authoritative information, there is no better source. 


There are many texts on computer networking [41, 55, 80]. The great technical writer W. Richard Stevens 
developed a whole series of classic texts on such topics as advanced Unix programming [72], the Internet 
protocols [73, 74, 75], and Unix network programming [77, 76]. Serious students of Unix systems pro- 
gramming will want to study all of them. Tragically, Stevens died in 1999. His contributions will be greatly 
missed. 
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The authoritative list of MIME types is maintained at 
ftp://ftp.isi.edu/in-notes/iana/assignments/media-types/media-types 


The HTTP/1.1 protocol is documented in RFC 2616. 


Homework Problems 


Homework Problem 12.9 [Category 2]: 


Modify the cpstdinbuf program in Figure 12.14 so that it uses readn and writen to copy standard 
input to standard output, MAXBUF bytes at a time. 


Homework Problem 12.10 [Category 2]: 


A. Modify TINY so that it echos every request line and request header. 


B. Use your favorite browser to make a request to TINY for static content. Capture the output from TINY 
in a file. 


C. Inspect the output from TINY to determine the the version of HTTP your browser uses. 


D. Consult the HTTP/1.1 standard in RFC 2616 to determine the meaning of each header in the HTTP 
request from your browser. You can obtain RFC 2616 from www. rfc-editor.org/rfc.html. 


Homework Problem 12.11 [Category 2]: 
Extend TINY to so that it serves MPG video files. Check your work using a real browser. 
Homework Problem 12.12 [Category 2]: 


Modify TINY so that its reaps CGI children inside a SIGCHLD handler instead of explicitly waiting for 
them to terminate. 


Homework Problem 12.13 [Category 2]: 


Modify TINY so that when it serves static content, it copies the requested file to the connected descriptor 
using malloc, read, and write, instead of mmap and write. 


Homework Problem 12.14 [Category 2]: 


A. Write an HTML form for the CGI adder function in Figure 12.44. Your form should include two 
text boxes that users will fill in with the two numbers they want to add together. Your form should 
also request content using the GET method. 


B. Check your work by using a real browser to request the form from TINY, submit the filled in form to 
TINY, and then display the the dynamic content generated by adder. 
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Homework Problem 12.15 [Category 2]: 
Extend TINY to support the HTTP HEAD method. Check your work using TELNET as a Web client. 
Homework Problem 12.16 [Category 3]: 


Extend TINY so that it serves dynamic contest requested by the HTTP POST method. Check your work 
using your favorite Web browser. 


Homework Problem 12.17 [Category 3]: 

Build a concurrent TINY server based on processes. 
Homework Problem 12.18 [Category 3]: 

Build a concurrent TINY server based on threads. 
Homework Problem 12.19 [Category 4]: 


Build your own concurrent Web proxy cache. 


Appendix A 


Error handling 


A.1 Introduction 


Programmers should always check the error codes returned by system-level functions. There are many 
subtle ways that things can go wrong, and it only makes sense to use the status information that the kernel is 
able to provide us. Unfortunately, programmers are often reluctant to do error checking because it clutters 
their code, turning a single line of code into a multi-line conditional statement. Error checking is also 
confusing because different functions indicate errors in different ways. 


We were faced with a similar problem when writing this text. On the one hand, we would like our code 
examples to be concise and simple to read. On the other hand, we do not want to give students the wrong 
impression that it is OK to skip error checking. To resolve these issues, we have adopted an approach based 
on error-handling wrappers that was pioneered by W. Richard Stevens in his classic network programming 
text [77]. 


The idea is that given some base system-level function foo, we define a wrapper function Foo with identical 
arguments, but with the first letter capitalized. The wrapper calls the base function and checks for errors. 
If it detects an error, the wrapper prints an informative message and terminates the process. Otherwise it 
returns to the caller. Notice that if there are no errors, the wrapper behaves exactly like the base function. 
Put another way, if a program runs correctly with wrappers, it will run correctly if we lower-case the first 
letter of each wrapper and recompile. 


The wrappers are packaged in a single source file (csapp. c) that is compiled and linked into each program. 
A separate header file (csapp.h) contains the function prototypes for the wrappers. 


This appendix gives a tutorial on the different kinds of error-handling in Unix systems and gives examples 
of the different styles of error-handling wrappers. For reference, we also include the complete sources for 
the csapp.hand csapp.c files. 
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A.2 Error handling in Unix systems 


The systems-level function calls that we will encounter in this book use three different styles for returning 
errors: Unix-style, Posix-style, and DNS-style. 


Unix-style error handling 


Functions such as fork and wait that were developed in the early days of Unix (as well as some older 
Posix functions) overload the function return value with both error codes and useful results. For example, 
when the Unix-style wait function encounters an error (e.g., there is no child process to reap) it returns —1 
and sets the global variable errno to an error code that indicate the cause of the error. If wait completes 
successfully, then it returns the useful result, which is the PID of the reaped child. Unix-style error-handling 
code is typically of the form: 


if ((pid = wait (NULL)) < 0) { 
fprintf(stderr, "wait error: %s\n", strerror(errno)); 
exit (0); 
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} 


The strerror function returns a text description for a particular value of errno. 


Posix-style error handling 


Many of the newer Posix functions such as Pthreads use the return value only to indicate success (0) or fail- 
ure (nonzero). Any useful results are returned in function arguments that are passed by reference. We refer 
to this approach as Posix-style error handling. For example, the Posix-style pthread-create function 
indicates success or failure with its return value and returns the ID of the newly created thread (the useful 
result) by reference in its first argument. Posix-style error-handling code is typically of the form: 


if ((retcode = pthread_create(&tid, NULL, thread, NULL)) != 0) { 
fprintf(stderr, "pthread_create error: %s\n", strerror(retcode)); 
exit (0); 
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DNS-style error handling 


The gethostbyname and gethostbyaddr functions that retrieve DNS (Domain Name System) host 
entries have yet another approach for returning errors. These functions return a NULL pointer on failure 
and set the global h_errno variable. DNS-style error handling is typically of the form: 


1 if ((p = gethostbyname(name)) == NULL) { 

2 fprintf(stderr, "gethostbyname error: %s\n:", hstrerror(h_errno) ); 
3 exit (0); 

4 } 
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The hstrerror function returns a text description for a particular value of h_errno. 


Summary of error-reporting functions 


Thoughout this book, we use the following error-reporting functions to accomodate different error-handling 
styles. 


#include "csapp.h" 


void unix-error (char *msqg) ; 
void posix.error(int code, char *msg); 
void dns _error(char *msg) ; 
void app-error (char *msqg) ; 


return: nothing 


As their names suggest, the unix_error, posix_error, and dns_error functions report Unix-style 
errors, Posix-style, and DNS-style errors and then terminate. The app_error function is included as a 
convenience for application errors. It simply prints its input and then terminates. Figure A.1 shows the code 
for the error reporting functions. 


A.3 Error-handling wrappers 


Here are some examples of the different error-handling wrappers. 


Unix-style error-handling wrappers 


Figure A.2 shows the wrapper for the Unix-style wait function. If the wait returns with an error, the 
wrapper prints an informative message and then exits. Otherwise, it returns a PID to the caller. 


Figure A.3 shows the wrapper for the Unix-style ki11 function. Notice that this function, unlike Wait, 
returns void on success. 


Posix-style error-handling wrappers 


Figure A.4 shows the wrapper for the Posix-style pthread_mutex-_lock function. Like most Posix- 
style functions, it does not overload useful results with error return codes, so the wrapper returns void on 
success. 


One exception is the Posix-style pthread_cond_timedwait which returns an error code of ETIMED- 
OUT if the call times out. Since this particular return code is useful to applications, the wrapper passes it 
back to the caller, as shown in Figure A.5. 
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code/src/csapp.c 


void unix_error(char *msg) /* unix-style error */ 


{ 


fprintf(stderr, "Ss: s\n", msg, strerror(errno)); 
exit (0); 


void posix_error(int code, char *msg) /* posix-style error */ 


{ 


fprintf(stderr, "Ss: %Ss\n", msg, strerror(code)); 
exit (0); 


void dns_error(char *msg) /* dns-style error */ 


{ 


fprintf(stderr, "Ss: s\n", msg, hstrerror(h_errno) ); 
exit (0); 


void app_error(char *msg) /* application error */ 


{ 


fprintf(stderr, "%s\n", msg); 
exit (0); 


code/src/csapp.c 


Figure A.1: Error-reporting functions. 


code/src/csapp.c 


pid_t Wait(int *status) 


{ 


pid_t pid; 
if ((pid = wait(status)) < 0) 
unix_error("Wait error"); 
return pid; 
code/src/csapp.c 


Figure A.2: Wrapper for Unix-style wait function. 
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code/src/csapp.c 


void Kill(pid_t pid, int signum) 
{ 


int rc; 


if ((rc = kill(pid, signum)) < 0) 
unix_error("Kill error"); 
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code/src/csapp.c 


Figure A.3: Wrapper for Unix-style ki11 function. 


code/src/csapp.c 


posix_error(rc, "Pthread_mutex_lock error"); 


1 void Pthread_mutex_lock (pthread_mutex_t *mutex) 
2 { 

3 int rë; 

4 

5 if ((rc = pthread_mutex_lock (mutex)) != 0) 
6 

7 


code/src/csapp.c 


Figure A.4: Wrapper for Posix-style pt hread_mutex_lock function. 


code/src/csapp.c 


int Pthread_cond_timedwait (pthread_cond_t *cond, 
pthread_mutex_t *mutex, 
struct timespec *abstime) 


int rc = pthread_cond_timedwait (cond, mutex, abstime) ; 


if ((rce != 0) && (re != ETIMEDOUT) ) 
posix_error(rc, "Pthread_cond_timedwait error"); 
return rc; 
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10 } 
code/src/csapp.c 


Figure A.5: Wrapper for Posix-style pthread_cond_t imedwait function. 
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DNS-style error-handling wrappers 


Figure A.6 shows the error-handling wrapper for the DNS-style gethostbyname function. 
= o o  C0de/Src/csapp.c 


struct hostent *Gethostbyname (const char *name) 
{ 


struct hostent *p; 


dns_error ("Gethostbyname error"); 


1 
2 
3 
4 
5 if ((p = gethostbyname (name)) == NULL) 
6 
7 return p; 

8 


} 
cd e/5rc/esapp.c 


Figure A.6: Wrapper for DNS-style get host byname function. 
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A.4 The csapp.h header file 
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#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


/* Simplifies calls to bind(), 


<stdio.h> 

<stdlib.h> 
<unistd.h> 
<string.h> 
<ctype.h> 

<setjmp.h> 
<signal.h> 


<sys/time.h> 
<sys/types.h> 
<sys/wait.h> 
<sys/stat.h> 


<fentl.h> 


<sys/mman.h> 


<errno.h> 
<math.h> 
<pthread.h> 


<semaphore.h> 
<sys/socket.h> 


<netdb.h> 


<netinet/in.h> 
<arpa/inet.h> 


conne 


typedef struct sockaddr SA; 


/* External variables */ 
extern int h_errno; 


extern char **environ; 


/* Misc 
#define 
#define 
#define 


constants */ 
MAXLINE 
MAXBUF 
LISTENQ 


8192 
8192 
1024 


/* 
/* 


/* 
/* 
/* 


defined by 
defined by 


max text line length */ 


max I/O bu 


second argument to listen() 


ct(), 


libc */ 


ffer size */ 


/* Our own error-handling functions */ 
void unix_error(char *msg); 


void posix_error(int code, 


char *msg 


void dns_error(char *msg) ; 
void app_error(char *msg); 


/* Process control wrappers */ 
pid_t Fork (void); 


void 


Execve (const char *filename, 


pid_t Wait(int *status); 
pid_t Waitpid(pid_t pid, 
void Kill(pid_t pid, 


int *iptr, 


int signum); 


); 


char *const argv[], 


int options); 


and accept () 
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code/include/csapp.h 


*/ 


BIND for DNS errors */ 


*/ 


char *const envp[]); 
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47 unsigned int Sleep(unsigned int secs); 

48 void Pause (void); 

49 unsigned int Alarm(unsigned int seconds) ; 

50 void Setpgid(pid_t pid, pid_t pgid); 

51 pid_t Getpgrp(); 

52 

53 /* Sigaction wrapper */ 

54 typedef void handler_t (int); 

55 handler_t *Signal(int signum, handler_t *handler) ; 

56 

57 /* Unix I/O wrappers */ 

58 int Open (const char *pathname, int flags, mode_t mode); 
59 ssize_t Read(int fd, void *buf, size_t count); 

60 ssize_t Write(int fd, const void *buf, size_t count); 
61 off_t Lseek(int fildes, off_t offset, int whence); 

62 void Close(int fd); 

63 int Select(int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, 


64 struct timeval *timeout) ; 
65 void Dup2(int fdl, int fd2); 
66 


67 /* Memory mapping wrappers */ 

68 void *Mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset); 
69 void Munmap(void *start, size_t length); 

70 

71 /* Standard I/O wrappers */ 

72 void Fclose(FILE *fp); 

73 FILE *Fdopen(int fd, const char *type); 

74 char *Fgets (char *ptr, int n, FILE *stream)j; 

75 FILE *Fopen(const char *filename, const char *mode); 

76 void Fputs (const char *ptr, FILE *stream); 

77 size_t Fread(void *ptr, size_t size, size_t nmemb, FILE *stream); 
78 void Fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream); 
79 

80 /* Dynamic storage allocation wrappers */ 

81 void *Malloc(size_t size); 

82 void *Calloc(size_t nmemb, size_t size); 

83 void Free(void *ptr); 

84 

85 /* Thread control wrappers */ 

86 void Pthread_create(pthread_t *tidp, pthread_attr_t *attrp, 

87 void * (*routine) (void *), void *argp); 

88 void Pthread_join(pthread_t tid, void **thread_return) ; 

89 void Pthread_cancel (pthread_t tid); 

90 void Pthread_detach(pthread_t tid); 

91 void Pthread_exit (void *retval); 

92 pthread_t Pthread_self (void); 

93 

94 /* Semaphore wrappers */ 

95 void Sem init (sem t *sem, int pshared, unsigned int value); 

96 void P(sem_t *sem)j; 
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void V(sem 七 *sem); 


oO 
Oo 


/* Mutex wrappers */ 

void Pthread_mutex_init (pthread_mutex_t *mutex, pthread_mutexattr_t *attr); 
void Pthread_mutex_lock (pthread_mutex_t *mutex); 

void Pthread_mutex_unlock (pthread_mutex_t *mutex); 
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/* Condition variable wrappers */ 

void Pthread_cond_init (pthread_cond_t *cond, pthread_condattr_t *attr); 

void Pthread_cond_signal (pthread_cond_t *cond) ; 

void Pthread_cond_broadcast (pthread_cond_t *cond); 

void Pthread_cond_wait (pthread_cond_t *cond, pthread_mutex_t *mutex); 

int Pthread_cond_timedwait (pthread_cond_t *cond, pthread_mutex_t *mutex, 
struct timespec *abstime) ; 


/* Sockets interface wrappers */ 

int Socket (int domain, int type, int protocol); 

void Setsockopt (int s, int level, int optname, const void *optval, int optlen); 
void Bind(int sockfd, struct sockaddr *my_addr, int addrlen); 

void Listen(int s, int backlog); 

int Accept (int s, struct sockaddr *addr, int *addrlen); 

void Connect (int sockfd, struct sockaddr *serv_addr, int addrlen)j; 
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20 /* DNS wrappers */ 

21 struct hostent *Gethostbyname (const char *name) ; 

22 struct hostent *Gethostbyaddr(const char *addr, int len, int type); 
23 

24 /* Stevens’s socket I/O functions (UNP, Sec 3.9) */ 

25 ssize_t readn (int fd, void *vptr, size_t n); 

26 ssize_t writen(int fd, const void *vptr, size_t n); 

27 ssize_t readline(int fd, void *vptr, size_t maxlen); /* non-reentrant */ 
28 

29 /* 

30 * Stevens’s reentrant readline_r package 

31 */ 

32 /* struct used by readline_r */ 

33 typedef struct { 

34 int read_fd; /* caller’s descriptor to read from */ 
35 char *read_ptr; /* caller’s buffer to read into */ 

36 size_t read_maxlen; /* max bytes to read */ 

37 

38 /* next three are used internally by the function */ 

39 int rl_cnt; /* initialize to 0 */ 

40 char *rl_bufptr; /* initialize to rl_buf */ 

4 char rl_buf [MAXBUF];/* internal buffer */ 

42 } Rline; 


void readline_rinit (int fd, void *ptr, size_t maxlen, Rline *rptr); 
ssize_t readline_r(Rline *rptr); 
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/* Wrappers for Stevens’s socket I/O helpers */ 


ssize_t 


Readn(int fd, void *vptr, size_t n); 


void Writen(int fd, void *vptr, size_t n); 


ssize_t 
ssize_t 


Readline(int fd, void *vptr, size_t maxlen); 
Readline_r(Rline *); 


void Readline_rinit (int fd, void *ptr, size_t maxlen, Rline *rptr); 


/* Our own client/server helper functions */ 
int open_clientfd(char *hostname, int portno); 
int open_listenfd(int portno); 


code/include/csapp.h 
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A.5 The csapp.c source file 


code/src/csapp.c 
#include "csapp.h" 


[RRR KKK KK KKK KKK KKK KK KK KK 


* Error-handling functions 
KOK KK KKK KK KR KK KK / 
void unix_error(char *msg) /* unix-style error */ 
{ 
fprintf(stderr, "%s: s\n", msg, strerror(errno)); 
exit (0); 


void posix_error(int code, char *msg) /* posix-style error */ 
{ 

fprintf(stderr, "Ss: %Ss\n", msg, strerror(code)); 

exit (0); 


void dns_error(char *msg) /* dns-style error */ 


{ 


fprintf(stderr, "Ss: s\n", msg, hstrerror(h_errno) ); 


ND N 
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exit (0); 
22 } 
23 
24 void app_error(char *msg) /* application error */ 
25 { 
26 fprintf(stderr, "%s\n", msg); 
27 exit (0); 
28 } 
29 
30 [KR KKK KK KK KK KR KK KK KKK KK KK KK 
31 * Wrappers for Unix process control functions 
32 大 炎炎 大 大 炎炎 大 大 类 类 大 大 火炎 大 大 大大 大 大 类 类 大 大 类 类 大 大 类 大 大 大 大大 大 大 大 类 大 大 大 大大/ 
33 
34 pid_t Fork (void) 
35 { 
36 pid_t pid; 
37 
38 if ((pid = fork()) < 0) 
39 unix_error("Fork error"); 
40 return pid; 


void Execve(const char *filename, char *const argv[], char *const envp[]) 


if (execve(filename, argv, envp) < 0) 
unix_error("Execve error"); 
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pid_t Wait(int *status) 
{ 
pid_t pid; 


if ((pid wait (status)) < 0) 
unix_error("Wait error"); 


return pid; 


pid_t Waitpid(pid_t pid, 
{ 


int *iptr 


pid_t retpid; 


if ((retpid waitpid(pid, 
unix_error("Waitpid error" 


return (retpid) ; 


handler_t *Signal (int signum, 
{ 
struct sigaction action, 
action.sa_handler = handler; 
sigemptyset (&action.sa_mask) ; 
action.sa_flags SA_RESTART; 


if (sigaction(signum, &action, 
unix_error("Signal error"); 
return (old_action.sa_handler) 


void Kill(pid_t pid, 
{ 


int signum) 


int rG} 


if ((re kill(pid, signum)) < 


unix_error("Kill error"); 


void Pause () 


{ 
(void) pause (); 
return; 


iptr, 
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, int options) 


options)) < 0) 


); 


handler_t *handler) 


old_action; 


/* block sigs of type being handled */ 
/* restart syscalls if possible */ 


&0ld_action) < 0) 


r 


r 


0) 


unsigned int Sleep (unsigned int secs) 


{ 


unsigned int rc; 
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97 

98 if ((rc = sleep(secs)) < 0) 

99 unix_error("Sleep error"); 
00 return rc; 

01 } 

02 


unsigned int Alarm(unsigned int seconds) { 
return alarm(seconds) ; 


void Setpgid(pid_t pid, pid_t pgid) { 
int re; 


if ((rce = setpgid(pid, pgid)) < 0) 
unix_error("Setpgid error"); 
return; 


pid_t Getpgrp(void) { 
return getpgrp(); 


PPP Pee EPeE EL OO OOO Oo 
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20 * Wrappers for Unix I/O routines 

cal 大 炎炎 大 大 火炎 大 大 火炎 大 大 火炎 大 大 类 类 大 大 类 大 大 大 类 大 大 大 类 大 大 

22 

23 int Open (const char *pathname, int flags, mode_t mode) 
24 { 

25 int. Le? 

26 

27 if ((rc = open (pathname, flags, mode) ) < 0) 
28 unix_error ("Open error"); 

29 return rc; 

30 } 

31 

32 ssize_t Read(int fd, void *buf, size_t count) 
33 { 

34 ssize_t rc; 

35 

36 if ((rce = read(fd, buf, count)) < 0) 

37 unix_error("Read error"); 

38 return rc; 

39 } 

40 


ssize_t Write(int fd, const void *buf, size_t count) 


{ 


ssize_t rc; 


if ((rce = write(fd, buf, count)) < 0) 
unix_error("Write error"); 
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return rc; 


off_t Lseek(int fildes, off_t offset, int whence) 


{ 
off 七 rē; 


if ((rc = lseek (fildes, offset, whence)) < 0) 
unix_error("Lseek error"); 
return rc; 


void Close (int fd) 
{ 


int rc; 


if ((rc = close(fd)) < 0) 
unix_error ("Close error"); 


int Select (int n, fd_set *readfds, fd_set *writefds, 
fd_set *exceptfds, struct timeval *timeout) 


int rc; 


if ((rc = select (n, readfds, writefds, exceptfds, timeout)) < 0) 
unix_error ("Select error"); 
return rc; 


void Dup2 (int fdl, int fd2) 
{ 
if (dup2(fdl, fd2) == -1) 
unix_error("dup2 error"); 


[RR KKK KKK KKK KKK KK KK KK KK KK KK KK RK 


* Wrapper for memory mapping functions 
KOK KR KR KR KK KK KK KK KK / 


void *Mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset) 
{ 


void *ptr; 


if ((ptr = mmap (addr, len, prot, flags, fd, offset)) == ((void *) -1)) 
unix_error("mmap error"); 
return (ptr); 


void Munmap (void *start, size_t length) 


{ 
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if (munmap (start, length) < 0) 
unix_error ("munmap error"); 


[RK KK KKK KKK KK KK KR KK KK OK KK IK OK KK KKK KK 


* Wrappers for dynamic storage allocation functions 
KOK KK KK KK OR KK KK KK / 
void *Malloc(size_t size) 
{ 
void *p; 
if ((p = malloc(size)) == NULL) 
unix_error("Malloc error"); 
return p; 
} 
void *Calloc(size_t nmemb, size_t size) 
{ 
void *p; 
if ((p = calloc(nmemb, size)) == NULL) 
unix_error("Calloc error"); 
return p; 
} 
void Free(void *ptr) 
{ 
free (ptr); 
} 
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* Error-handling wrappers for the Standard I/O functions. 
大 火炎 大 大 痰 火炎 大 火炎 火炎 火炎 大大 火炎 大大 火炎 大大 火炎 大大 火炎 大大 火炎 火炎 大 痰 火炎 大 火炎 大 大 大 大 火炎 大 大 火炎 火 大 大/ 


void Fclose(FILE *fp) 


{ 
if (fclose(fp) != 0) 
unix_error("Fclose error"); 
} 
FILE *Fdopen(int fd, const char *type) 
{ 
FILE *fp; 
if ((fp = fdopen(fd, type)) == NULL) 
unix_error("Fdopen error"); 
return fp; 
} 


679 


080 


247 
248 
249 
250 
251 
252 
253 
254 
255 
256 
257 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 


APPENDIX A. ERROR HANDLING 


char *Fgets (char *ptr, int n, FILE *stream) 
{ 


char *rptr; 


if (((rptr = fgets(ptr, n, stream)) == NULL) && ferror(stream) ) 
app_error("Fgets error"); 


return rptr; 


FILE *Fopen(const char *filename, const char *mode) 


FILE *fp; 


if ((fp = fopen(filename, mode)) == NULL) 
unix_error("Fopen error"); 


return fp; 


void Fputs(const char *ptr, FILE *stream) 


{ 


if (fputs(ptr, stream) == EOF) 
unix_error("Fputs error"); 


= 


size_t Fread(void *ptr, size_t size, size_t nmemb, FILE *stream) 


{ 


工 


size_t n; 


if (((n = fread(ptr, size, nmemb, stream)) < nmemb) && ferror(stream) ) 
unix_error("Fread error"); 
return n; 


void Fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream) 


{ 
if (fwrite(ptr, size, nmemb, stream) < nmemb) 
unix_error("Fwrite error"); 


[RR KKK KKK KK KKK KR KK KKK KK KK KKK KK KK KK OK 


* Wrappers for Pthreads thread control functions 
KOK KK KO RK OK KK  / 


void Pthread_create(pthread_t *tidp, pthread_attr_t *attrp, 
void * (*routine) (void *), void *argp) 


Ine rG} 
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297 

298 if ((rc = pthread_create(tidp, attrp, routine, argp)) != 0) 
299 posix_error(rc, "Pthread_create error"); 
300 } 

301 

302 void Pthread_cancel(pthread_t tid) { 

303 int rc; 

304 

305 if ((rce = pthread_cancel(tid)) != 0) 

306 posix_error(rc, "Pthread_cancel error"); 
307 } 

308 

309 void Pthread_join(pthread_t tid, void **thread_return) { 
310 int. ræ; 

311 

312 if ((rc = pthread_join (tid, thread_return)) != 0) 
313 posix_error(rc, "Pthread_join error"); 
314 } 

315 

316 void Pthread_detach(pthread_t tid) { 

317 int rc; 

318 

319 if ((rce = pthread_detach(tid)) != 0) 

320 posix_error(rc, "Pthread_detach error"); 
321 } 

322 

323 void Pthread_exit (void *retval) { 

324 pthread_exit (retval); 

325 } 

326 

327 pthread_t Pthread_self (void) { 

328 return pthread_self(); 

329 } 

330 


341 [KR KKK KKK KK KK KK KK KK KK OK RK OK OK KK KK 


332 * Wrappers for Pthreads mutex and condition variable functions 
333 FOR KR KA A A A OK I / 


335 void Pthread_mutex_init (pthread_mutex_t *mutex, pthread_mutexattr_t *attr) 
336 { 


337 int rc; 

338 

339 if ((rce = pthread_mutex_init (mutex, attr)) != 0) 
340 posix_error(rc, "Pthread_mutex_init error"); 
341 } 


1 

2 

3 void Pthread_mutex_lock (pthread_mutex_t *mutex) 
344 { 

5 int rc; 

6 
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347 if ((rce = pthread_mutex_lock (mutex)) != 0) 

348 posix_error(rc, "Pthread_mutex_lock error"); 
349 } 

350 

351 void Pthread_mutex_unlock (pthread_mutex_t *mutex) 

352 { 

353 int rc; 

354 

355 if ((rc = pthread_mutex_unlock (mutex)) != 0) 

356 posix_error(rce, "Pthread_mutex_unlock error"); 
357 } 

358 

359 void Pthread_cond_init (pthread_cond_t *cond, pthread_condattr_t *attr) 
360 { 

361 int rc; 

362 

363 if ((rc = pthread_cond_init (cond, attr)) != 0) 

364 posix_error(rce, "Pthread_cond_init error"); 
365 } 

366 

367 void Pthread_cond_signal (pthread_cond_t *cond) 

368 { 

369 Int. re; 

370 

371 if ((rc = pthread_cond_signal(cond)) != 0) 

372 posix_error(rc, "Pthread_cond_signal error"); 
373 } 

374 

375 void Pthread_cond_broadcast (pthread_cond_t *cond) 

376 { 

377 int te; 

378 

379 if ((rce = pthread_cond_broadcast(cond)) != 0) 

380 posix_error(rc, "Pthread_cond_broadcast error"); 
381 } 

382 

383 void Pthread_cond_wait (pthread_cond_t *cond, pthread_mutex_t *mutex) 
384 { 

385 int rc; 

386 

387 if ((rc = pthread_cond_wait (cond, mutex)) != 0) 

388 posix_error(rc, "Pthread_cond_wait error"); 
389 } 

390 

391 int Pthread_cond_timedwait (pthread_cond_t *cond, 

392 pthread_mutex_t *mutex, 

393 struct timespec *abstime) 
394 { 

395 int rc = pthread_cond_timedwait (cond, mutex, abstime) ; 


396 
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397 if ((re != 0) && (re != ETIMEDOUT) ) 

398 posix_error(rc, "Pthread_cond_timedwait error"); 
399 return rc; 

400 } 

401 

402 [RRR KKK KK KKK KKK KKK KKK KK KK KK KK 


* Wrappers for Posix semaphores 
ee ee A 


void Sem_init(sem_t *sem, int pshared, unsigned int value) 
{ 
if (sem_init(sem, pshared, value) < 0) 
unix_error("Sem_init error"); 


void P(sem_t *sem) 
{ 
if (sem_wait(sem) < 0) 
unix_error("P error"); 


void V(sem_t *sem) 


{ 


~ 
i i i i i i " i COO OOO oO 
oO OA 0 PF WSN FP DOD 0 OAT HD oO fF UO 


420 if (sem_post(sem) < 0) 

421 unix_error("V error"); 

422 } 

423 

424 [RK KKK KKK KKK KKK KKK KK KK KK KK KKK 

425 * Sockets interface wrappers 

426 HOR KR KKK OK KR KK KK KK / 

427 

428 int Socket (int domain, int type, int protocol) 
429 { 

430 int. re; 

431 

432 if ((rc = socket (domain, type, protocol)) < 0) 
433 unix_error("Socket error"); 

434 return rc; 

435 } 

436 


437 void Setsockopt (int s, int level, int optname, const void *optval, int optlen) 
438 { 
439 int rc; 


if ((rc = setsockopt(s, level, optname, optval, optlen)) < 0) 
unix_error("Setsockopt error"); 


void Bind(int sockfd, struct sockaddr *my_addr, int addrlen) 


493 
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Tnt, ees 


if ((rc = bind(sockfd, my_addr, addrlen)) < 0) 
unix_error("Bind error"); 


void Listen(int s, int backlog) 


{ 


int rc; 


if ((rc = listen(s, backlog)) < 0) 
unix_error("Listen error"); 


int Accept (int s, struct sockaddr *addr, int *addrlen) 


{ 


int re; 


if ((rc = accept (s, addr, addrlen)) < 0) 
unix_error ("Accept error"); 
return rc; 


void Connect (int sockfd, struct sockaddr *serv_addr, int addrlen) 


{ 


int rc; 


if ((rce = connect (sockfd, serv_addr, addrlen)) < 0) 
unix_error("Connect error"); 
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* DNS interface wrappers 
KOK KK KK KK KK KK KK / 


struct hostent *Gethostbyname(const char *name) 


{ 


struct hostent *p; 


if ((p = gethostbyname (name) ) == NULL) 
dns_error("Gethostbyname error"); 
return p; 


struct hostent *Gethostbyaddr(const char *addr, int len, int type) 
{ 


struct hostent *p; 


if ((p = gethostbyaddr(addr, len, type)) == NULL) 
dns_error("Gethostbyaddr error"); 
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} 


return p; 
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* Client/server helper functions 
类 大火 大 类 炎炎 大 类 火炎 大 大 火炎 大 大 炎炎 大 大 类 大大 大 类 类 大 大 类 类 大/ 


/* 


* open_clientfd - open connection to server at <hostname, port> 


and return a socket descriptor ready for reading and writing. 


int open_clientfd(char *hostname, int port) 


{ 


/* 


* open_listenfd - open and return a listening socket on port 


int clientfd; 
struct hostent *hp; 
struct sockaddr_in serveraddr; 


clientfd = Socket (AF_INET, SOCK_STREAM, 0); 


/* fill in the server’s IP address and port */ 
hp = Gethostbyname (hostname) ; 
bzero((char *) &serveraddr, sizeof (serveraddr) ); 
serveraddr.sin_family = AF_INET; 
bcopy ( (char *)hp->h_addr, 

(char *)&serveraddr.sin_addr.s_addr, hp->h_length) ; 
serveraddr.sin_port = htons (port); 


/* establish a connection with the server */ 
Connect (clientfd, (SA *) &serveraddr, sizeof (serveraddr) ); 


return clientfd; 


int open_listenfd(int port) 


{ 


int listenfd; 
int optval; 
struct sockaddr_in serveraddr; 


/* create a socket descriptor */ 
listenfd = Socket (AF_INET, SOCK_STREAM, 0); 


/* eliminates "Address already in use" error from bind. */ 
optval = 1; 
Setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 

(const void *)&optval , sizeof(int)); 
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/* listenfd will be an endpoint for all requests to port 


on any IP addres 
bzero ( (char *) &ser 
serveraddr.sin_fami 
serveraddr.sin_addr 
serveraddr.sin_port 
Bind(listenfd, (SA 


/* make it a listening socket ready to accept connection requests */ 


Listen(listenfd, LI 


return listenfd; 
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* I/O helper functions 
大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


ssize_t readn(int fd, 


{ 


Vv 


size_t nleft = 
ssize_t nread; 
char *ptr = buf; 


coun 


while (nleft > 0) { 
if ((nread = re 
if (errno = 
nread = 
else 
return 
} 
else if (nread 
break; 
nleft -= nread; 


ptr += nread; 


} 


return (count - nle 


ssize_t writen(int fd, 
{ 
size_t nleft = coun 
ssize_t nwritten; 


const char *ptr = b 
while (nleft > 0) { 
if ((nwritten = 
if (errno = 
nwritte 

else 
return 


s for this host */ 

veraddr, sizeof (serveraddr) ); 
ly = AF_INET; 

.s_addr = htonl (INADDR_ANY) ; 


= htons((unsigned short) port); 


*) &serveraddr, 


STENQ) ; 


大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


(from Stevens UNP) 
KOK KK KK RK KK KK / 


oid *buf, size_t count) 


t; 


sizeof (serveraddr) ); 


ad(fd, ptr, nleft)) < 0) { 
= EINTR) 
0; /* and call read() again */ 
=1; /* errno set by read() */ 
== 0) 
/* EOF */ 

ft); /* return >= 0 */ 
const void *buf, size_t count) 
t; 
uf; 

write(fd, ptr, nleft)) <= 0) { 
= EINTR) 
n = 0; /* and call write() again */ 
-1; /* errorno set by write() */ 
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597 } 

598 nleft -= nwritten; 

599 ptr += nwritten; 

600 } 

601 return count; 

602 } 

603 

604 static ssize_t my_read(int fd, char *ptr) 

605 { 

606 static int read_cnt = 0; 

607 static char *read_ptr, read buf [MAXLINE]; 

608 

609 if (read_cnt <= 0) { 

610 again: 

611 if ( (read_cnt = read(fd, read_buf, sizeof(read_buf))) < 0) { 
612 if (errno == EINTR) 

613 goto again; 

614 return -1; 

615 } 

616 else if (read_cnt == 0) 

617 return 0; 

618 read_ptr = read_buf; 

619 } 

620 read_cnt--; 

621 *ptr = *read_ptrt+t; 

622 return 1; 

623 } 

624 

625 ssize_t readline(int fd, void *buf, size_t maxlen) 

626 { 

627 int n, rc; 

628 char c, *ptr = buf; 

629 

630 for (n = 1; n < maxlen; n++) { /* notice that loop starts at 1 */ 
631 if ( (rc = my_read(fd, &c)) == 1) { 

632 *ptrt++ = c; 

633 it (c == Xn") 

634 break; /* newline is stored, like fgets() */ 
635 } 

636 else if (rc == 0) { 

637 if (n == 1) 

638 return 0; /* EOF, no data read */ 
639 else 

640 break; /* EOF, some data was read */ 
641 } 

642 else 

643 return —-1; /* error, errno set by read() */ 
644 } 

645 *ptr = 0; /* null terminate like fgets() */ 

646 return n; 
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647 } 

648 

649 /* 

650 * readline_r: Stevens’s reentrant readline package 
651 * (mentioned but not defined in UNP 23.5) 


652 */ 

653 

654 static ssize_t my_read_r(Rline *rptr, char *ptr) 
655 { 

656 if (rptr->rl_cnt <= 0) { 

657 again: 

658 rptr->rl_cnt = read(rptr->read_fd, rptr->rl_buf, 
659 sizeof (rptr->rl_buf) ); 
660 if (rptr->rl_cnt < 0) { 

661 if (errno == EINTR) 

662 goto again; 

663 else 

664 return (-1); 

665 } 

666 else if (rptr->rl_cnt == 0) 

667 return (0); 

668 rptr->rl_bufptr = rptr->rl_buf; 

669 } 

670 rptr-Srl_¢cnt==; 

671 *ptr = *rptr->rl_bufptr++ & 255; 

672 return (1); 

673 } 

674 

675 ssize_t readline_r(Rline *rptr) 

676 { 

677 int n, rc; 

678 char c, *ptr = rptr->read_ptr; 

679 

680 for (n = 1; n < rptr->read_maxlen; n++) { 
681 if ( (rc = my_read_r(rptr, &c)) == 1) { 
682 *ptrt++ = c; 

683 if (c == Nn} 

684 break; 

685 } else if (rc == 0) { 

686 if (n == 1) 

687 return (0); /* EOF, no data read */ 
688 else 

689 break; /* EOF, some data was read */ 
690 } else 

691 return (-1); /* error */ 

692 } 

693 *ptr = 0; 

694 return (n); 

695 } 
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/* 
x readline_rinit - initialization function for readline_r 
* / 
void readline_rinit (int fd, void *ptr, size_t maxlen, Rline *rptr) 
{ 
rptr->read_fd = fd; /* save caller’s arguments */ 
rptr->read_ptr = ptr; 
rptr->read_maxlen = maxlen; 


rptr->rl_cnt = 0; /* and init our counter & pointer */ 
rptr->rl_bufptr = rptr->rl_buf; 


[RR KKK KKK KK KK KK KK RK KK OK KK KK kkk 


* Error-handling wrappers for Stevens’s I/O helpers 
类 火炎 大 大 火炎 大 大 火炎 大 大 火炎 大 大 火炎 大 大 类 类 大 大 类 类 大 大 类 大 大 大 类 大 类 大 大 类 类 大 大 类 大 大 大 大 大 大 大 大 类/ 


ssize_t Readn(int fd, void *ptr, size_t nbytes) 
{ 


ssize_t n; 


if ((n = readn(fd, ptr, nbytes)) < 0) 
unix_error("Readn error"); 
return n; 


void Writen(int fd, void *ptr, size_t nbytes) 
{ 
if (writen(fd, ptr, nbytes) != nbytes) 
unix_error("Writen error"); 


ssize_t Readline(int fd, void *ptr, size_t maxlen) 


{ 


ssize_t n; 


if ((n = readline(fd, ptr, maxlen)) < 0) 
unix_error("Readline error"); 
return n; 


ssize_t Readline_r(Rline *rptr) 
{ 


ssize_t n; 


if ( (n = readline_r(rptr)) == -1) 
unix_error("readline_r error"); 
return (n); 
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747 void Readline_rinit(int fd, void *ptr, size_t maxlen, Rline *rptr) 
748 { 

749 readline_rinit (fd, ptr, maxlen, rptr); 

750 } 


code/src/csapp.c 


Appendix B 


Solutions to Practice Problems 


B.1 Intro 


B.2 Representing and Manipulating Information 


Problem 2.1 Solution: [Pg. 24] 


Converting between binary and hexadecimal is not very exciting, but it is an important skill. Like many 
skills, it can only be gained by practice. 


0 | 00000000 om | 


Problem 2.2 Solution: [Pg. 32] 


This problem tests your understanding of the byte representation of data and the two different byte orderings. 


A. Little endian: 78 Big endian: 12 
B. Little endian: 78 56 Big endian: 12 34 


C. Little endian: 78 56 34 Big endian: 12 34 56 
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Note that on a little-endian machine we enumerate bytes starting from the most signficant byte and working 
toward the least, while on the big-endian machine we enumerate bytes starting from the least signficant byte 
and working toward the most. 


Problem 2.3 Solution: [Pg. 32] 


This problem is another chance to practice hexadecimal to binary conversion. It also gets you thinking about 
integer and floating-point representations. We will explore these representations in more detail later in this 
chapter. 


A. Using the notation of the example in the text, we write the two strings as 


0 0 3 5 4 3 2 il 
00000000001101010100001100100001 


大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


4 A 5 5 0 C 8 4 
01001010010101010000110010000100 


B. With the second word shifted two positions relative to the first we find a sequence with 21 matching 
bits. 


C. We find all bits of the integer embedded in the floating point number, except for the most signficant 
bit having value 1. Such is the case for the example in the text as well. In addition the floating-point 
number has some nonzero high-order bits that do not match those of the integer. 


Problem 2.4 Solution: [Pg. 33] 


It prints 41 42 43 44 45 46. Recall also that the library routine st rlen does not count the terminat- 
ing null character, and so show_bytes printed only through the character ‘F.’ 


Problem 2.5 Solution: [Pg. 36] 


This problem is a drill to help you become more familiar with Boolean operations. 


Resuli 


[01101001] 
[01010101] 


[01000001] 
[01111101] 
[00111100] 


[10010110] 
[10101010] 


Problem 2.6 Solution: [Pg. 37] 


This procedure relies on the fact that EXCLUSIVE-OR is commutative and associative, and that a ^ a = 0 
for any a. We will see in Chapter 5 that the code does not work correctly when the two pointers x and y are 
equal, that is, they point to the same location. 
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Problem 2.7 Solution: [Pg. 38] 


Here are the expressions: 


A. x | ~OxFF 
B. x ^ OxFF 


C. x & ~OxFF 


These expressions are typical of the kind commonly found in performing low-level bit operations. The 
expression ~ OxFF creates a mask where the 8 least-significant bits equal 0 and the rest equal 1. Observe 
that such a mask will be generated regardless of the word size. By contrast, the expression OXFFFFFF00 
would only work on a 32-bit machine. 


Problem 2.8 Solution: [Pg. 38] 


These problems help you think about the relation between Boolean operations and typical masking opera- 
tions. Here is the code: 


/* Bit Set */ 
int bis(int x, int m) 
{ 
int result = x | m; 
return result; 


} 


/* Bit Clear */ 
int bic(int x, int m) 
{ 
int result = x & “m; 
return result; 


} 


It is easy to see that bis is equivalent to Boolean OR—a bit is set in z if either this bit is set in x or it is set 
in m. 


The bic operation is a bit more subtle. We want to set a bit of z to 0 if the corresponding bit of m equals 
1. If we complement the mask giving ~m, then we want to set a bit of z to 0 if the corresponding bit of the 
complemented mask equals 0. We can do this with the AND operation. 


Problem 2.9 Solution: [Pg. 39] 


This problem highlights the relation between bit-level Boolean operations and logic operations in C. 


694 APPENDIX B. SOLUTIONS TO PRACTICE PROBLEMS 


[Expression | Value || Expression | Value | 
C xey [0x02] x ssy [0x01] 


Cx Ty [o| x|] y [aol 
x [y [oxo | ix TT ty | 0x00, 
[xe ty [0x00 | x se “y [0x07] 


Problem 2.10 Solution: [Pg. 40] 


a 


The expression is ! (x y). 


That is x^y will be zero if and only if every bit of x matches the corresponding bit of y. We then exploit 
the ability of ! to determine whether a word contains any nonzero bit. 


There is no real reason to use this expression rather than simply writing x == y, but it demonstrates some 
of the nuances of bit-level and logical operations. 

Problem 2.11 Solution: [Pg. 40] 

This problem is a drill to help you understand the different shift operations. 


x x << 3] x >> 2 x >> 2 
(Logical) | (Arithmetic) 


Problem 2.12 Solution: [Pg. 43] 


In general, working through examples for very small word sizes is a very good way to understand computer 
arithmetic. 


The unsigned values correspond to those in Figure 2.1. 


For the two’s complement values, hex digits 0 through 7 have a most significant bit of 0, yielding non- 
negative values, while while hex digits 8 through F, have a most significant bit of 1, yielding a negative 
value. 


Problem 2.13 Solution: [Pg. 45] 


The functions TZU and U2T are very peculiar from a mathematical perspective. It is important to under- 
stand how they behave. 
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We solve this problem by simply reordering the rows according to the two’s complement value, and then 
list the unsigned value as the result of the function application. 


Problem 2.14 Solution: [Pg. 46] 

This exercise tests your understanding of Equation 2.4. 

For the first eight entries, the values of z are negative and T2U4(x) = x + 24. For the remaining eight 
entries, the values of x are nonnegative and T2U4(x) = 2. 

Problem 2.15 Solution: [Pg. 52] 


The effect of truncation is fairly intuitive for unsigned numbers, but not for two’s complement numbers. 
This exercise lets you explore its properties using very small word sizes. 


Two's Complement 


As Equation 2.7 states, the effect of this truncation on unsigned values is to simply to find their residue, 
modulo 8. The effect of the truncation on signed values is a bit more complex. According to Equation 2.8, 
we first compute the modulo 8 residue of the argument. This will give values 0-7 for arguments 0-7, and 
also for arguments —8——1. Then we apply function U2T's to these residues, giving two repetitions of the 
sequences 0-3 and —4——1. 


Problem 2.16 Solution: [Pg. 52] 


This problem was designed to demonstrate how easily bugs can arise due to the implicit casting from signed 
to unsigned. It seems quite natural to pass parameter length as an unsigned, since one would never want 
to use a negative length. The stopping criterion i <= length-—1 also seems quite natural. But combining 
these two yields an unexpected outcome! 


Since parameter length is unsigned, the computation 0 — 1 is performed using unsigned arithmetic, which 
is equivalent to modular addition. The result is then UMazx32 (assuming a 32-bit machine). The < compar- 
ison is also performed using an unsigned comparison, and since any 32-bit number is less than or equal to 
UMa2x32, the comparison always holds! Thus, the code attempts to access invalid elements of array a. 
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The code can be fixed by either declaring length to be an int, or by changing the test of the for loop to 
be i < length. 


Problem 2.17 Solution: [Pg. 56] 


This problem is a simple demonstration of arithmetic modulo 16. The easiest way to solve it is to convert 
the hex pattern into its unsigned decimal value. For nonzero values of z, we must have (—) 2) + z = 16. 
Then we convert the complemented value back to hex. 


Problem 2.18 Solution: [Pg. 58] 


This problem is an exercise to make sure you understand two’s complement addition. 


Problem 2.19 Solution: [Pg. 60] 
This problem helps you understand two’s complement negation using a very small word size. 


For w = 4, we have TMing = —8. So —8 is its own additive inverse, while other values are negated by 
integer negation. 
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The bit patterns are the same as for unsigned negation. 


Problem 2.20 Solution: [Pg. 63] 


This problem is an exercise to make sure you understand two’s complement multiplication. 


Unsigned 
Two’s Comp. | —2 


Unsigned 1 [001] [111] 

Two’s Comp. 1 [001] [111] | —1 [111111 

Unsigned 7 [111] [111] | 49 [110001] 

Two’s Comp. | —1 [111] [111] 1 [000001] 
Problem 2.21 Solution: [Pg. 64] 


In Chapter 3, we will see many examples of the leal instruction in action. The instruction is provided 
to support pointer arithmetic, but the C compiler often uses it as a way to perform multiplication by small 
constants. 


For each value of k, we can compute two multiples: 24 (when b is 0) and 2% + 1 (when b is a. Thus, we 
can compute multiples 1, 2, 3, 4, 5, 8, and 9. 
Problem 2.22 Solution: [Pg. 65] 


We have found that students find this exercise looks difficult when working directly with assembly code. 
Formulating it in the manner we have shown in optarith can help clarify the behavior. 


We can see that M is 15; x*M is computed as (x<<4)-x. 


We can see that N is 4; a bias value of 3 is added when y is negative, and the right shift is by 2. 


Problem 2.23 Solution: [Pg. 68] 


Understanding fractional binary representations is an important step to understanding floating-point encod- 
ings. This exercise lets you try out some simple examples. 


一 和 hon ee | 


心 | 


- 


als 


g onm [ews 
a ho hme 
e o ls | 


One simple way to think about fractional binary representations is to represent a number as a fraction of the 
form 5;. We can write this in binary using the binary representation of x, with the binary point inserted k 


oof RIS 


00 | 


IS 
for) Ke} 


698 APPENDIX B. SOLUTIONS TO PRACTICE PROBLEMS 


positions from the right. As an example, for 22, we have 2310 = 101112. We then put the binary point 4 


16° 
positions from the right to get 1.01119. 


Problem 2.24 Solution: [Pg. 68] 


In most cases, the limited precision of floating-point numbers is not a major problem, because the relative 
error of the computation is still fairly low. In this example, however, the system was sensitive to the absolute 
error. 


A. We can see that x — 0.1 has binary representation: 


().000000000000000000000001100[1100] - - -2 


L 


=2 1 
10° 2 ° 


Comparing this to the binary representation of x 16, which is 


around 9.54 x 1078. 


we can see that it is simply 


B. 9.54 x 1078 x 100 x 60 x 60 x 10 & 0.343. 


C. 0.343 x 2000 ~ 687. 


Problem 2.25 Solution: [Pg. 73] 


Working through floating point representations for very small word sizes helps clarify how IEEE floating 
point works. Note especially the transition between denormalized and normalized values. 
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Problem 2.26 Solution: [Pg. 74] 

This exercise helps you think about what numbers cannot be represented exactly in floating point. 
The number has binary representation 1 followed by n 0’s followed by 1, giving value 22+1 + 1. 
When n = 23, the value is 274 + 1 = 16,777, 217. 


Problem 2.27 Solution: [Pg. 78] 


In general it is better to use a library macro rather than inventing your own code. This code seems to work 
on a variety of machines, however. 


We assume that the value le400 overflows to infinity. 
code/data/ieee.c 
1 #define POS_INFINITY 1e400 


2 #define NEG_INFINITY (-POS_INFINITY) 
3 #define NEG_ZERO (-1.0/POS_INFINITY) 


code/data/ieee.c 


Problem 2.28 Solution: [Pg. 79] 


Exercises such as this one help you develop your ability to reason about floating point operations from a 
programmer’s perspective. Make sure you understand each of the answers. 


A. x == (int) (float) x 
No. For example when x is TMazx. 


B. x == (int) (double) x 
Yes, since double has greater precision and range than int. 


C. f == (float) (double) f 
Yes, since double has greater precision and range than float. 


D. == (float) d 
No. For example when d is 1e40, we will get 十 co on the right. 


E. f == -(-f) 
Yes, since a floating-point number is negated by simply inverting its sign bit. 


F. 2/3 == 2/3.0 
No, the left hand value will be the integer value 0, while the right hand value will be the floating-point 
approximation of 3. 


G. (d >= 0.0) || ((d*2) < 0.0) 
Yes, since multiplication is monotonic. 


H. (d+f£)-d == 
No, for example when d is +00 and f is 1, the left hand side will be NaN, while the right hand side 
will be 1. 
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B.3 Machine Level Representation of C Programs 


Problem 3.1 Solution: [Pg. 101] 


This exercise gives you practice with the different operand forms. 


Problem 3.2 Solution: [Pg. 104] 


(Seax) 


Address 0x100 


(eax, Sedu, 4) 


Reverse engineering is a good way to understand systems. In this case, we want to reverse the effect of the 
C compiler to determine what C code gave rise to this assembly code. The best way is to run a “simulation,” 
starting with values x, y, and z at the locations designated by pointers xp, yp, and zp, respectively. We 
would then get the following behavior: 


wo OA HD OF WN FB 


5553585535853553 


ovl 
ovl 
ovl 
ovl 
ovl 
ovl 
ovl 
ovl 
ovl 


o 


8 (sebp) , sedi 


12 (Sebp) , sebx 


o 


16 (%ebp),%esi 


(%edi),%eax 
(Sebx) , sedx 
(Sesi), %ecx 


From this we can generate the following C code: 


1 
2 
2 
4 
5 
6 
7 
8 
9 


10 


{ 


} 


*xp 


void decodel (int *xp, 


tx = *xp; 
ty = *yp; 
tz = *zp; 


int *yp, 


int *zp) 


code/asm/decode1-ans.c 
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code/asm/decode1-ans.c 


Problem 3.3 Solution: [Pg. 106] 


This exercise demonstrates the versatility of the leal instruction and gives you more practice in deciphering 
the different operand forms. Note that although the operand forms are classified as type “Memory” in Figure 
3.3, no memory access occurs. 


leal 6(%eax), %edx 
leal (%eax, Secx), %edx 
leal (%eax, Secx,4), %edx 


leal 7(%eax, Seax, 8), %edx 
leal OxA(,S$ecx,4), %edx 10 + 4y 
leal 9(%eax,%ecx,2), sedx | 9+7 +2y 


Problem 3.4 Solution: [Pg. 106] 


This problem gives you a chance to test your understanding of operands and the arithmetic instructions. 


subl Sedx, 4 (Seax) 


incl 8 (%eax) 0x108 


Problem 3.5 Solution: [Pg. 107] 


This exercise gives you a chance to generate a little bit of assembly code. The solution code was generated 
by GCC. By loading parameter n in register %ecx, it can then use byte register %c1 to specify the shift 
amount for the sar 1 instruction. 


ni movl 12 (%ebp) ,%ecx Get x 
2 movl 8(%ebp), %eax Get n 
3 sall $2,%eax x <<= 2 
4 sarl %Scl, Seax x >>= n 


Problem 3.6 Solution: [Pg. 108] 


This instruction is used to set register Sedx to 0, exploiting the property that x ~ x = 0 for any x. It 
corresponds to the C statement i = 0. 


This is an example of an assembly language idiom—a fragment of code that is often generated to fulfill a 
special purpose. Recognizing such idioms is one step in becoming proficient at reading assembly code. 
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Problem 3.7 Solution: [Pg. 113] 


This example requires you to think about the different comparison and set instructions. A key point to note 
is that by casting the value on one side of a comparison to unsigned, the comparison is performed as if 
both sides are unsigned, due to implicit casting. 


al 
2 
3 
4 
5 
6 
7 
8 
9 


10 


char ctest(int a, int b, int c) 


{ 


char tl = a< b; 
char t2 = b < (unsigned) a; 
char t3 = (short) c >= (short) a; 
char t4 = (char) a != (char) ee 

char t5 = G> b; 
char t6 = a> O; 


return t1 + t2 + t3 + t4 + t5 + t6; 
} 


Problem 3.8 Solution: [Pg. 116] 


This exercise requires you to examine disassembled code in detail and reason about the encodings for jump 
targets. It also gives you practice in hexadecimal arithmetic. 


A. 


The jbe instruction has as target Ox8048d1c + Oxda. As the original disassembled code shows, 
this is Ox8048cf8. 


8048dlc: 76 da jbe 8048cf8 
8048dle: eb 24 jmp 8048d44 


. According to the annotation produced by the disassembler, the jump target is at absolute address 


0x8048d44. According to the byte encoding, this must be at an address 0x54 bytes beyond that of 
the mov instruction. Subtracting these gives address 0x8 04 8c£0, as confirmed by the disassembled 
code: 


8048cee: eb 54 jmp 8048d44 
8048cf0: c7 45 £8 10 00 mov $0x10, Oxfffffff8 (Sebp) 


. The target is at offset 000000cb relative to 0x8048 907 (the address of the nop instruction). Sum- 


ming these gives address 0x80489d2. 


8048902: e9 cb 00 00 00 jmp 80489d2 
8048907: 90 nop 


. An indirect jump is denoted by instruction code ff 25. The address from which the jump target is 


to be read is encoded explicitly by the following 4 bytes. Since the machine is little endian, these are 
given in reverse order as e0 a2 04 08. 


80483f0: ff 25 e0 a2 04 jmp *0x804a2e0 
80483£5: 08 
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Problem 3.9 Solution: [Pg. 119] 


Annotating assembly code and writing C code that mimics its control flow are good first steps in under- 
standing assembly language programs. This problem gives you practice for an example with simple control 
flow. It also gives you a chance to examine the implementation of logical operations. 


A.— codelasmsimple-if.c 


1 void cond(int a, int *p) 
2 { 

3 if (p == 0) 

4 goto done; 

5 if (a <= 0) 

6 goto done; 

7 *p += a; 

8 done: 

9 


} 


code/asm/simple-if.c 


B. The first conditional branch is part of the implementation of the | | expression. If the test for p being 
nonnull fails, the code will skip the test ofa > 0. 


Problem 3.10 Solution: [Pg. 120] 


The code generated when compiling loops can be tricky to analyze, because the compiler can perform 
many different optimizations on loop code, and because it can be difficult to match program variables with 
registers. We start practicing this skill with a fairly simple loop. 


A. The register usage can be determined by simply looking at how the arguments get fetched. 


Register Usage 
ial 


B. The body-statement portion consists of lines 4 to 6 in the C code and lines 6 to 8 in the assembly 
code. The fest-expr portion is on line 7 in the C code. In the assembly code, it is implemented by the 
instructions on lines 9 to 14 as well as the branch condition on line 15. 


C. The annotated code is as follows. 


Initially x, y, and n are at offsets 8, 12, and 16 from %ebp 


1 movl 8(%ebp),%esi Put x in %esi 
2 movl 12 (%ebp) , sebx Put y in %ebx 


3 movl 16(%ebp), %ecx Put n in %ecx 
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-p2align 4,,7 


LGS 


imull %ecx, Sebx 
addl %ecx, esi 
decl %ecx 

testl %ecx,%ecx 


setg Sal 
cmpl %ecx,%ebx 
setl %dl 


andl %edx, teax 
testb $1,%al 
jne .L6 
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Test n 

D > 0 

Compare y:n 

y<n 

(n > 0) & (y <n) 

Test least significant bit 


If != 0, goto loop 


Note the somewhat strange implementation of the test expression. Apparently, the compiler recog- 
nizes that the two predicates (n > 0) and (y < n) can only evaluate to 0 or 1, and hence the 
branch condition need only test the least significant byte of their AND. The compiler could have been 
more clever and used the testb instruction to perform the AND operation. 


Problem 3.11 Solution: [Pg. 125] 


This is another chance to practice deciphering loop code. The C compiler has done some interesting opti- 


mizations. 


A. The register usage can be determined by looking at how the arguments get fetched, and how registers 
are initialized. 


C. The annotated code is as follows 


a in %eax, 


movl 8(%ebp),%eax 
movl 12 (%ebp) ,%ebx 


xorl %ecx,%ecx 
movl %eax,%edx 
-p2align 4,,7 


Register Usage 
Register 


a 
b 
Si 
result 


B. The test-expr occurs on line 5 of the C code and on line 10 and the jump condition of line 11 in the 
assembly code. The body-statement occurs on lines 6 through 8 of the C code and on lines 7 to 9 of 
the assembly code. The compiler has detected that the initial test of the while loop will always be 
true, since i is initialized to 0, which is clearly less than 256. 


Put a in %eax 


Put b in %ebx 


result = a 


b in %ebx, i in %ecx, result in %edx 
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6 Ld? loop: 

7 addl %eax, tedx result += a 

8 subl %Sebx, teax a -=b 

9 addl %ebx, Secx i+=b 

10 empl $255, %ecx Compare i:255 

11 jle .L5 If <= goto loop 

12 movl %edx, teax Set result as return value 


D. The equivalent goto code is as follows 


1 int loop_while_goto(int a, int b) 
2 { 

3 int i = 0; 

4 int result = a; 

5 loop: 

6 result += a; 

“ 
8 
9 


a -= b; 

i += b; 

if (i <= 255) 
10 goto loop; 
11 return result; 
12 } 


Problem 3.12 Solution: [Pg. 127] 


One way to analyze assembly code is to try to reverse the compilation process and produce C code that 
would look “natural” to a C programmer. For example, we wouldn’t want any goto statements, since these 
are seldom used in C. Most likely, we wouldn’t use a do-while statement either. This exercise forces 
you to reverse the compilation into a particular framework. It requires thinking about the translation of for 
loops. It also demonstrates an optimization technique known as code motion, where a computation is moved 
out of a loop when it can be determined that its result will not change within the loop. 


A. We can see that result must be in register seax. It gets set to 0 initially and it is left in eax at 
the end of the loop as a return value. We can see that i is held in register Sedx, since this register is 
used as the basis for two conditional tests. 


The instructions on lines 2 and 4 set Sedx to n-1. 
The tests on lines 5 and 12 require i to be nonnegative. 
Variable i gets decremented by instruction 4. 


Instructions 1, 6, and 7 cause x*y to be stored in register Sedx. 


mm oO a w 


Here is the original code: 
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1 int loop(int x, int y, int n) 

2 { 

3 int result = 0; 

4 int i; 

5 for (i = n-1; i >= 0; i = i-x) { 
6 result += y * x; 

7 } 

8 

9 


return result; 


} 


Problem 3.13 Solution: [Pg. 131] 


This problem gives you a chance to reason about the control flow of a switch statement. Answering the 
questions requires you to combine information from several places in the assembly code: 


1. Line 2 of the assembly code adds 2 to x to set the lower range of the cases to 0. That means that the 
minimum case label is —2. 


2. Lines 3 and 4 cause the program to jump to the default case when the adjusted case value is greater 
than 6. This implies that the maximum case label is —2 + 6 = 4. 


3. In the jump table, we see that the second entry (case label —1) has the same destination (. L10) as 
the jump instruction on line 4, indicating the default case behavior. Thus, case label —1 is missing in 
the switch statement body. 


4. In the jump table, we see that the fifth and sixth entries have the same destination. These correspond 
to case labels 2 and 3. 


From this reasoning we conclude: 


A. The case labels in the switch statement body had values —2, 0, 1, 2, 3, and 4. 


B. The case with destination . L8 had labels 2 and 3. 


Problem 3.14 Solution: [Pg. 135] 


This is another example of an assembly code idiom. At first it seems quite peculiar—a call instruction 
with no matching ret. Then we realize that it is not really a procedure call after all. 
A. %eax is set to the address of the pop 1 instruction. 


B. This is not a true subroutine call, since the control follows the same ordering as the instructions and 
the return address is popped from the stack. 


C. This is the only way in IA32 to get the value of the program counter into an integer register. 
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Problem 3.15 Solution: [Pg. 136] 


This problem makes concrete the discussion of register usage conventions. Registers sedi, esi, and 
%ebx are callee save. The procedure must save them on the stack before altering their values and restore 
them before returning. The other three registers are caller save. They can be altered without affecting the 


behavior of the caller. 


Problem 3.16 Solution: [Pg. 139] 


Being able to reason about how functions use the stack is a critical part of understanding compiler-generated 
code. As this example illustrates, the compiler allocates a significant amount of space that never gets used. 


A. We started with esp having value 0x800040. Line 2 decrements this by 4, giving 0x80003C, 
and this becomes the new value of Sebp. 


B. We can see how the two leal instructions compute the arguments to pass to scanf. Since arguments 
are pushed in reverse order, we can see that x is at offset —4 relative to Sebp and y is at offset —8. 
The addresses are therefore 0x800038 and 0x800034. 


C. Starting with the original value of 0x800040, line 2 decremented the stack pointer by 4. Line 4 
decremented it by 24, and line 5 decremented it by 4. The three pushes decremented it by 12, giving 
an overall change of 44. Thus, at line 11 %esp equals 0x800014. 


D. The stack frame has the following structure and contents: 


0x80003C 


0x800038 


0x800034 


0x800030 


0x80002C 


0x800028 


0x800024 


0x800020 


0x80001C 


0x800018 


0x800014 


| <-- %ebp 
| (x) 


| y) 


E. Byte addresses 0x800020 through 0x800033 are unused. 
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Problem 3.17 Solution: [Pg. 143] 


This exercise tests your understanding of data sizes and array indexing. Observe that a pointer of any kind 
is four bytes long. The GCC implementation of long double uses 12 bytes to store each value, even 
though the actual format requires only 10 bytes. 


Element Size Total Size | Start Address Element 7 
2 28 Hb 5 
4 12 TT 


4 24 ZU 
12 96 ry 
4 16 


Problem 3.18 Solution: [Pg. 145] 


This problem is a variant of the one shown for integer array E. It is important to understand the difference 
between a pointer and the object being pointed to. Since data type short requires two bytes, all of the 
array indices are scaled by a factor of two. Rather than using mov 1 as before, we now use movw. 


Expression Type Value | Assembly 


S+1 short tg +2 2 (Sedx) , Seax 
S[3] short Memlzs + 6] 6 (Sedx) , ax 


&S[i] short zg +21 (Sedx, %ecx, 2) ,%eax 
S[4*i+1] short Memlzs + 81 + 2] 2 (Sedx, Secx, 8), %ax 
S+i-5 short we +27 —10 -10 (Sedx, %ecx,2),%eax 


Problem 3.19 Solution: [Pg. 147] 


This problem requires you to work through the scaling operations to determine the address computations, 
and to apply the formula for row-major indexing. The first step is to annotate the assembly to determine 
how the address references are computed: 


1 movl 8(%ebp), secx Get i 

2 movl 12(%ebp), seax Get j 

3 leal 0(,%eax,4),%ebx 4*j 

4 leal 0(, %ecx,8),%edx Bri 

5 subl %ecx, tedx 7*i 

6 addl %Sebx, Seax 5*j 

7 sall $2,%eax 20*j 

8 movl mat2 (S$eax, Secx, 4), %eax mat2[(20*j + 4*i)/4] 

9 addl mat1 (%ebx, tedx, 4), seax + mat1[(4*j + 28%*i)/4] 


From this we can see that the reference to matrix mat 1 is at byte offset 4(7i + j), while the reference to 
matrix mat 2 is at byte offset 4(57 + i). From this we can determine that mat 1 has 7 columns, while mat 2 
has 5, giving M = 5 and N = 7. 
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Problem 3.20 Solution: [Pg. 150] 


This exercise requires you to study assembly code to understand how it has been optimized. This is an 
important skill for improving program performance. By adjusting your source code, you can have an effect 
on the efficiency of the generated machine code. 


Here is an optimized version of the C code: 


1 /* Set all diagonal elements to val */ 
2 void fix_set_diag_opt (fix_matrix A, int val) 
3 { 

4 int *Aptr = &A[0] [0] + 255; 

5 int cnt = N-1; 

6 do { 

7 *Aptr = val; 

8 Aptr -= (N+1); 

9 Cnt==; 

10 } while (cnt >= 0); 

11 } 


The relation to the assembly code can be seen via the following annotations: 


1 movl 12 (%ebp) , sedx Get val 

2 movl 8(%ebp), %eax Get A 

3 movl $15, %ecx ¥ =O 

4 addl $1020, %eax Aptr = &A[0][0] + 1020/4 
5 -p2align 4,,7 

6 .L50: loop: 

7 movl %edx, (Seax) *Aptr = val 

8 addl S-68, %eax Aptr -= 68/4 

9 decl %ecx i-- 

10 jns .L50 if i >= 0 goto loop 


Observe how the assembly code program starts at the end of the array and works backward. It decrements 
the pointer by 68 (= 17 - 4), since array elements A [i-1] [i-1] and A[i] [i] are spaced N+1 elements 
apart. 

Problem 3.21 Solution: [Pg. 155] 


This problem gets you to think about structure layout and the code used to access structure fields. The 
structure declaration is a variant of the example shown in the text. It shows that nested structures are 
allocated by embedding the inner structures within the outer ones. 


A. The layout of the structure is as follows: 


Offset 0 4 8 12 


B. 16 bytes 
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C. As always, we start by annotating the assembly code: 


1 movl 8(%ebp), %eax Get sp 

2 movl 8 (%eax) , sedx Get sp->s.y 

3 movl %edx, 4 (Seax) Copy to sp->s.x 
4 leal 4(%eax) , sedx Get & (sp->s.x) 
5 movl %edx, (Seax) Copy to sp->p 

6 movl %eax,12(%eax) sp->next = p 


From this, we can generate C code as follows: 


void sp_init (struct prob *sp) 


{ 


Sp->s.x = sp->s.y; 
Sp->p = &(Sp->s.x); 
sp->next = sp; 


Problem 3.22 Solution: [Pg. 159] 


This is a very tricky problem. It raises the need for puzzle-solving skills as part of reverse engineering to 
new heights. It shows very clearly that unions are simply a way to associate multiple names (and types) 
with a single storage location. 


A. The layout of the union is as follows. As the figure illustrate, the union can have either its “e1” 
interpretation, having fields e1.p and e1.y, or it can have its “e2” interpretation, having fields 
e2.xande2.next. 


Offset 0 4 


Contents 


B. 8 bytes 


C. As always, we start by annotating the assembly code. In our annotations, we show multiple possible 
interpretations for some of the instructions, and then indicate which interpretation later gets discarded. 
For example, line 2 could be interpreted as either getting element el .y or e2.next. In line 3, we 
see that the value gets used in an indirect memory reference, for which only the second interpretation 
of line 2 is possible. 


1 movl 8(%ebp), eax Get up 

2 movl 4(%eax), Sedx up->el.y (no) or up->e2.next 

3 movl (%edx) , Secx up->e2.next->el.p or up->e2.next->e2.x (no) 
4 movl (%eax) ,%eax up->el.p (no) or up->e2.x 

5 movl (%ecx), %ecx * (up->e2.next-—>el.p) 

6 subl %Seax, Secx *(up->e2.next-—>el.p) - up->e2.x 

7 movl %ecx, 4 (%edx) Store in up->e2.next->el.y 
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From this, we can generate C code as follows: 


void proc (union ele *up) 


{ 


up->e2.next—>el.y = *(up->e2.next-—>el.p) - up->e2.x; 


} 


Problem 3.23 Solution: [Pg. 162] 


Understanding structure layout and alignment is very important for understanding how much storage differ- 
ent data structures require and for understanding the code generated by the compiler for accessing structures. 
This problem lets you work out the details of some example structures. 


A. struct Pl { int i; char c; int j; char d; }; 


G e 5 a | Toval | Alignment 
748 2 


B. struct P2 { int i; char c; char d; int j; }; 


[1 e a 5 | Total [ Alignment | 
04 5 8| 2] 4 


C. struct P3 { short w[3]; char c[3] }; 


ja 
© 
- 


D. struct P4 { short w[3]; char *c[3] }; 


N 
E 
; 


E. struct P3 { struct Pl a[2]; struct P2 *p }; 


Problem 3.24 Solution: [Pg. 170] 


This problem covers a wide range of topics: stack frames, string representations, ASCII code, and byte 
ordering. It demonstrates the dangers of out-of-bounds memory references and the basic ideas behind buffer 
overflow. 


A. Stack at line 7. 
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十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| 08 04 86 43 | Return Address 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| bf ff fc 94 | Saved %ebp <-- %ebp 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| | buf [4-7] 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| | buf [0-3] 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| 00 00 00 01 | Saved %esi 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| 00 00 00 02 | Saved %ebx 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| 08 04 86 00 | Return Address 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

| 31 30 39 38 | Saved %ebp <-- %ebp 
Fesses + 

| 37 36 35 34 | buf[4-7] 

于 二 二 二 二 三 二 三 二 三 二 三 三 三 十 

| 33 32 31 30 | buf[0-3] 

否 二 二 三 三 二 二 大宇 三 二 三 三 三 十 


C. The program is attempting to return to address 0x08048600. The low-order byte was overwritten 
by the terminating null character. 


D. The saved value of register Sebp was changed to 0x31303938, and this will be loaded into the 
register before get line returns. The other saved registers are not affected, since they are saved on 
the stack at lower addresses than buf. 


E. The call to malloc should have had strlen (buf) +1 as its argument, and it should also check 
that the returned value is non-null. 


Problem 3.25 Solution: [Pg. 178] 


This problem gives you a chance to try out the recursive procedure described in 3.14.3. 
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6 neg —(a+b-c) 


7 load c 


Problem 3.26 Solution: [Pg. 179] 


Sst (0) 


10 


11 


12 


13 


load b 


load a 


multp 


divp 


multp a:b/c: — (a +b-c)| sst(0) 


storep x 


This code is similar to that generated by the compiler for selecting between two values based on the outcome 


of a test. 


test %teax, seax 


fstp Sst (0 


<~ 


jmp L9 
L113 

fstp Sst (1) 
L9: 


The resulting top of stack value is x ? a 


Problem 3.27 Solution: [Pg. 182] 


jne L11 


714 
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Floating-point code is tricky, with all the different conventions about popping operands, the order of the 
arguments, etc. This problem gives you a chance to work through some specific cases in complete detail. 


fldl b 


fldl a 


一 
fmul %st(1),%st [| ab | èst% 


TT 
| et 


4 fxch 

| ab | sst() 
5 fdivrl c c/b sst (0) 
ek etto) 


This code computes the expression x = a*b - c/b. 


Problem 3.28 Solution: [Pg. 184] 


This problem requires you to think about the different operand types and sizes in floating-point code. 


double funct2 (int a, double x, float b, float i) 


{ 


} 


return a/ (x+b) 


= (itl); 


Problem 3.29 Solution: [Pg. 186] 


Insert the following code between lines 4 and 5: 


1 cmpb $1,%ah 


Problem 3.30 Solution: [Pg. 191] 


Test if comparison outcome is < 


code/asm/fpfunct2-ans.c 


code/asm/fpfunct2-ans.c 


code/asm/asmprobs-ans.c 
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1 int ok_smul(int x, int y, int *dest) 

2 4 

3 long long prod = (long long) x * y; 
4 int trunc = (int) prod; 

5 

6 *dest = trunc; 

7 return (trunc == prod); 

8 } 


code/asm/asmprobs-ans.c 


B.4 Processor Architecture 


B.S Optimizing Program Performance 


Problem 5.1 Solution: [Pg. 205] 
This problem illustrates some of the subtle effects of memory aliasing. 


As the commented code below shows, the effect will be to set the value at xp to zero. 


1 *xp = *xp + *xp; /* 2x */ 
2 *xp = *xp - *xp; /* 2x-2x = 0 */ 
3 *xp = *xp - *xp; /* 0-0 = 0 */ 


This example illustrates that our intuition about program behavior can often be wrong. We naturally think 
of the case where xp and yp are distinct but overlook the possibility that they might be equal. Bugs often 
arise due to conditions the programmer does not anticipate. 


Problem 5.2 Solution: [Pg. 216] 


This is a simple exercise, but it is important to recognize that the four statements of a for loop—initial, 
test, update, and body—get executed different numbers of times. 


Come [in [max | iner [square 


Problem 5.3 Solution: [Pg. 238] 


As we found in Chapter 3, reverse engineering from assembly code to C code provides useful insights into 
the compilation process. The following code shows the form for general data and combining operation. 


1 void combine5px8 (vec_ptr v, data_t *dest) 
2 { 
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3 int length = vec_length (v); 

4 int limit = length - 3; 

5 data_t *data = get_vec_start(v); 
6 data_t x = IDENT; 

7 int: 1} 

8 

9 /* Combine 8 elements at a time */ 
0 for (i = 0; i < limit; i+=8) { 

1 x = x OPER data[0] 

2 OPER data[1] 

3 OPER data[2] 

4 OPER data[3] 

5 OPER data[4] 

6 OPER data[5] 

7 OPER data[6] 

8 OPER data[7]; 

9 data += 8; 

20 } 

21 

22 /* Finish any remaining elements */ 
23 for (; i < length; i++) { 

24 x = x OPER data[0]; 

25 datatt; 

26 } 

27 *dest = x; 

28 } 


Our handwritten pointer code is able to eliminate loop variable i by computing an ending value for the 
pointer. This is another example of where a human can often see transformations that are overlooked by the 
compiler. 


Problem 5.4 Solution: [Pg. 246] 


Spilled values are generally stored in the local stack frame. They therefore have a negative offset relative to 
%ebp. We can see such a reference at line 12 in the assembly code. 


A. Variable limit has been spilled to the stack. 
B. Itis at offset —8 relative to Sebp. 


C. This value is only required to determine whether the j1 instruction closing the loop should be taken. 
If the branch prediction logic predicts the branch as taken, then the next iteration can proceed before 
the loop test has completed. Therefore, the comparison instruction is not part of the critical path 
determining the loop performance. Furthermore, since this variable is not altered within the loop, 
having it on the stack does not require any additional store operations. 


Problem 5.5 Solution: [Pg. 252] 
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This problem demonstrates the need to be careful when using conditional moves. They require evaluating a 
value for the source operand, even when this value is not used. 


This code always dereferences xp (instruction B2). This will cause a null pointer reference in the case 
where xp is zero. 


Problem 5.6 Solution: [Pg. 260] 


This problem requires you to analyze the potential load-store interactions in a program. 


A. It will set each element a [7] toz +1, for 0 <2 < 998. 
B. It will set each element a [7] to 0, for 1 <2 < 999. 


C. In the second case, the load of one iteration depends on the result of the store from the previous 
iteration. Thus, there is a write/read dependency between successive iterations. 


D. It will give a CPE of 5.00, since there are no dependencies between stores and subsequent loads. 


Problem 5.7 Solution: [Pg. 266] 


Amdahl’s Law is best understood by working through some examples. This one requires you to look at 
Equation 5.1 from an unusual perspective. 


This problem is a simple application of the equation. You are given S = 2 and a = .8, and you must then 
solve for k: 


1 
0 
(1 — 0.8) + 0.8/k 
04+16/k = 1.0 
k = 2.67 


B.6 The Memory Hierarchy 


Problem 6.1 Solution: [Pg. 280] 


The idea here is to minimize the number of address bits by minimizing the aspect ratio max(r, c) / min(r, c). 
In other words, the squarer the array, the fewer the address bits. 


riexi[4[4[2|2| 2 | 
ex4 Jajaj 2 _| 


sxs is 4 _| 
2x4 |515| sf 5 | 


oax 133131515| 5 | 
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Problem 6.2 Solution: [Pg. 287] 


The point of this little drill is to make sure you understand the relationship between cylinders and tracks. 


Once you have that straight, just plug and chug: 
512 bytes x 400 sectors 10,000 tracks 2 surfaces 2 platters 


Disk Se, es 
a sector track x surface i platter x disk 
= &,192,000,000 bytes 
= &.192 GB. 


Problem 6.3 Solution: [Pg. 289] 


This solution to this problem is a straightforward application of the formula for disk access time. 


average rotational latency (in ms) is 


Tavg rotation — 1/2 x Tmax rotation 
1/2 x (60 secs / 15,000 RPM) x 1000 ms/sec 


2ms. 


Q 


The average transfer time is 


Tavgtransfer = (60 secs / 15,000 RPM) x 1/500 sectors/track x 1000 ms/sec 
0.008 ms. 


Q 


Putting it all together, the total estimated access time is 


Taccess = Tavg seek 十 Tavg rotation 十 Tavg transfer 
Sms + 2 ms + 0.008 ms 


10 ms. 


Q 


Problem 6.4 Solution: [Pg. 298] 


The 


To create a stride-1 reference pattern, the loops must be permuted so that the rightmost indices change most 


rapidly. 
1 int sumarray3d(int a[N] [N] [N]) 
2 { 
3 int i, j, k, sum = 0; 
4 
5 for (k = 0; k < N; k++) { 
6 for (i = 0; i < N; i++) { 
7 for (j = 0; j < N; j++) { 
8 sum += a[k][i][j]; 
9 } 
10 } 
Tai } 
12 return sum; 


13 } 


B.6. THE MEMORY HIERARCHY 719 


This is an important idea. Make sure you understand why this particular loop permutation results in a 
stride-1 access pattern. 


Problem 6.5 Solution: [Pg. 298] 


The key to solving this problem is to visualize how the array is laid out in memory and then analyze the 
reference patterns. Function clear1 accesses the array using a stride-1 reference pattern and thus clearly 
has the best spatial locality. Function clear2 scans each of the N structs in order, which is good, but 
within each struct it hops around in a non-stride-1 pattern at the following offsets from the beginning of the 
struct: 0, 12, 4, 16, 8, 20. So clear2 has worse spatial locality than clear1. Function clear3 not only 
hops around within each struct, but it also hops from struct to struct. So clear3 exhibits worse spatial 
locality than clear2 and clearl. 


Problem 6.6 Solution: [Pg. 306] 


The solution is a straightforward application of the definitions of the various cache parameters in Fig- 
ure 6.26. Not very exciting, but you need to understand how the cache organization induces these partitions 
in the address bits before you can really understand how caches work. 


| fm} ol{[a{eEYTstit{s |? 
[1 | 32 [1024| 4 | 1 ff 256] 22] 8 | 2 | 


| 2. | 32 | 1024| 8 | 4 | 32 | 24 | 5 | 3 | 
| 3. | 32 |1024 | 32 |32 ft | 27] 0] 5 | 


Problem 6.7 Solution: [Pg. 312] 


The padding eliminates the conflict misses. Thus 3/4 of the references are hits. 


Problem 6.8 Solution: [Pg. 313] 


Sometimes, understanding why something is a bad idea helps you understand why the alternative is a good 
idea. Here, the bad idea we are looking at is indexing the cache with the high order bits instead of the middle 
bits. 


A. With high-order bit indexing, each contiguous array chunk consists of 2t blocks, where ¢ is the number 
of tag bits. Thus, the first 2° contiguous blocks of the array would map to Set 0, the next 2° blocks 
would map to Set 1, and so on. 


B. For a direct-mapped cache where (S, E, B,m) = (512, 1,32, 32), the cache capacity is 512 32-byte 
blocks, and there are t = 18 tag bits in each cache line. Thus, the first 218 blocks in the array would 
map to Set 0, the next 218 blocks to Set 1. Since our array consists of only 4096/32 = 512 blocks, all 
of the blocks in the array map to Set 0. Thus the cache will hold at most 1 array block at any point in 
time, even though the array is small enough to fit entirely in the cache. Clearly, using high-order bit 
indexing makes poor use of the cache. 


Problem 6.9 Solution: [Pg. 316] 
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The two low order bits are the block offset (CO), followed by three bits of set index (CI), with the remaining 
bits serving as the tag (CT). 


12 11 10 9 8 7 6 5 4 3 2 1 0 


er PCT [CT [CT eT CTI a CIT Cr COCO] 


Problem 6.10 Solution: [Pg. 317] 
Address: 0x0E34 


A. Address format (one bit per box): 
12 11 10 9 8 7 6 5 4 3 2 1 0 


PO; iti {i fofofofififojijot{ol 


Cr CT-CT-CE Cr CT ET CT Cl. CL CI CO CO 


B. Memory reference: 


Cache block offset (CO) 
Cache set index (CD 


Cache tag (CT) 
Cache hit? (Y/N) Y 
Cache byte returned 


Problem 6.11 Solution: [Pg. 318] 
Address: 0x0DD5 


A. Address format (one bit per box): 
12 11 10 9 8 7 6 5 4 3 2 1 0 
eee ee Oe] 1 Oe 0] a 


CT CT CT CT CT CT CT CT CI CI CI CO CO 


B. Memory reference: 


(Parame | Vae 


Cache block offset (CO) 
Cache set index (CT) 


Cache tag (CT) 
Cache hit? (Y/N) 
Cache byte returned -o 
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Problem 6.12 Solution: [Pg. 318] 
Address: 0x1FF4 


A. Address format (one bit per box): 
12 11 10 9 8 7 6 5 4 3 2 1 0 
ee a eee af 0, | a), O51 0 


CT CT CT CT CT CT CT CT CI CI CI CO CO 


B. Memory reference: 


Cache block offset 


Cache hit? (Y/N) N 
Cache byte returned 


Problem 6.13 Solution: [Pg. 318] 


This problem is a sort of inverse version of Problems 6.9-6.12 that requires you to work backwards from 
the contents of the cache to derive the addresses that will hit in a particular set. In this case, Set 3 contains 
one valid line with a tag of 0x32. Since there is only one valid line in the set, four addresses will hit. These 
addresses have the binary form 0 0110 0100 11xx. Thus, the four hex addresses that hit in Set 3 are: 


0x064C, 0x064D, 0x064E, and 0x064F. 


main memory 
0 cache 


line 0 
line 1 


W 


Figure B.1: Figure for Problem 6.14. 


Problem 6.14 Solution: [Pg. 324] 


A. The key to solving this problem is to visualize the picture in Figure B.1. Notice that each cache line 
holds exactly one row of the array, that the cache is exactly large enough to hold one array, and that 
for all ¿, row 7 of src and dst maps to the same cache line. Because the cache is too small to hold 
both arrays, references to one array keep evicting useful lines from the other array. For example, the 
write to dst [0] [0] evicts the line that was loaded when we read src[0] [0]. So when we next 
read src [0] [1] we have a miss. 
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B. When the cache is 32 bytes, it is large enough to hold both arrays. Thus the only misses are the initial 
cold misses. 


Problem 6.15 Solution: [Pg. 325] 


Each 16-byte cache line holds two contiguous algae_position structures. Each loop visits these struc- 
tures in memory order, reading one integer element each time. So the pattern for each loop is: miss, hit, 
miss, hit, and so on. Notice that for this problem, we could have predicted the miss rate without actually 
enumerating the total number of reads and misses. 


A. What is the total number of read accesses? 512 reads. 
B. What is the total number of read accesses that miss in the cache? 256 misses. 


C. What is the miss rate? 256/512 = 50%. 


Problem 6.16 Solution: [Pg. 326] 


The key to this problem is noticing that the cache can only hold 1/2 of the array. So the column-wise scan 
of the second half of the array evicts the lines that were loaded during the scan of the first half. For example, 
reading the first element of grid[16] [0] evicts the line that was loaded when we read elements from 
grid[0] [0]. This line also contained grid[0] [1]). So when we begin scanning the next column, the 
reference to the first element of grid [0] [1] misses. 


. What is the total number of read accesses? 512 reads. 
. What is the total number of read accesses that miss in the cache? 256 misses. 


. What is the miss rate? 256/512 = 50%. 


I NA W > 


. What would the miss rate be if the cache were twice as big? If the cache were twice as big, it could 
hold the entire grid array. The only misses would be the initial cold misses, and the miss rate would 
be 1/4 = 25%. 


Problem 6.17 Solution: [Pg. 326] 


This loop has a nice stride-1 reference pattern, and thus the only misses are the initial cold misses. 
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A. What is the total number of read accesses? 512 reads. 
B. What is the total number of read accesses that miss in the cache? 128 misses. 
C. What is the miss rate? 128/512 = 25%. 


D. What would the miss rate be if the cache were twice as big? Increasing the cache size by any amount 
would not change the miss rate, since cold misses are unavoidable. 


Problem 6.18 Solution: [Pg. 331] 


This problem is just a sanity check to make sure you been following the discussion. Stride corresponds to 
spatial locality. Working set size corresponds to temporal locality. 


Problem 6.19 Solution: [Pg. 331] 


A. The peak throughput from L1 is about 1000 MB/s and the clock frequency is about 500 MHz. Thus 
it takes roughly 500/1000 x 4 = 2 cycles to access a word from L1. 


B. To estimate the L2 access time, we need to identify a region on the memory mountain where each 
reference is missing in L1 and then hitting in L2. In particular, we want a region where (1) the working 
set is too big for L1 but fits in L2 (e.g., 256 bytes) and (2) the stride exceeds the line size (e.g., a stride 
of 16 words). From the memory mountain graph, observe that the effective throughput in the region 
(size=256, stride=16) is about 300 MB/s. Thus, we estimate that it takes about 500/300 x 4 = 7 
cycles to read a word from L2. 


C. To estimate the main memory access time, we look at the point on the mountain with the largest stride 
and working set size, where every reference is missing in both L1 and L2. From the graph, the read 
throughput in the region (size=8M, stride=16) is about 80 MB/s. Thus, we estimate that it takes about 
500/80 x 4 ~ 25 cycles to read a word from main memory. 


B.7 Linking 


Problem 7.1 Solution: [Pg. 357] 


The purpose of this problem is to help you understand the relationship between linker symbols and C 
variables and functions. Notice that the C local variable temp does not have a symbol table entry. 


| 
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Problem 7.2 Solution: [Pg. 360] 


This is a simple drill that checks your understanding of the rules that a Unix linker uses when it resolves 
global symbols that are defined in more than one module. Understanding these rules can help you avoid 
some nasty programming bugs. 


A. The linker chooses the strong symbol defined in Module 1 over the weak symbol defined in Module 


2 (Rule 2): 
(a) REF (main.1) --> DEF (main.1) 
(b) REF (main.2) --> DEF (main.1) 


B. This is an ERROR, because each module defines a strong symbol main (Rule 1). 


C. The linker chooses the strong symbol defined in Module 2 over the weak symbol defined in Module 


1 (Rule 2): 
(a) REF (x.1) --> DEF (x.2) 
(b) REF (x.2) --> DEF (x.2) 


Problem 7.3 Solution: [Pg. 365] 


Placing static libraries in the wrong order on the command line is a common source of linker errors that 
confuses many programmers. However, once you understand how linkers use static libraries to resolve 
references, it’s pretty straightforward. This little drill checks your understanding of this idea: 

A. gcc p.o libx.a 


B. gcc p.o libx.a liby.a 


C. gcc p.o libx.a liby.a libx.a 


Problem 7.4 Solution: [Pg. 369] 


This problem concerns the disassembly listing in Figure 7.10. Our purpose here is to give you some practice 
reading disassembly listings and to check your understanding of PC-relative addressing. 


A. The hex address of the relocated reference in line 5 is 0x80483bb. 


B. The hex value of the relocated reference in line 5 is 0x9. Remember that the disassembly listing 
shows the value of the reference in little-endian byte order. 


C. The key observation here is that no matter where the linker locates the . text section, the distance 
between the reference and the swap function is always the same. Thus, because the reference is a 
PC-relative address, its value will be 0x9, regardless of where the linker locates the . text section. 
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Problem 7.5 Solution: [Pg. 374] 


How C programs actually start up is a mystery to most programmers. These questios check your under- 
standing of this startup process. You can answer them by referrig to the C startup code in Figure 7.14: 


A. Every program needs a main function, because the C startup code, which is common to every C 
program, jumps to a function called main. 


B. If main terminates with a return statement, then control passes back to the startup routine, which 
returns control to the operating system by calling exit. The same behavior occurs if the user omits 
the return statement. If main terminates with a call to exit, then exit eventually returns control 
to the operating system by calling exit. The net effect is the same in all three cases: when main 
has finished, control passes back to the operating system. 


B.8 Exceptional Control Flow 


Problem 8.1 Solution: [Pg. 408] 


In our example program in Figure 8.13, the parent and child execute disjoint sets of instructions. However, 
in this program, the parent and child execute non-disjoint sets of instructions, which is possible because the 
parent and child have identical code segments. This can be a difficult conceptual hurdle. So be sure you 
understand the solution to this problem. 


A. What is the output of the child process? The key idea here is that the child executes both printf 
statements. After the fork returns, it executes the printf in line 8. Then it falls out of the if 
statement and executes the printf in line 9. Here is the output produced by the child: 


printfl: 
printf2: 


B. What is the output of the parent process? The parent executes only the printf in line 9: 


printf2: x=0 


Problem 8.2 Solution: [Pg. 408] 


This program has the same process hierarchy as the program in Figure 8.14(c). There are a total of four 
processes, each of which prints a single “hello” line. Thus, the program prints four “hello” lines. 


Problem 8.3 Solution: [Pg. 408] 


This program has the same process hierarchy as the program in Figure 8.14(c). There are four processes. 
Each process prints one “hello” line in doit and one “hello” line in main after it returns from doit. Thus, 
the program prints a total of eight “hello” lines. 


Problem 8.4 Solution: [Pg. 411] 
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A. Each time we run this program, it generates six output lines. 


B. 


The ordering of the output lines will vary from system to system, depending on the how the kernel 
interleaves the instructions of the parent and the child. In general, any topological sort of the following 
graph is a valid ordering: 


==> VIOUS ees 232) ==> “Byer? parent process 
/ 

‘“‘Hello’’ 
\ 


= NLT ==> **Bye’’ child process 


For example, when we run the program on our system, we get the following output: 


unix> ./waitprobl 
Hello 


In this case, the parent runs first, printing “Hello” in line 8 and “0” in line 10. The call to wait 
blocks because the child has not yet terminated, so the kernel does a context switch and passes control 
to the child, which prints “1” in line 10 and “Bye” in line 16, and then terminates with an exit status 
of 2 in line 17. After the child terminates, the parent resumes, printing the child’s exit status in line 
14 and “Bye” in line 16. 


Problem 8.5 Solution: [Pg. 415] 


Al 
2 
3 
4 
5 


code/ecf/snooze.c 


unsigned int snooze(unsigned int secs) { 
unsigned int rc = sleep (secs); 
printf("Slept for %u of %u secs.\n", secs - rc, secs); 


return rc; 


} 


code/ecf/snooze.c 


Problem 8.6 Solution: [Pg. 417] 


Oa ep WN BP 


code/ecf/myecho.c 
#include "csapp.h" 
int main(int argc, char *argv[], char *envp[]) 


{ 


Lnt 
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6 

7 printf ("Command line arguments:\n"); 

8 for (i=0; argv[i] != NULL; i++) 

9 printf (" argv[%2d]: s\n", i, argv[il]); 
0 

1 printf ("\n"); 

2 printf ("Environment variables:\n"); 

3 for (i=0; envp[i] != NULL; i++) 

4 printf (" envp[%2d]: %s\n", i, envp[i]); 
5 

6 exit (0); 

7 


Problem 8.7 Solution: [Pg. 429] 
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code/ecf/myecho.c 


The sleep function returns prematurely whenever the sleeping process receives a signal that is not ignored. 
But since the default action upon receipt of a SIGINT is to terminate the process (Figure 8.23), we must 
install a SIGINT handler to allow the sleep function to return. The handler simply catches the SIGNAL 


and returns control to the sleep function, which then returns immediately. 


code/ecf/snooze.c 


1 #include "csapp.h" 

2 

3 /* SIGINT handler */ 

4 void handler(int sig) 

5 { 

6 return; /* catch the signal and return */ 

7 } 

8 

9 unsigned int snooze(unsigned int secs) { 

0 unsigned int rc = sleep (secs); 

1 printf("Slept for %u of %u secs.\n", secs - rc, secs); 
2 return rc; 

3} 

4 

5 int main(int argc, char **argv) { 

6 

7 if (argc != 2) { 

8 fprintf(stderr, "usage: %s <secs>\n", argv[0]); 
9 exit (0); 

20 } 

21 

22 if (signal(SIGINT, handler) == SIG_ERR) /* install SIGINT handler */ 
23 unix_error("signal error\n"); 

24 (void) snooze (atoi(argv[1])); 

25 exit (0); 


N 
oO 
= 一 
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code/ecf/snooze.c 


B.9 Measuring Program Performance 


Problem 9.1 Solution: [Pg. 451] 


At first, it seems ridiculous to interrupt the CPU and execute 100,000 cycles just to deal with a single 
keystroke. When you work through the numbers, however, it becomes clear that the overall load on the 
CPU will be fairly small. 


100 WPM corresponds to 10 keystrokes per second. The total number of cycles used per second by the 100 
typists will be 10 x 10? x 10° = 108, i.e., 10% of the total cycles the processor can supply. 


Problem 9.2 Solution: [Pg. 454] 


This problem requires careful study of the trace, and an anticipation of the type of pattern that will arise. 
A. They occur every 9.98-9.99ms: 358.93, 368.91, 378.89, 388.88, 398.86, 408.55, 418.83, 428.81. 
Note that the ones that are not italicized were determined by adding 9.98 to the preceding time. 
B. The italicized times shown above. They caused a new period of inactivity. 


C. The inactive times include the time spent servicing two interrupts in addition to the time spent exe- 
cuting the other process. 


D. Our process is active for around 9.5ms every 20.0 ms, i.e., 47.5% of the time. 


Problem 9.3 Solution: [Pg. 457] 


This problem involves simply labeling the execution sequence according to the process that is executing, 
and determining whether the process is in user or kernel mode. 


PAR BIE RF E B RM BA I A 100u+40s 


Au Au As Bu Bu Bu Bu Bs Bu As Au Au Au Au Bs Bu Bu Bu Bs Au As Au Au Au As B 80u + 30s 


Problem 9.4 Solution: [Pg. 457] 


This is an interesting thought problem. It helps you reason about the range of possible times that can lead 
to a given interval count. 


The following diagram illustrates the two cases: 
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Minimum 


Maximum 


0 10 20 30 40 50 60 70 80 


For the minimum case, the segment started just before the interrupt at time 10 and finished right as the 
interrupt at time 70 occurred, giving a total time of just over 60ms. For the maximum case, the segment 
started right after the interrupt at time 0 and continued until just before the interrupt at time 80, giving a 
total time of just under 80ms. 


Problem 9.5 Solution: [Pg. 457] 


This problem requires thinking about how well the accounting scheme works. The seven timer interrupts 
occur while the process is active. This would give a user time of 70ms and a system time of Oms. In the 
actual trace, the process ran for 63.7ms in user mode and 3.3ms in kernel mode. The counter overestimated 
the true execution time by 70/(63.7 + 3.3) = 1.04X. 


Problem 9.6 Solution: [Pg. 465] 


This problem requires reasoning about the different sources of delay in a program and under what conditions 
these sources will apply. 


From these measurements we get: 


ctm+t+p+d = 399 
c+d = 13341 
ci+p = 317 


From this we conclude that c = 100, d ~ 33, p = 217, and m = 49. 


Problem 9.7 Solution: [Pg. 475] 


This problem requires applying probability theory to a simple model of process scheduling. It demonstrates 
that obtaining accurate measurements becomes very difficult as the times approach the process time limit. 


A. Fort < 50, the probability of running in one segment is 1 — ¢/50. For t > 50, the probability is 0. 


B. For t > 50, we will never get any trial that executes within a single process segment. For t < 50, the 
probability of success is p = (50 — t)/50, and hence we would expect 3/p = 150/(50 — t) trials. For 
t = 20 we expect to require 5 trials, while for t = 40 we expect 15. 


Problem 9.8 Solution: [Pg. 476] 
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This is the UNIX version of the Y2K problem. Some people predict total disaster when the clock wraps 
around. Just as with Y2K, we believe these fears are unwarranted. 


This will occur 22! seconds after January 1, 1970, i.e., on January 19, 2038, at 3:14AM. 


B.10 Virtual Memory 


Problem 10.1 Solution: [Pg. 488] 


This problem gives you some appreciation for the sizes of different address spaces. At one point in time, a 
32-bit address space seemed impossibly large. But now there are database and scientific applications that 
need more, and you can expect this trend to continue. At some point in your lifetime, expect to find yourself 
complaining about the cramped 64-bit address space on your personal computer! 


24 S = 


= 256T 243 = 256T — 1 
2°% = 16, 384P 2°% — 1 = 16,384P — 1 


Problem 10.2 Solution: [Pg. 490] 


Since each virtual page is P = 2? bytes, there are a total of 2” /2P = 2"7? possible pages in the system, 
each of which needs a page table entry (PTE). 


EDESA PIES | 


Problem 10.3 Solution: [Pg. 500] 


You need to understand this kind of problem cold in order to understand address translation. Here is how 
to solve the first subproblem: We are given n = 32 virtual address bits and m = 24 physical address bits. 
A page size of P = 1K B means we need log)(1K) = 10 bits for both the VPO and PPO (Recall that the 
VPO and PPO are identical). The remaining address bits are the VPN and PPN respectively. 


P VPN bits [ # VPO bits | # PPN bins | # PPO bis | 
Te] 2 | 0 | 4 | 0 | 
21 11 13 


2B | 


nf Bn 
rake] 20 | [| DB | 2 
sxe] 9 | 3 | u | e 


Problem 10.4 Solution: [Pg. 507] 
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Doing a few of these manual simulations is a great way to firm up your understanding of address translation. 
You might find it helpful to write out all the bits in the addresses, and then draw boxes around the different 
bit fields, such as VPN, TLBI, etc. In this particular problem, there are no misses of any kind: the TLB has 
a copy of the PTE and the cache has a copy of the requested data words. See Problems 10.11, 10.12, and 
10.13 for some different combinations of hits and misses. 


A. 00 0011 1101 0111 


B. VPN: Oxf 
TUBI: 0x3 
TLBT: 0x3 
TLB hit? Y 
page fault? N 
PPN: Oxd 

Cy 0011 0101 0111 

D; CO; 0x3 
Cis 0x5 
CT: Oxd 
cache hit? Y 
cache byte? Oxld 


Problem 10.5 Solution: [Pg. 522] 


Solving this problem will give you a good feel for the idea of memory mapping. Try it your yourself. We 
haven’t discussed the open, fstat, or write functions, so you'll need to read their man pages to see 
how they work. 


code/vm/mmapcopy.c 
#include "csapp.h" 


1 
2 
3% 

4 * mmapcopy - uses mmap to copy file fd to stdout 
5 #7 

6 void mmapcopy(int fd, int size) 

7 { 

8 char *bufp; /* ptr to memory mapped VM area */ 
9 
0 
ï 
2 
3 
4 


bufp = Mmap (NULL, size, PROT_READ, MAP_PRIVATE, fd, 0); 
Write(1, bufp, size); 
return; 


} 


5 /* mmapcopy driver */ 
6 int main(int argc, char **argv) 
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17 { 

18 struct stat stat; 

19 int fd; 

20 

21 /* check for required command line argument */ 
22 if (argc != 2) { 

23 printf ("usage: %s <filename>\n", argv[0]); 
24 exit (0); 

25 } 

26 

27 /* copy the input argument to stdout */ 

28 fd = Open(argv[1], O_RDONLY, 0); 

29 fstat(fd, &stat); 

30 mmapcopy (fd, stat.st_size); 

31 exit (0); 

32 } 


code/vm/mmapcopy.c 


Problem 10.6 Solution: [Pg. 531] 


This problem touches on some core ideas such as alignment requirements, minimum block sizes, and header 
encodings. The general approach for determining the block size is to round the sum of the requested payload 
and the header size to nearest multiple of the alignment requirement (in this case eight bytes). For example, 
the block size for the malloc (1) request is 4 + 1 = 5 rounded up to eight. The block size for the 
malloc (13) request is 13 + 4 = 17 rounded up to 24. 


| Request || Block size (decimal bytes) | Block header (hex) 


Problem 10.7 Solution: [Pg. 535] 


The minimum block size can have a significant effect on internal fragmentation. Thus, it is good to under- 
stand the minimum block sizes associated with different allocator designs and alignment requirements. The 
tricky part is to realize that the same block can be allocated or free at different points in time. Thus, the 
minimum block size is the maximum of the minimum allocated block size and the minimum free block size. 
For example, in the last subproblem, the minimum allocated block size is a four-byte header and a one-byte 
payload rounded up to eight bytes. The minimum free block size is a four-byte header and four-byte footer, 
which is already a multiple of eight and doesn’t need to be rounded. So the minimum block size for this 
allocator is eight bytes. 


Allocated block Free block | Minimum block size (bytes) 


Single-word | Header and footer | Header and footer | = 12 | 
Single-word | Header, but no footer | Header and footer | 


Double-word | Header and footer | Header and footer || = 16 | 
Double-word | Header, but no footer | Header and footer | 8 ~~ | 
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Problem 10.8 Solution: [Pg. 543] 


There is nothing very tricky here. But the solution requires you to understand how the rest of our simple 
implicit-list allocator works and how to manipulate and traverse blocks. 


code/vm/malloc.c 


1 static void *find_fit(size_t asize) 

2 { 

3 void *bp; 

4 

5 /* first fit search */ 

6 for (bp = heap_listp; GET_SIZE(HDRP(bp)) > 0; bp = NEXT_BLKP(bp)) { 
7 if (!GET_ALLOC(HDRP(bp)) && (asize <= GET_SIZE(HDRP(bp)))) { 
8 return bp; 

9 } 

10 } 

11 return NULL; /* no fit */ 

12 } 


code/vm/malloc.c 


Problem 10.9 Solution: [Pg. 543] 


The is another warm-up exercise to help you become familiar with allocators. Notice that for this allocator 
the minimum block size is 16 bytes. If the remainder of the block after splitting would be greater than or 
equal to the minimum block size, then we go ahead and split the block (lines 6 to 10). The only tricky part 
here is to realize that you need to place the new allocated block (lines 6 and 7) before moving to the next 
block (line 8). 


code/vm/malloc.c 


1 static void place(void *bp, size_t asize) 

2 { 

3 size_t csize = GET_SIZE(HDRP (bp) ); 

4 

5 if ((csize - asize) >= (DSIZE + OVERHEAD)) { 
6 PUT (HDRP (bp), PACK(asize, 1)); 

J PUT (FTRP (bp), PACK(asize, 1)); 

8 bp = NEXT_BLKP (bp); 

9 PUT (HDRP (bp), PACK(csize-asize, 0)); 
0 PUT(FTRP (bp), PACK(csize-asize, 0)); 
1 } 

2 else { 

3 PUT (HDRP (bp), PACK(csize, 1)); 

4 PUT(FTRP (bp), PACK(csize, 1)); 

5 

6 


code/vm/malloc.c 
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Problem 10.10 Solution: [Pg. 545] 


Here is one pattern that will cause external fragmentation: The application makes numerous allocation and 
free requests to the first size class, followed by numerous allocation and free requests to the second size 
class, followed by numerous allocation and free requests to the third size class, and so on. For each size 
class, the allocator creates a lot of memory that is never reclaimed because the allocator doesn’t coalesce, 
and because the application never requests blocks from that size class again. 


B.11 Concurrent Programming with Threads 


Problem 11.1 Solution: [Pg. 569] 
This is your first exposure to the many synchronization problems that can arise in threaded programs. 
A. The problem is that the main thread calls exit without waiting for the peer thread to terminate. The 


exit call terminates the entire process, including any threads that happen to be running. So the peer 
thread is being killed before it has a chance to print its output string. 


B. We can fix the bug by replacing the exit function with either pthread_exit, which waits for 
outstanding threads to terminate before it terminates the process, or pthread_join which explicitly 
reaps the peer thread. 


Problem 11.2 Solution: [Pg. 572] 


The main idea here is that stack variables are private while global and static variables are shared. Static 
variables such as cnt are a little tricky because the sharing is limited to the functions within their scope, in 
this case the thread routine. 


A. Here is the table: 


Variable 
instance 


Referenced by | Referenced by | Referenced by 
main thread? | peer thread O ? | peer thread 1? 


myid.p 
myid.p 


[ptr || 
[cet 
im | 
[msgs.m | 
nyia. po | 
| myid.p1 | 


Notes: 


ptr: A global variable that is written by the main thread and read by the peer threads. 


cnt: A static variable with only one instance in memory that is read and written by the two peer 
threads. 


B.11. CONCURRENT PROGRAMMING WITH THREADS 735 


i.m: A local automatic variable stored on the stack of the main thread. Even though its value is 
passed to the peer threads, the peer threads never reference it on the stack, and thus it is not 
shared. 


msgs.m: A local automatic variable stored on the main thread’s stack and referenced indirectly 
through pt r by both peer threads. 


myid.0andmyid.1: Instances of a local automatic variable residing on the stacks of peer threads 
0 and 1 respectively. 


B. Variables ptr, cnt, and msgs are referenced by more than one thread, and thus are shared. 


Problem 11.3 Solution: [Pg. 576] 


A. Sequentially consistent. 
B. Not sequentially consistent because U1 executes before L4. 
C. Sequentially consistent. 


D. Not sequentially consistent because S% executes before U2. 


Problem 11.4 Solution: [Pg. 576] 


The important idea here is that sequential consistency is not enough to guarantee correctness. Programs 
must explicitly synchronize accesses to shared variables. 


S ee a e T 


+ 
中 
十 
EE 


paš 
= 


Variable cnt has a final incorrect value of 1. 


Problem 11.5 Solution: [Pg. 599] 


If we free the block immediately after the call to pthread_create in line 15, then we will introduce a 
new race, this time between the call to free in the main thread, and the assignment statement in line 25 of 
the thread routine. 


Problem 11.6 Solution: [Pg. 599] 
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A. Another approach is to pass the integer i directly, rather than passing a pointer to i: 


for (i = 0; i < N; itt) 
Pthread_create(&tid[i], NULL, thread, (void *)i); 


In the thread routine, we cast the argument back to an int and assign it to myid: 
int myid = (int) vargp; 
B. The advantage is that it reduces overhead by eliminating the calls to malloc and free. A significant 


disadvantage is that it assumes that pointers are at least as large as ints. While this assumption is 
true for all modern systems, it might not be true for legacy or future systems. 


Problem 11.7 Solution: [Pg. 600] 


A. This program always deadlocks because the initial state is within the deadlock region.. 


B. To eliminate the deadlock, initaliaize the binary semaphore t to 1 instead of 0. 


B.12 Network Programming 


Problem 12.1 Solution: [Pg. 613] 


Dotted decimal address 


0.0.0.0 


T. 
OXELEEFEFEF | 255.255.255.255 
Ox7£000001 | 127.0.0.1 


Oxcdbca079 | 205.188.160.121 
0x400c950d | 64.12.149.13 
Oxcdbc9217 | 205.188.146.23 


Problem 12.2 Solution: [Pg. 614] 
code¢et/hex2dd.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 { 
5 struct in_addr inaddr; /* addr in network byte order */ 
6 unsigned int addr; /* addr in host byte order */ 
F 
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8 if (argc != 2) { 
9 fprintf(stderr, "usage: %s <hex number>\n", argv[0]); 
0 exit (0); 
1 } 
2 sscanf(argv[1], "%x", &addr); 
3 inaddr.s_addr = htonl (addr) ; 
4 printf("%s\n", inet_ntoa(inaddr) ); 
5 
6 exit (0); 
7 } 
code/net/hex2dd.c 
Problem 12.3 Solution: [Pg. 614] 
code/net/dd2hex.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 { 
5 struct in_addr inaddr; /* addr in network byte order */ 
6 unsigned int addr; /* addr in host byte order */ 
7 
8 if (argc != 2) { 
9 fprintf(stderr, "usage: %s <dotted-decimal>\n", argv[0]); 
0 exit (0); 
1 } 
2 
3 if (inet_aton(argv[1], &inaddr) == 0) 
4 app_error("inet_aton error"); 
5 addr = ntohl(inaddr.s_addr); 
6 printf ("0x%x\n", addr); 
7 
8 exit (0); 
9 } 
code/net/dd2hex.c 


Problem 12.4 Solution: [Pg. 618] 


Each time we request the host entry for aol.com, the list of corresponding Internet addresses is returned 
in a different, round-robin order. 


unix> ./hostinfo aol.com 
official hostname: aol.com 
address: 205.188.146.23 
address: 205.188.160.121 
address: 64.12.149.13 


unix>> ./hostinfo aol.com 
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official hostname: aol.com 
address: 64.12.149.13 
address: 205.188.146.23 
address: 205.188.160.121 


unix>> ./hostinfo aol.com 
official hostname: aol.com 
address: 205.188.146.23 
address: 205.188.160.121 
address: 64.12.149.13 


The different ordering of the addresses in different DNS queries is known as DNS round-robin. It can be 
used to load-balance requests to a heavily used domain name. 


Problem 12.5 Solution: [Pg. 640] 


When the parent forks the child, it gets a copy of the connected descriptor and the reference count for the 
associated file table in incremented from 1 to 2. When the parent closes its copy of the descriptor, the 
reference count is decremented from 2 to 1. Since the kernel will not close a file until the reference counter 
in its file table goes to zero, the child’s end of the connection stays open. 


Problem 12.6 Solution: [Pg. 640] 

When a process terminates for any reason, the kernel closes all open descriptors. Thus, the child’s copy of 
the connected file descriptor will be closed automatically when the child exits. 

Problem 12.7 Solution: [Pg. 652] 


The reason that standard I/O works in CGI programs is that we never have to explicitly close the standard 
input and output streams. When the child exits, the kernel will close streams and their associated file 
descriptors automatically. 


Problem 12.8 Solution: [Pg. 662] 
A. The doit function is not reentrant, because it and its subfunctions use the non-reentrant readline 
function. 


B. To make Tiny reentrant, we must replace all calls to readline with its reentrant counterpart read- 
line_r, being carefull to call readline_rinit in doit before the first call to readline_r. 
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ELF (Executable and Linkable Format), 353 
BSD and, 353 
header table, 353 
Linux and, 353 
relocation entry (fig.), 366 
relocation type 
R_386_32 (absolute addressing), 367 
R_386_PC32 (PC-relative addressing), 366 
segment header table, 37/ 
Solaris and, 353 
symbol table entry (fig.), 356 
System V Unix and, 353 
ELF header, 353 
encapsulation, 6/0 
end-of-file (EOF), 620, 621 
entry point, 37/, 372 
EOF, see end-of-file 
ephemeral port, 6/8 
epilogue block, 537 
EPROM (Erasable Programmable ROM), 28/ 
error-correcting codes, 36 
error-handling wrapper, 403 
error-reporting function, 402 
ethernet, 606 
ethernet segment, 606 
eval [CS:APP] shell helper routine, 420 
event, 392 
evicting blocks, 302 
exception, 392 
asynchronous, 394 
synchronous, 395 
table, 393 
exception handler, 392 
exception number, 393 
exception table base register, 393 
exception tble, 392 
exceptional control flow, 39/ 
executable and linkable format, see ELF 
executable object file, 351, 352 
fully linked, 377 
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execve [Unix] load program, 372, 415 

exit [C Stdlib] terminate process, 404 

exit status, 404 

expansion slot, 290 

explicit thread termination, 567 

explicitly reentrant function, 593 

exploit code, 170 

exponent, 69 

extend_heap [CS:APP] allocator: extend heap, 
540 

extended precision, 86 

external fragmentation, 528 


fabs [IA32] FP absolute value, 181 
fadd [IA32] FP add, 181 
fault, 394 
faulting instruction, 395 
fchs [IA32] FP negate, 181 
fcom [IA32] FP compare, 185 
fcoml [IA32] FP compare double precision, 185 
fcomp [IA32] FP compare with pop, 185 
fcompl [IA32] FP compare double precision with 
pop, 185 
fcompp [IA32] FP compare with two pops, 185 
fcomps [IA32] FP compare single precision with 
pop, 185 
fcoms [IA32] FP compare single precision, 185 
fcos [IA32] FP cosine, 181 
fcyc [CS:APP] compute function execution time, 
480 
fdiv [IA32] FP divide, 181 
fdivr [IA32] FP reverse divide, 181 
fild1 [IA32] FP load and convert integer, 179 
file, 15, 619 
anonymous, 5/6 
binary, 2 
executable object, 3 
header, 362 
include, 362 
regular, 5/6 
source, 2 
text, 2 
file descriptor, 6/9 
file position, 620 
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file table, 401 
file table entry, 626 
firmware, 281 
first fit, 531 
first-level domain name, 6/4 
fist [IA32] FP convert and store integer, 180 
fistpl [IA32] FP convert and store integer with 
pop, 180 
fisubl [IA32] FP load and convert integer and 
subtract, 181 

flash memory, 287 
flat addressing, 92 
£1d1 [IA32] FP load one, 181 
f1d1 [IA32] FP load double precision, 179 
£1d1 [IA32] FP load extended precision, 179 
f1d1 [IA32] FP load from register, 179 
flds [IA32] FP load single precision, 179 
fldz [IA32] FP load zero, 181 
float [C] single-precision floating point, 77 
floating point, 66-79 

denormalized value, 70 

double precision, 69 

extended precision, 56 

IEEE, 69-70 

normalized value, 70 

number representation, 66 

rounding operation, 75 

single precision, 69 

status word, 184 
flow of control, 391 
fmul [IA32] FP multiply, 181 
fnstw [IA32] copy FP status word, 785 
footer, 533 
for [C] general loop statement, 126 
forbidden region, 580 
foreground process, 419 
fork [Unix] Create child process, 404 
fork.c[CS:APP] fork example, 405 
formatted capacity, 289 
formatted printing, 30 
FPM DRAM (Fast Page Mode DRAM), 280 
fractional binary number, 67 
fractional binary representation, 69 
fragmentation, 528 
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external, 528 
false, 532 
internal, 528 
frame, 608 
stack, 732 
free [C Stdlib] deallocate heap storage, 524 
free block, 522 
free list 
implicit, 530 
free software, 4 
fscale [IA32] FP scale by power of two, 200 
fsin [IA32] FP sine, 181 
fsqrt [IA32] FP square root, 181 
fst [IA32] FP store to register, 180 
fst1 [[A32] FP store double precision, 180 
fstp [IA32] FP store to register with pop, 180 
fstpl [[A32] FP store double precision with pop, 
180 
fstps [IA32] FP store single precision with pop, 
180 
fstpt [IA32] FP store extended precision with 
pop, 180 
fsts [IA32] FP store single precision, 180 
fstt [IA32] FP store extended precision, 180 
fsub [IA32] FP subtract, 181 
fsubl [IA32] FP load double precision and sub- 
tract, 181 
fsubp [IA32] FP subtract with pop, 181 
fsubr [IA32] FP reverse subtract, 181 
fsubs [IA32] FP load single precision and sub- 
tract, 181 
fsubt [IA32] FP load extended precision and 
subtract, 181 
fucom [IA32] FP unordered compare, 185 
fucoml [IA32] FP unordered compare double 
precision, 185 
fucomp [IA32] FP unordered compare with pop, 
185 
fucompl [IA32] FP unordered compare double 
precision with pop, 185 
fucompp [IA32] FP unordered compare with two 
pops, 185 
fucomps [IA32] FP unordered compare single 
precision with pop, 185 
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fucoms [IA32] FP unordered compare single pre- 
cision, 185 
full-duplex connection, 6/8 
fully associative cache, 3/5 
line matching in, 316 
set selection in, 316 
word selection in, 316 
function 
pointer to, 164 
function, explicitly reentrant, 593 
function, implicitly reentrant, 593 
function, reentrant, 593 
function, thread-safe, 592 
function, thread-unsafe, 592 
fxch [[A32] FP exchange registers, /80 


gaps (between disk sectors), 285 
garbage, 547 
garbage collection, 151, 523, 547 
garbage collector, 523, 547 
conservative, 548 
GDB GNU debugger, 95, /65 
getenv [C Stdlib] read environment variable, 4/6 
gethostbyaddr [Unix] get DNS host entry, 6/5 
gethostbyname [Unix] get DNS host entry, 6/5 
getpgrp [Unix] get process group ID, 423 
getpid [Unix] get process ID, 404 
getppid [Unix] get parent process ID, 404 
gettimeofday [Unix] Time-of-day library func- 
tion, 476 
GHz (gigahertz), 207 
gigahertz, 207 
global offset table, see GOT 
global symbol, 354 
global variable, 570 
GNU project, 4 


goodcnt .c[CS:APP] properly synchronized Pthreads 


program, 582 
GOT (Global Offset Table), 379 
goto [C] control transfer statement, 117 
goto code, 117 
GPROF Unix profiler, 26/ 
graphics adapter, 290 


. h include (header) file, 362 
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handler, 392 
hardware cache, see cache 
head crash, 287 
header, 529, 608 
header file, 362 
heap, /4, 151, 372, 522 
allocated block, 522 
allocation with mallocorcalloc(C), 151 
block, 522 
free block, 522 
heap storage 
allocation with new (C++ and Java), 151 
freeing by garbage collection (Java), 151 
freeing with f ree function (C and C++), 151 
hello [CS:APP] C Hello program, / 
hello.c[CS:APP] Pthreads Hello program, 566 
hexadecimal, 23 
hit rate, 320 
hit time, 320 
host, 606 
host entry structure, 6/5 
hostent [Unix] DNS host entry structure, 6/5 
HOSTINFO [CS:APP] get DNS host entry, 6/7 
HOSTNAME host information program, 6/3 
HTML (Hypertext Markup Language), 647 
htonl [Unix] convert host-to-network long, 6/2 
htons [Unix] convert host-to-network short, 6/2 
HTTP (Hypertext Transfer Protocol), 647 
status code, 650 
status message, 650 
GET method, 649 
method, 649 
POST method, 649 
request, 649 
request header, 649 
request line, 649 
response, 650 
response body, 650 
response header, 650 
response line, 650 
hub, 606 
hyperlinks, 647 


. i preprocessed C source file, 350 
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i-cache (instruction cache), 319 
inode, 626 
TO (Input/Output), 6 
TO bridge, 282 
T/O bus, 290 
T/O device, 6 
I/O port, 292 
IA32 (Intel Architecture 32-bit), 9/ 
idiv1 [IA32] signed divide, 109, 1/0 
IEEE, 12 
floating point, 69—70 
IEEE (Institute for Electrical and Electronic En- 
gineers), 66 
IEEE floating point standard, 66 
if [C] conditional statement, 117 
implicit thread termination, 567 
implicitly reentrant function, 593 
implied leading 1, 70 
imull [IA32] multiply double word, 105 
imu11 [IA32] signed multiply, 109, /09 
in_addr [Unix] IP address structure, 6/2 
incl [IA32] increment double word, 105 
include file, 362 
indirect jump, 114 
inet _aton [Unix] convert application-to-network, 
613 
inet _ntoa [Unix] convert network-to-application, 
613 
Institute for Electrical and Electronic Engineers, 
see IEEE 
instruction 
TO read, 7 
T/O write, 7 
jump, 8 
load, 7 
machine-language, 3 
store, 7 
update, 7 
instruction cache, 222, 319 
integral data type, 4/ 
internal fragmentation, 528 
Internet, 609 
internet, 608 
internet address, 609 
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Internet domain name, 6/2 
Internet protocol, see IP 
interrupt, 394, 451 
interrupt handler, 394 
interval time, 451 

IP (Internet Protocol), 677 
IP address, 6/2 

IP address structure, 6/2 
issue time, instruction, 224 
iteration splitting, 243 
iterative server, 638 


ja [IA32] jump if unsigned greater, 114 

jae [IA32] jump if unsigned greater or equal, 
114 

jb [IA32] jump if unsigned less, 114 

jbe [IA32] jump if unsigned less or equal, 114 
jg [IA32] jump if greater, 114 

jge [IA32] jump if greater or equal, 114 

j1 [IA32] jump if less, 114 

jle [IA32] jump if less or equal, 114 

jmp [IA32] Unconditional jump, //4 

jmp [IA32] jump unconditionally, 114 

jna [IA32] jump if not unsigned greater, 114 
jnae [IA32] jump if unsigned greater or equal, 
114 

jnb [IA32] jump if not unsigned less, 114 
jnbe [IA32] jump if not unsigned less or equal, 
114 

jne [IA32] jump if not equal, 114 

jng [IA32] jump if not greater, 114 

jnge [IA32] jump if not greater or equal, 114 
jn1 [IA32] jump if not less, 114 

jnle [IA32] jump if not less or equal, 114 
jns [IA32] jump if nonnegative, 114 

jnz [IA32] jump if not zero, 114 

job, 424 

joinable thread, 568 

js [IA32] jump if negative, 114 

jump, 114 

direct, 114 

indirect, 114 

nonlocal, 436 

table, 128 
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target, 114 
jump table, 393 
jz [[A32] jump if zero, 114 


K-best program measurement scheme, 467 
K&R (C book), 2 

Kahan, William, 66 

kernel, 715, 393 

kernel context, 563 

kernel mode, 394, 396, 400, 451 
Kernighan, Brian, 12 

kill [Unix] send signal, 425 
kill.c[CS:APP] kill example, 426 


L1 cache, 10, 304 
L2 cache, 10, 304 
L3 cache, 304 
last-in first-out, see LIFO 
latency 
timer, 478 
latency, instruction, 224 
lazy binding, 380 
LD Unix static linker, 35/ 
LD-LINUX.SO Linux dynamic linker, 375 
leal [IA32] load effective address, 105, 106 
least squares fit, 207 
leave [IA32] prepare stack for return, 134 
library 
shared, 374 
static, 361 
LIFO (Last-In First-Out), 543 
<limits.h> numeric limit declarations, 43 
. Line section, 354 
linear address space, 487 
linker, 3, 4, 349 
dynamic, 374 
static, 351 
linking, 349-382 
dynamic, 374 
static, 351 
Linux, 16 
history of, 16 
listen [Unix] convert active socket to listening 
socket, 633 
listening socket, 633 
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little endian, 27 
load time, 349 
loader, 351, 372 
loading, 372 
local automatic variable, 572 
local static variable, 572 
local symbol, 354 
locality, 295, 493 
locality of reference, see locality 
locality, principle of, 295 
locality, spatial, 295 
locality, temporal, 295 
lock-and-copy, 593 
logical blocks, 289 
logical control flow, 398, 398 
logical flow, 398 
logical shift, 40 
Long ymp [C Stdlib] nonlocal jump, 438 
loop 
do-while statement, 119 
for statement, 126 
while statement, 122 
loop unrolling, 207, 233 
loopback address, 6/6 
LRU replacement policy, 302 
lvalue (C) assignable value, 162 


main memory, 279 

main thread, 564 

maketimeout [CS:APP] builds a timeout struct, 
590 


maket imeoutu[CS:APP] thread-safe non-reentrant 


function, 595 

maket imeoutu[CS:APP] thread-safe reentrant 
function, 595 

maketimeoutu [CS:APP] thread-unsafe func- 
tion, 594 

malloc [C Stdlib] allocate heap storage, 523 

malloc [C Stdlib] heap storage allocation func- 
tion, 151 

mark phase, 548 

Mark&Sweep, 547 

pseudo-code for, 549 
Mcllroy, Doug, 12 
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Megahertz, 207 
mem_init [CS:APP] heap model, 536 
mem_sbrk [CS:APP] sbrk emulator, 536 
memory 
aliasing, 205 
main, 7 
virtual, 74, 23, 485 
memory bus, 282 
memory controller, 278 
memory hierarchy, 77, 298—304 
example of (fig.), 300 
levels in, 300 
memory management unit, see MMU 
memory mapping, 496, 5/6 
memory module, 279 
memory mountain, 328 
Pentium III Xeon (fig.), 329 
memory system, 275 
memory utilization, 527 
memory-mapped I/O, 292 
memory-mapped object, 516 
mhz [CS:APP] clock rate function, 462 
MHz (megahertz), 207 
MIME (Multipurpose Internet Mail Extensions), 
647 
minimum block size, 530 
miss penalty, 320 
miss rate, 320 
mm-—i jk [CS:APP] matrix multiply ijk, 333 
mm-ik 4 [CS:APP] matrix multiply tkj, 333 
mm-Jik [CS:APP] matrix multiply jik, 333 
mm-Jki [CS:APP] matrix multiply jki, 333 
mm-ki]j [CS:APP] matrix multiply kij, 333 
mm-—k ji [CS:APP] matrix multiply kji, 333 
mm_coalesce[CS:APP] allocator: boundary tag 
coelescing, 54/ 
mm_free [CS:APP] allocator: free heap block, 
541 
mm_init [CS:APP] allocator: initialize heap, 539 
mmmalloc [CS:APP] allocator: allocate heap 
block, 542 
mmap [Unix] map disk object into memory, 520 
MMU (Memory Management Unit), 487 
mode 
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kernel, 394, 396, 400, 451 
supervisor, 400 
user, 394, 395, 400, 451 
mode bit, 400 
monotonicity, 77 
mount ain[CS:APP] memory mountain program, 
328 
movb [IA32] move byte, 101, 702 
mov 1 [IA32] move double word, 101, 702 
movsb1 [IA32] move and sign-extend byte to dou- 
ble word, 101, /02 
movw [IA32] move word, 101, /02 
movzb1 [IA32] move and zero-extend byte to dou- 
ble word, 101, /02 
mull [IA32] unsigned multiply, 109, 7/09 
Multics, 12 
multiple zone recording, 286 
multiplication 
two’s complement, 62 
unsigned, 62 
multitasking, 399 
munmap [Unix] unmap disk object, 52/ 
mutex, 581, 583 
aquiring, 586 
mutual exclusion, 58/ 


NaN (not-a-number), 70 

nanoseconds, 207 

negation 

two’s complement, 60 

negative overflow, 57 

negl [IA32] negate double word, 105 

network adapter, 290 

network byte order, 6/2 

networks, 606—619 

newline character (\n), 2 

next fit, 531 

NFS (Network File System), 300 

no-write-allocate, 3/9 

nonlocal jump, 436 

nonvolatile memory, 28/ 

nop [IA32] no operation, 96 

norace.c[CS:APP] Pthreads program without 
a race, 598 


INDEX 


normalized 
floating-point value, 70 
not-a-number NaN, 70 
not1 [IA32] complement double word, 105 
ns (nanoseconds), 207 
ntoh1 [Unix] convert network-to-host long, 6/2 
ntohs [Unix] convert network-to-host short, 6/2 


. O relocatable object file, 350 
OBJDUMP GNU object file reader, 367 
object 
in C++ and Java, 153 
memory-mapped, 516 
private, 5/7 
shared, 374, 517 
object file, 352 
executable, 35/7, 352 
relocatable, 350, 352 
shared, 352 
object module, 352 
on-chip cache, 304 
open (file), 6/9 
open source, 16 
open_clientfd[CS:APP] establish connection 
with server, 632 
open_listenfd[CS:APP] establish a listening 
socket, 634 
operating system, // 
kernel, 15 
optimization blockers, 205 
origin server, 650 
orl [IA32] or double word, 105 
OS, see operating system 
Ossanna, Joe, 12 
out-of-order execution, 22/ 
overflow 
arithmetic, 55 
buffer, 167 
negative, 57 
positive, 58 


P semaphore operation, 579 
P6 microarchitecture, 91 
PA, see physical address 
packet, 609 
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packet header, 609 
padding, 529 
page 
demand zero, 516 
physical, 488 
virtual, 488 
page directory, 509 
page directory base register, see PDBR 
page directory entry, see PDE 
page fault, 497 
page frame, 488 
page table, 401, 489 
page table base register, see PTBR 
page table entry (PTE), 489 
paged in, 492 
paged out, 492 
paging, 492 
demand, 492 
parent process, 404 
Parse_uri [CS:APP] TINY helper function, 659 
parseline [CS:APP] shell helper routine, 427 
Pascal 
reference parameters, 165 
pause [Unix] suspend until signal arrives, 4/4 
payload, 528, 608, 609 
aggregate, 528 
PC, see program counter 
PC (program counter) relative, 715 
PCI (Peripheral Component Interconnect), 290 
PDBR (Page Directory Base Register), 509 
PDE (Page Directory Entry), 509 
peak utilization, 527, 528 
peer thread, 564 
pending signal, 423 
persistent connection, 650 
physical address, 456 
physical address space, 487 
physical addressing, 486 
physical page (PP), 488 
physical page number, see PPN 
physical page offset, see PPO 
PIC (Position-Independent Code), 379 
PID (Process ID), 404 
pipelined functional units, 224 
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placement, 529 

policy, 53/ 
placement policy, 302 
platter, 285 
PLT (Procedure Linkage Table), 380 
point-to-point connection, 6/8 
pointer, 23 

void *,30 

creation, 104 

declaration, 26 

dereferencing, 103 

example, 103 

relation to array, 30 

to function, 164 
polluting cache, 337 
popl [IA32] pop double word, 101, 702 
port, 608, 618 
port, I/O, 292 
position-independent code, see PIC 
positive overflow, 58 
Posix 

history of, 12 

standards, 12 
Posix threads, 563 
PP, see physical page 
PPN (Physical Page Number), 498 
PPO (Physical Page Offset), 498 
preemption, 398 
prefetching 

in caches, 337 
preprocessor, 3, 3 
principle of locality, 295 
printf [C Stdlib] formatted printing function, 

30 

printing 

formatted, 30 
private address space, 399 
private area, 5/7 
private object, 5/7 
privileged instruction, 400 
procedure linkage table, see PLT 
process, 13, 398 

background, 419 

child, 404 
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concurrent, 13, /3 
context of, 398 
foreground, 4/9 
group, 423 
parent, 404 
preemption of, 398 
reaping of, 409 
running, 404 
scheduling of, 40/ 
stopped, 404 
suspended, 404 
terminated, 404 
zombie, 409 
process context, 563 
process group, 423 
process hierarchy, 406 
process ID, see PID 
process table, 401 
processor, see CPU 
package, 508 
superscalar, 227 
processor event, 392 
processor state, 392 
processor-memory gap, 9, 294 


prodcons.c[CS:APP] Pthreads producer-consumer 


program, 554 
producer [CS:APP] producer thread routine, 585 
profiling, 26/ 
program 
executable object, 3 
source, 2 
program context, 563 
program counter, 7 
Seip, 93 
program order, 232 
progress graph, 576 
deadlock region of, 600 
forbidden region in, 580 
initial state of, 576 
safe trajectory through, 577 
trajectory through, 577 
transition in, 576 
unsafe region of, 577 
unsafe trajectory through, 577 
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prologue block, 537 

PROM (Programmable ROM), 28/ 

protocol, 609 

protocol software, 609 

proxy cache, 650 

proxy chain, 650 

PTBR (Page Table Base Register), 498 

PTE, see page table entry 

PTE (Page Table Entry), 509 

pthread_cancel [Unix] terminate another thread, 
568 

pthread_cond_broadcast [Unix] broadcast 
a condition, 588 

pthread_cond_init [Unix] initialize condition 
variable, 586 

pthread_cond_signal [Unix] signal a condi- 
tion, 586 

pthread_cond_timedwait [Unix] wait for con- 
dition with timeout, 588 

pthread_cond_wait [Unix] wait for condition, 
586 

pthread_create [Unix] create a thread, 567 

pthread_detach [Unix] detach thread, 569 

pthread_exit [Unix] terminate current thread, 
568 

pthread_join [Unix] reap a thread, 568 

pthread_mutex_init [Unix] initialize mutex, 
583 

pthread_mutex_lock [Unix] lock mutex, 583 

pthread_mutex_unlock [Unix] unlock mu- 
tex, 583 

pthread_self [Unix] get thread ID, 567 

Pthreads, 563 

push 1 [IA32] push double word, 101, 702 


race, 596 

race.c[CS:APP] Pthreads program with a race, 
597 

RAM (Random-Access Memory), 276-282 

rand [CS:APP] pseudo-random number genera- 
tor, 592 

random replacement policy, 302 

random-access memory, see RAM 

RAS (Row Access Strobe), 278 
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rdt sc [IA32] read time stamp counter, 460 
reachability graph, 547 
reachable, 547 
read [C Stdlib] read file, 620 
read bandwidth, 327 
read operation (file), 620 
read throughput, 327 
read transaction, 287 
example of, 282 
read-only memory, see ROM 
read/evaluate step, 4/8 
read/write head, 287 
read_requesthdrs [CS:APP] TINY helper func- 
tion, 658 
READELF GNU object file reader, 356 
reading a disk sector, 290 
readline [CS:APP] read text line, 623, 624 
readline_r [CS:APP] reentrant version of read- 
line, 644 
readline_r [CS:APP] reentrant readline func- 
tion, 645 
readline_rinit [CS:APP] readline_r init 
function, 644 
readn [CS:APP] read without short count, 621, 
622 
reaping, 409 
reaping child processes, 409 
receiving signals, 428 
recording density, 286 
recording zones, 286 
reentrant function, 593 
reference 
function parameter, 165 
reference bit, 5/2 
reference count, 626 
register, 7 
file, 7 
renaming, 223 
spilling, 753, 245 
regular file, 5/6, 625 
.rel.data section, 354 
.rel.text section, 354 
releasing (a mutex), 586 
reliable connection, 6/8 
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relocatable object file, 350, 352 
relocation, 352, 365-369 
algorithm (fig.), 367 
entry, 366 
replacement policy, 302 
replacing blocks, 302 
request, 605 
resident set, 493 
resolution 
timer, 478 
resource, 605 
response, 606 
restart.c [CS:APP] nonlocal jump example, 
440 
ret [IA32] procedure return, 134 
return address, 134 
revolutions per minute, see RPM 
RFC (Request for Comments), 662 
ring, 35 
Ritchie, Dennis, 2, 12 
Rline [Unix] readline_r struct, 644 
. rodata section, 353 
ROM (Read-Only Memory), 28/ 
root node, 547 
rotational latency, 288 
rotational rate, 285 
rounding, 75 
round-down, 75 
round-to-even, 75 
round-to-nearest, 75 
round-toward-zero, 75 
round-up, 75 
rounding mode, 75 
router, 608 
row access strobe, see RAS 
row-major order, 147, 296 
RPM (Revolutions Per Minute), 285 
run time, 349, 374 
running process, 404 


. s assembly language file, 350 

SA[CS:APP] shorthand for struct sockaddr, 
631 

safe trajectory, 577 
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sall [IA32] shift left double word, 105 
sarl [IA32] shift arithmetic right double word, 
105 
sbrk [C Stdlib] extend the heap, 523 
scheduler, 401 
scheduling, 401 
SDRAM (Synchronous DRAM), 280 
second-level domain name, 6/4 
sector, 285 
seek, 287 
seek operation (file), 620 
seek time, 287 
segment 
code, 371 
data, 377 
time, 454 
segregated fits, 544 
segregated storage, 544 
sem_init [Unix] initialize semaphore, 580 
sem_post [Unix] V operation, 58/ 
sem_wait [Unix] P operation, 58/ 
semaphore, 579 
binary, 580 
semaphore invariant, 580 
semaphore operation 
P, 579 
V, 579 
separate comilation, 349 
sequentially consistent, 573 
serve_dynamic [CS:APP] TINY helper func- 
tion, 661 
serve_static[CS:APP] TINY helper function, 
660 
server, 17, 605 
service, 605 
set index bits, 306 
set-associative cache, 3/3 
LFU replacement policy in, 315 
line matchine in, 314 
line replacement in, 315 
LRU replacement policy in, 315 
set selection in, 3/4 
word selection in, 314 
seta [IA32] set on unsigned greater, 112 
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setae [IA32] set on unsigned greater or equal, 
112 

setb [IA32] set on unsigned less, 112 

setbe [IA32] set on unsigned less or equal, 112 

sete [IA32] set on equal, 112 

setenv [Unix] create environment variable, 4/7 

setg [IA32] set on greater, 112 

setge [IA32] set on greater or equal, 112 

set jmp [C Stdlib] init nonlocal jump, 436 

set jmp.c[CS:APP] nonlocal jump example, 439 

set 1 [IA32] set on less, 112 

set le [IA32] set on less or equal, 112 

setna [IA32] set on unsigned not greater, 112 

set nae [IA32] set on unsigned not less or equal, 
112 

setnb [IA32] set on unsigned not less, 112 

set nbe [IA32] set on unsigned not less or equal, 
112 

setne [IA32] set on not equal, 112 

setng [IA32] set on not greater, 112 

setnge [IA32] set on not greater or equal, 112 

setnl [IA32] set on not less, 112 

setnle [IA32] set on not less or equal, 112 

setns [IA32] set on nonnegative, 112 

setnz [IA32] set on not zero, 112 

setpgid [Unix] set process group ID, 423 

sets [IA32] set on negative, 112 

setz [IA32] set on zero, 112 

shared area, 517 

shared library, 14, 374 

shared object, 374, 517 

shared object file, 352 

shared variable, 570 

sharing.c [CS:APP] sharing in Pthreads pro- 
grams, 571 

shell, 5 

shellex.c[CS:APP] shell main routine, 418 

shift, arithmetic, 40 

shift, logical, 40 

sh11 [IA32] shift left double word, 105 

short count, 62/ 

shrl [IA32] shift logical right double word, 105 

sigaction [Unix] install portable handler, 434 
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sigint1l.c [CS:APP] catches SIGINT signal, 
429 
siglong jmp [Unix] init nonlocal jump, 438 
sign bit, 42 
sign extension, 49 
Signal [CS:APP] portable version of signal, 
436 
signal [C Stdlib] install signal handler, 428 
signal (Pthreads), 587 
signal (Unix), 391, 419 
action, 428 
blocked, 423 
catching, 423, 424, 428 
default action, 428 
handler, 423, 426, 428 
handling, 428 
installing, 428 
pending, 423 
receiving, 423, 428 
sending, 423 
signal handler, 423, 426, 428 
signall.c[CS:APP] Flawed signal handler, 431 
signal2.c[CS:APP] flawed signal handler, 433 
signal3.c[CS:APP] flawed signal handler, 435 
signal4.c [CS:APP] portable signal handling 
example, 437 
significand, 69 
sigset jmp [Unix] init nonlocal handler jump, 
436 
SIMM (Single Inline Memory Module), 279 
simple segregated storage, 544 
single inline memory module, see SIMM 
single precision, 26, 69 
size class, 544 
sleep [Unix] suspend process, 4/4 
Smith, Richard, 172 
.So shared object file, 374 
sockaddr [Unix] Generic socket address struc- 
ture, 630 
sockaddr-_in [Unix] Internet-style socket ad- 
dress structure, 630 
socket, 6/8, 625 
socket [Unix] create a socket descriptor, 631 
socket address, 6/8 
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socket descriptor, 637 
socket pair, 6/8 
sockets interface, 6/1, 629 
source host, 609 
spare cylinder, 289 
spatial locality, 295 
speculative execution, 222 
spilling, 753, 245 
spindle, 285 
splitting, 529, 531 
splitting, iteration, 243 
SRAM (Static RAM), /0, 276 
DRAM vs., 277 
technology trends vs. DRAM, disk, and CPU 
(fig.), 294 
SRAM cache, see cache, 489 
SRAM cell, 276 
srand [CS:APP] seed random number genera- 
tor, 592 
stack 
frame, /32 
program stack, /4 
user stack, 74 
stall, 241 
Stallman, Richard, 4 
standard error, 620 
standard I/O library, 628 
standard input, 620 
standard output, 620 
startup code, 372 
stat [Unix] fetch file info, 623 
stat [Unix] stat structure, 625 
state, 392 
state transition, 576 
static [C] variable and function attribute, 355, 
572 
static content, 647 
serving, 647 
static library, 36/ 
static linker, 35/ 
static linking, 35/ 
static random-access memory, see SRAM 
static variable, local, 572 
status word, floating-point, 184 
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STDERR_FILENO [Unix] Constant for standard 
error descriptor, 620 
STDIN_FILENO [Unix] Constant for standard in- 
put descriptor, 620 
stdlib, see C standard library 
STDOUT_FILENO [Unix] Constant for standard 
output descriptor, 620 
Stevens, W. Richard, 621 
stopped process, 404 
store buffer, 257 
stream, 628 
streaming media, 337 
stride-& reference pattern, 296 
stride-1 reference pattern, 296 
strong symbol, 358 
. strtab section, 354 
struct [C] structure data type, 153 
subdomain, 6/4 
subl [IA32] subtract double word, 105 
sumarraycols [CS:APP] column-major sum, 
324 
sumarrayrows [CS:APP] row-major sum, 323 
sumvec [CS:APP] vector sum, 322 
supercell, 277 
superscalar processor, 227 
supervisor mode, 400 
surface, 285 
suspended process, 404 
swap area, 517 
swap file, 517 
swap space, 517 
swapped in, 492 
swapped out, 492 
swapping, 492 
sweep phase, 548 
switch 
translation, 128 
switch [C] multi-way branch statement, 128 
symbol 
global, 354 
local, 354 
strong, 358 
weak, 358 
symbol resolution, 351 
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symbol table, 354 

. symtab section, 354 

synchronization error, 573 

synchronize, 579 

synchronous exception, 395 

system bus, 282 

system call, 73, 15, 395 
slow, 430 

system-level function, 402 


T2B (two’s complement to binary conversion), 
45 
T2U (two’s complement to unsigned conversion), 
45 
table 
jump, /28 
tag bits, 305, 306 
target, jump, //4 
TCP (Transmission Control Protocol), 6/2 
TCP/IP (Transmission Control Protocol/Internet 
Protocol), 677 
TELNET remote login program, 648 
temporal locality, 295 
terminated process, 404 
testb [IA32] test bytes, 111 
testl1 [IA32] test double word, 111 
testw [IA32] test word, 111 
.text section, 353 
text line, 623 
Thompson, Ken, 12 
thrashing, 3/2, 493 
thread, 74, 563 
reaping of, 568 
variables shared by, 570 
thread context, 564 
thread ID (TID), 564 
thread routine, 567 
thread termination 
explicit, 567 
implicit, 567 
thread-safe function, 592 
thread-unsafe function, 592 
throughput, 527 
TID, see thread ID 
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time 
interval, 451 
TIME Unix time command, 456 
time segment, 454 
time slicing, 399 
timebomb, beeping, 590 
timebomb.c [CS:APP] Pthreads timeout wait- 
ing, 59/ 
timeout waiting, 58S 
timer 
latency, 478 
resolution, 478 
times [Unix] timing function, 456 
TINY [CS:APP] Web server, 652 
tiny.c[CS:APP] TINY Web server, 655 
TLB (Translation Lookaside Buffer), 500 
TLB index, see TLBI 
TLB tag, see TLBT 
TLBI (TLB Index), 50/ 
TLBT (TLB Tag), 501 
TMazx (maximum two’s complement number), 42 
TMin (minimum two’s complement number), 42 
Torvalds, Linus, 16 
touch (a page), 5/6 
track, 285 
track density, 286 
trajectory, 577 
transaction, 605 
transfer time, 288 
transfer units, 307 
transition, 576 
translation lookaside buffer, see TLB 
transmission control protocol, see TCP 
trap, 394, 395 
trap, hardware, 248 
two’s complement 
addition, 57 
multiplication, 62 
negation, 60 
two’s complement number encoding, 42 
type 
associated with pointer, 23 
definition with typedef, 28 
typedef [C] type definition, 28 
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U2B (unsigned to binary conversion), 45 
U2T (unsigned to two’s complement conversion), 
45 
UDP (Unreliable Datagram Protocol), 677 
UMaz (maximum unsigned number), 42 
Unicode, 33 
unified cache, 319 
Unix 
4.xBSD, 12 
history of, 12 
Solaris, 12 
System V, 12 
Unix I/O, 619-629 
C standard I/O vs., 628 
Unix signal, 419 
unix_error [CS:APP] Unix-style error-handling, 
403, 403 
unrealiable datagram protocol, see UDP 
unrolling, loop, 233 
unsafe region, 577 
unsafe trajectory, 577 
unsetenv [Unix] delete environment variable, 
417 
unsigned 
addition, 56 
multiplication, 62 
number encoding, 4/ 
URI (Uniform Resource Identifier), 649 
URL (Universal Resource Locator), 648 
USB (Universal Serial Bus), 290 
user mode, 394, 395, 400, 451 


V semaphore operation, 579 
VA, see virtual address 
valid bit 

in cache line, 305 

in page table, 489 
variable 

automatic, 572 

global, 570 

local, 572 

static, 572 
variable rate clock, 480 
victim block, 302 


INDEX 


virtual 
address space, 23 
memory, 23 
virtual address, 487 
virtual address space, 487 
virtual addressing, 487 
virtual memory, 485, 485-556 
area, 513 
management of, 522 
segment, 5/3 
virtual page (VP), 488 
virtual page number, see VPN 
virtual page offset, see VPO 
virus 
computer, 171 
VM, see virtual memory 
void * [C] untyped pointer, 30 
VP, see virtual page 
VPN (Virtual Page Number), 498 
VPO (Virtual Page Offset), 498 
VRAM (Video RAM), 281 


wait set, 409 
waitpid [Unix] wait for child process, 409 
waitpidl [CS:APP] waitpid example, 4/2 
waitpid2 [CS:APP] waitpid example, 4/3 
warmed up cache, 302 
weak symbol, 358 
Web client, see browser 
well-known port, 6/8 
while [C] loop statement, 122 
word, 6 
word size, 6, 25 
working set, 303, 493 
worm program, 171 
wrapper 
error-handling, 403 
write [C Stdlib] write file, 620 
write hit, 3/9 
write operation (file), 620 
write transaction, 28/ 
example of, 282 
write-allocate, 3/9 
write-back, 319 
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write-through, 3/9 
writen[CS:APP] write without short count, 62/, 
622 


xorl [IA32] exclusive-or double word, 105 


zero extension, 49 
zombie process, 409 


